【探索26-4】AI 如何解構、轉化與再造音樂

依照流程及功能,我們能將AI在多媒體處理上的角色,分為三部曲─解構(deconstruct)、轉化(transform)、再造(recreate)。「解構」是從疊合又複雜的聲音中,抽絲剝繭出單一聲音音訊;「再造」則以訓練AI模型方式,生產出未曾演出的創作。這次我們聚焦於三部曲中的解構,了解它的技術進展與你我生活中的應用,如城市喧囂聲中夾雜著汽車聲、機車聲、卡車聲、警察哨聲等,是如何一一辨識出來的。

講者|台灣大學資訊工程系 張智星
彙整撰文|鄧年芮

對於人耳來說,從混合聲音當中辨認出特定單一聲音,是十分容易的。不僅因為我們分辨能力較佳,且我們能從上下文或時間前後,進而推敲是什麼聲音。然而對於電腦來說卻是相當困難的,這好比說:今天要從奶茶中分離出茶和奶,無法單獨立即倒出來,而是需要一些化學方式分離而得的。

隨著科技技術進步,AI在多媒體處理方面已有明顯進步。十幾年前,AI在辨認同時講話的兩人時無法辨識清楚,如今已經能準確辨識了;又如過去想從混和音中分離單一聲音,分離後殘缺不全問題嚴重,現今也能使分離後音訊至少保留九成以上完整性了。

●AI解構音樂模型的訓練與限制

在解構音樂片段前,首先必須將AI相關演算建置完成。為了建立AI模型,開發者會預先準備足夠多的資料庫,作為進行訓練的input,例如:利用多個單軌音樂混和後當作一筆筆資料。然而,單軌音樂其實並非容易取得的,因此目前多是向專業音樂室購買單軌或混音音樂,再運用已建構的鋼琴、人聲模型,將開發者想擷取聲音分離出來。張教授也笑說,這個訓練過程實在是蠻久的,大概需要個七天七夜呢!

而先前提到分離後音訊完整性已有至少九成,那最後剩餘一成又是什麼原因造成的呢?其實說到容易判斷失真的主因,不外乎資料庫所擁有資料量較少、音域非常見等等。目前已知海豚音、哨音等,因為音高相對高,加上AI判讀時偵測僅那三、五秒時間,而使判斷上較為困難。另外台灣的嗩吶、印度的Tabla、拉丁樂器Bongo等各項民俗樂器,也因為目前資料庫尚不完整,使得判斷容易失真。不過想必音訊完整性及還原度等,經過不斷大量補充資料庫後,未來能夠更上一層樓。

●AI解構音樂應用─建立KTV歌唱評分系統

解構成單軌音樂後,能應用於KTV歌唱評分系統的開發。主要分為兩個層面,一是建構KTV與提詞字幕,二是收聽現場演唱者歌聲後的評分系統。前者作業流程是,將已發行歌曲的音軌,分離出人聲、音樂兩大類,而人聲若是有和音時也視為伴奏,會一併放入音樂這個類別中。接著訊號轉為MIDI檔案,其能傳送音調、音樂強度、音量、顫音等參數,目的是將這些參數一致化、標準化,幫助我們判斷音高。歌詞方面則透過歌詞網等擷取。最後將歌詞、人聲、音樂伴奏皆對位在一起,便完成了常見的KTV音檔。目前來說,抒情歌的製作是較為容易的,若遇到同一人擔任和音及主唱時,難度則較高。

後者歌唱評分系統,評分項目能包括:音高、音長、滑音、抖音、轉音等。而音色評分、咬字評分、表情評分等仍在開發中,像是咬字是否清楚是較難界定標準的,畢竟唱歌若咬字極為清晰,恐怕就變成數來寶了吧!實際場域上已有與廠商合作、打造初步軟體,能將歌唱者、原唱歌手的音高、滑音進行比對,秀出參考分數、歌唱排行榜,來增加歡唱時的娛樂性。

●AI解構音樂應用─音樂節奏遊戲、未知音樂比對

解構後的單軌音樂,近年也發揮在相當熱門的音樂節奏遊戲上,如「鋼琴鍵盤遊戲」。伴奏音樂裡各個拍點、擊鼓點,能藉由電腦依照難易度類別,篩選出需要打節奏的拍點。玩家只要在節奏上敲擊拍點,便能順利得分。另一常見應用是搜尋未知歌曲。想像一下,有天你在咖啡廳聽到一首喜歡但不認識的歌,只要拿出音樂辨識相關軟體,便能藉由音高追蹤等資訊,找到相對應人聲或歌詞,如此便能迅速知道這首歌是什麼,甚是方便啊!

當然,這樣的單軌音樂,也能輕鬆運用在抓歌曲抄襲(song plagiarism)或是版權歌曲的不當播放上。僅要將兩者的音軌比對一下,便輕易知道哪個片段一樣、哪些地方相似。

隨著AI發展興盛,AI所創作內容能否成為智慧財產權所保護內容,一直是備受爭議的議題。究竟AI解構後再造的音樂,其智慧財產權歸屬於誰呢?音樂製造商的又是否有權利來分享相關利潤呢?或許這些問題還要一段時間來獲得共識,但可以知道的是,屆時想必AI解構、轉化與再造音樂的技術又更深更廣了。

 

(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)

views