【探索26-4】AI 如何解構、轉化與再造音樂

2021 年 12 月 14 日2021 年 12 月 09 日 CASE PRESS

分享至

依照流程及功能，我們能將AI在多媒體處理上的角色，分為三部曲─解構(deconstruct)、轉化(transform)、再造(recreate)。「解構」是從疊合又複雜的聲音中，抽絲剝繭出單一聲音音訊；「再造」則以訓練AI模型方式，生產出未曾演出的創作。這次我們聚焦於三部曲中的解構，了解它的技術進展與你我生活中的應用，如城市喧囂聲中夾雜著汽車聲、機車聲、卡車聲、警察哨聲等，是如何一一辨識出來的。

講者｜台灣大學資訊工程系張智星
彙整撰文｜鄧年芮

對於人耳來說，從混合聲音當中辨認出特定單一聲音，是十分容易的。不僅因為我們分辨能力較佳，且我們能從上下文或時間前後，進而推敲是什麼聲音。然而對於電腦來說卻是相當困難的，這好比說：今天要從奶茶中分離出茶和奶，無法單獨立即倒出來，而是需要一些化學方式分離而得的。

隨著科技技術進步，AI在多媒體處理方面已有明顯進步。十幾年前，AI在辨認同時講話的兩人時無法辨識清楚，如今已經能準確辨識了；又如過去想從混和音中分離單一聲音，分離後殘缺不全問題嚴重，現今也能使分離後音訊至少保留九成以上完整性了。

●AI解構音樂模型的訓練與限制

在解構音樂片段前，首先必須將AI相關演算建置完成。為了建立AI模型，開發者會預先準備足夠多的資料庫，作為進行訓練的input，例如：利用多個單軌音樂混和後當作一筆筆資料。然而，單軌音樂其實並非容易取得的，因此目前多是向專業音樂室購買單軌或混音音樂，再運用已建構的鋼琴、人聲模型，將開發者想擷取聲音分離出來。張教授也笑說，這個訓練過程實在是蠻久的，大概需要個七天七夜呢！

而先前提到分離後音訊完整性已有至少九成，那最後剩餘一成又是什麼原因造成的呢？其實說到容易判斷失真的主因，不外乎資料庫所擁有資料量較少、音域非常見等等。目前已知海豚音、哨音等，因為音高相對高，加上AI判讀時偵測僅那三、五秒時間，而使判斷上較為困難。另外台灣的嗩吶、印度的Tabla、拉丁樂器Bongo等各項民俗樂器，也因為目前資料庫尚不完整，使得判斷容易失真。不過想必音訊完整性及還原度等，經過不斷大量補充資料庫後，未來能夠更上一層樓。

●AI解構音樂應用─建立KTV歌唱評分系統

解構成單軌音樂後，能應用於KTV歌唱評分系統的開發。主要分為兩個層面，一是建構KTV與提詞字幕，二是收聽現場演唱者歌聲後的評分系統。前者作業流程是，將已發行歌曲的音軌，分離出人聲、音樂兩大類，而人聲若是有和音時也視為伴奏，會一併放入音樂這個類別中。接著訊號轉為MIDI檔案，其能傳送音調、音樂強度、音量、顫音等參數，目的是將這些參數一致化、標準化，幫助我們判斷音高。歌詞方面則透過歌詞網等擷取。最後將歌詞、人聲、音樂伴奏皆對位在一起，便完成了常見的KTV音檔。目前來說，抒情歌的製作是較為容易的，若遇到同一人擔任和音及主唱時，難度則較高。

後者歌唱評分系統，評分項目能包括：音高、音長、滑音、抖音、轉音等。而音色評分、咬字評分、表情評分等仍在開發中，像是咬字是否清楚是較難界定標準的，畢竟唱歌若咬字極為清晰，恐怕就變成數來寶了吧！實際場域上已有與廠商合作、打造初步軟體，能將歌唱者、原唱歌手的音高、滑音進行比對，秀出參考分數、歌唱排行榜，來增加歡唱時的娛樂性。

●AI解構音樂應用─音樂節奏遊戲、未知音樂比對

解構後的單軌音樂，近年也發揮在相當熱門的音樂節奏遊戲上，如「鋼琴鍵盤遊戲」。伴奏音樂裡各個拍點、擊鼓點，能藉由電腦依照難易度類別，篩選出需要打節奏的拍點。玩家只要在節奏上敲擊拍點，便能順利得分。另一常見應用是搜尋未知歌曲。想像一下，有天你在咖啡廳聽到一首喜歡但不認識的歌，只要拿出音樂辨識相關軟體，便能藉由音高追蹤等資訊，找到相對應人聲或歌詞，如此便能迅速知道這首歌是什麼，甚是方便啊！

當然，這樣的單軌音樂，也能輕鬆運用在抓歌曲抄襲(song plagiarism)或是版權歌曲的不當播放上。僅要將兩者的音軌比對一下，便輕易知道哪個片段一樣、哪些地方相似。

隨著AI發展興盛，AI所創作內容能否成為智慧財產權所保護內容，一直是備受爭議的議題。究竟AI解構後再造的音樂，其智慧財產權歸屬於誰呢？音樂製造商的又是否有權利來分享相關利潤呢？或許這些問題還要一段時間來獲得共識，但可以知道的是，屆時想必AI解構、轉化與再造音樂的技術又更深更廣了。

(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)

(Visited 347 times, 1 visits today)

分享至

views