讓機器自己學習語音的實踐者—專訪李宏毅

分享至

讓機器自己學習語音的實踐者—專訪李宏毅

採訪/魏妤亘

偶然接觸卻成了專業

李宏毅教授的大學時期,雖然人工智慧已發展,但語音並非時下熱門的研究主題,學生時期的他也從沒想過自己未來會一腳踏進這領域。當時,系上有一位相當厲害的老師-李琳山教授,規定欲修習他專題的學生必須兩人一組。原先是李宏毅教授的同學想要修課所以找他一起,他沒多想便答應了,殊不知就此開啟對人工智慧語音的接觸與喜愛。後來,研究所也繼續進入李琳山老師的實驗室學習,研究AI語音技術至今。

 

語音的現實與夢想藍圖

現今大家所說的「人工智慧」通常指的就是深度學習技術,這個技術也被稱為「類神經網路」。類神經網路顧名思義與人腦類似,發展上從起初僅能建構單層,至今建構出更為複雜的多層類神經網路,但這過程並非一帆風順。事實上,1980年代就已發展出類神經網路技術,然而,人們花費心力卻一直無法成功訓練多層的類神經網路。

這個困境一直到受限玻爾茲曼機(restricted Boltzmann machine,RBM)的出現,才看見一線曙光。2012年,台大的語音處理實驗室因著引入此技術,加上能力出眾的學弟葉青峰努力,共同將機器深度學習語音的基本技術架構完成。而後發現,即使不使用RBM的技術,也能夠疊深類神經網路。對此,李宏毅教授認為,真正突破機器深度學習發展的是GPU的進步與人們確信可以達成的「信仰之力」,前者縮短了運算所需之時間,後者讓人們耐下性子等待。

現今的語音辨識系統,仍需給予機器大量的「有標註資料」。須由人類首先對聲音資料進行標註,機器才能夠對這段聲音進行學習。相較之下,人類幼兒學習語音時,更多時候是藉由聆聽環境中的語言聲音來學習一個新的語言,鮮少需要大人一個辭彙一個辭彙的教導。

為此,李宏毅教授思考著,機器是否可以在被給予不具標註的聲音訊號後,即知道每一段聲音訊號所對應的詞彙,甚至更進一步瞭解聲音訊號代表的意思?為著這樣的目標他努力著。目前,語音辨識系統在沒有人教導,單純給予聲音訊號的狀況下,自己做到了36%的音標辨識正確率,已遠比隨機還要好。

機器有可能跟人進行對話嗎?

現今,大家或許對於Siri、Alexa等相當熟悉,也會疑問機器是否真的已發展到能和人類進行對話的程度?針對這個問題,李宏毅教授認真向我們說明,目前市面上常見的語音對話機器,並非機器本身真的瞭解妳所提出的問題,而是透過人類事先輸入的規則,機器會回覆特定的答案。的確,機器已具有能夠自己產生正確句子的能力,但是要「深入理解」並且「產生合宜的答案」還相當困難。讓機器跟人對話確實是個人類的願景,但要達到這件事情還有很長一段路要走。

聽不懂不是你的錯,從學生的角度思考

當聊到「AI界最強youtuber」的封號,李宏毅教授娓娓道來當初在課程中加入有趣元素的初衷。他在當學生的時候,每當看不懂教科書或是聽不懂上課內容,第一反應就是認為自己太笨;當上老師後,卻發現比起學生笨,更可能是老師沒有解釋清楚來讓學生理解。

2016年秋季所錄的機器學習課程,而後在網路上爆紅。這是他始料未及的事情,當時的他只單純希望,比起傳統教科書上的例子,更期盼以靠近生活的例子來讓學生們知道機器學習究竟多麼有趣。因著這樣的想法,花了無數時間與腦力,他將時下最流行的寶可夢手游帶進課程。爆紅之後,甚至有外國人以Facebook向他詢問這些例子來自哪一本教科書。當李宏毅教授回覆這並不來自哪一本教科書,而是自己絞盡腦汁的成果時,對方真的相當驚訝。在教導學生上,他站在學生的角度思考,讓課程再次活了過來。

此外,對於未來期盼投入AI領域的本科系學生,李宏毅教授認為,寫程式與數學背景是必備的。你必須有能力寫出程式讓機器具備學習能力,過程中也需要數學背景來糾錯。然而,最核心的能力仍是保持「不斷學習」的態度,當前AI領域發展的速度一日千里,只有持續學習才能夠跟上。

從不同的位置瞭解AI

「AI目前還有很多事情無法做到,短期間內也不會取代所有工作,只會取代部分人們不想要且非常例行性的工作。」面對普遍大眾可能發生的恐慌,李宏毅教授如此說道。儘管時下許多公司看好人工智慧而想要投入,教授認為,具決定權的高階主管們首先該做的事是瞭解AI目前發展的階段以及開發所需要投入的資源。機器學習在實際訓練時經常發生預料之外的事,產品的開發週期也難以準確預期。而對於正在學校學習的學生,若希望能夠瞭解機器學習或深度學習,現在大學皆具備豐富資源。除了在學校修習相關的入門課,網路上也有很多線上課程資源。在不同的位置上,只要真心想要瞭解,這個時代不怕沒有資源。

未來,人工智慧的確還有很長一段路要走,但在語音方面,我們相信李宏毅教授持續會是參與者。

(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)

(Visited 37 times, 1 visits today)

分享至
views