【探索25-1】芝麻開門──藉助機器與語音開創人類文明

語言是人類文明進展的媒介,並藉由文字或聲音等形式傳遞,雖然機器在辨識甚至編寫文字訊息已有相當豐富的成果,但語音世界的大門才剛被開啟。在現今人手一機的時代,除語音辨識和輸入提高資訊傳遞的效率外,Siri、Google 等語音助理的出現,在便利之外也增添了生活的樂趣。但究竟這些智能語音助理,是如何能夠聽得懂人類語言?又如何隨著一代代程式的更新不斷「進化」的呢?由中文語音辨識的先驅、台大電機系的特聘教授李琳山,揭開機器理解人類語言的神秘面紗,並帶領大家一同探究機器的進化對人類發展的影響。

講者/中央研究院院士/臺灣大學電機工程學系特聘教授 李琳山
彙整撰文/呂方雯

●機器如何聽懂人類語言

語言是人類與動物最主要的差別之一,也是孕育人類文明的重要元素。在語音的部分,唇齒在口腔中的各種精細運作,組成了豐富的基本音與字詞,而工程師為了要讓機器除了記憶資料、重複執行任務外,還能理解辨識人類的語言、展現出看似活學活用的「人工智慧」,其中一個方式便是類神經網路 (neural network) 模型。

類神經網路的概念來自腦神經科學,神經元彼此連結、傳遞訊息,而在類神經網路中,每個節點都和上下層的其他節點彼此相連。在輸入、輸出層之間,則有著大量的隱藏層 (hidden layers),一層一層地擷取輸入資料的特徵。在複雜的神經網路模型中,因為有巨量可調整的參數和資料,能大幅提升精細度,雖然本質上仍是透過一張超精細的課表來執行任務,但看起來像是「活學活用」。舉例來說,當機器學習了上萬張不同貓咪的照片、擷取出屬於貓咪的共同特徵後,未來雖然看到一張從未看過的貓咪圖像,卻仍然有機會正確做出判斷。

應用到這次的主角「語音」上,聲音的音波能夠輕易轉換成電訊號,並透過富氏轉換 (fourier transformation)  幫助後續分析進行。而特徵擷取 (feature extraction) 用在語音辨識上,則可以擷取出每段音頻與唇齒舌相對關係有關的參數,是一個數十維的巨大向量,以便進行後續分析、比對並選擇出適合的模型。在發展和選擇模型時,則常會用到數學中的隱藏式馬可夫模型 (hidden Markov models, HMM) 和狀態轉移矩陣 (state transition porbabilities),透過輸入資料的學習,計算出不同語音組合會出現的機率及其對應的文字型態,進而做出有效的判斷與回應。

●加速語音辨識的深層學習 

有趣的是,許多時候機器的「深度學習」不只來自一台機器,而是能透過對抗式學習 (adversial learning) 與生成對抗網路 (generative adversarial network, GAN) 讓機器有機會展現出「創作」。以兩台機器為例,其中一台稱為生成器 (generator),不斷生產創作,而另一台鑑別器(discriminator) 則是找出生成器的結果與目標結果間的差異並評分。這樣反覆固定一台機器訓練另一台,在互相對抗中彼此學習後,生成器的產出成品就會跟鑑別器中的人類作品越來越像卻不盡相同,也讓實質不斷重複任務的機器,做出看似「有創意」的作品。

過去人類透過「語言學」這套知識系統來理解語言的架構,而如果採用端到端深層學習 (end-to-end deep learning) 語音辨識的話,只要資料夠充足,則能夠完全透過深層學習、不斷擷取比對資料特徵來理解一個語言的架構、讓機器盡可能學到聲音、詞彙、句型等各種知識並舉一反三地使用該語言。人一生中能聽到的聲音最多數十萬小時,相比之下,機器則可以做到在短時間接收大量的聲音資訊,讓語音辨識的科學研究進展更加快速。 

●語音如何促進人類文明發展 

在李琳山教授的理想中,語音辨識的發達將能對人類文明進程有諸多助益。除能作為與語音版的 Google 外,更能幫助人類將網路資訊去蕪存菁,以便於資訊爆炸的時代快速掌握關鍵知識。教授更進一步認為,語音辨識的發展將是未來促成「個人化隨選教育」的重要基石,在正規教育體制外,除了能根據語音關鍵字提供適合的課程外,還能夠在短時間內建立對不同領域的了解。

對教育相當感興趣的李教授,也當場展示了許多有趣的研究成果。早年在中文的開源影片資料較少時,李琳山教授先以公視新聞進行實作,偵測並組合關鍵的語音與影像片段,將一則則新聞濃縮成簡短的摘要。近年將這樣的技術運用在線上課程後,除能幫助學生摘要上課內容、快速複習及搜索,還能將相似的語音資訊分群並組成二維樹狀結構,透過機器判斷段落間的關係與先後順序,建構章節間的學習地圖,讓機器成為學生最及時的、最客製化的助教,讓學習變得更有效率。

將近二十五年前,電腦開始能輸入語音,但依然以文字作為資訊主要傳遞的媒介,而現今是科技研發的黃金時代,超強機器、巨量數據、深層學習等皆是史上未曾出現過的新機會,借助機器的力量,更有機會開啟語音寶藏的大門,也開始在今日的科技文明中看到語言聲音扮演的角色。而在曙光乍現時,雖然個人化隨選教育的路途仍然漫長,但隨著新技術的出現、過去難題的逐步克服,這樣的願景似乎也已近在咫尺。

人瀏覽過