【探索25-1】芝麻開門──藉助機器與語音開創人類文明

2021 年 06 月 21 日2021 年 06 月 21 日 CASE PRESS

分享至

語言是人類文明進展的媒介，並藉由文字或聲音等形式傳遞，雖然機器在辨識甚至編寫文字訊息已有相當豐富的成果，但語音世界的大門才剛被開啟。在現今人手一機的時代，除語音辨識和輸入提高資訊傳遞的效率外，Siri、Google 等語音助理的出現，在便利之外也增添了生活的樂趣。但究竟這些智能語音助理，是如何能夠聽得懂人類語言？又如何隨著一代代程式的更新不斷「進化」的呢？由中文語音辨識的先驅、台大電機系的特聘教授李琳山，揭開機器理解人類語言的神秘面紗，並帶領大家一同探究機器的進化對人類發展的影響。

講者／中央研究院院士/臺灣大學電機工程學系特聘教授李琳山
彙整撰文／呂方雯

●機器如何聽懂人類語言

語言是人類與動物最主要的差別之一，也是孕育人類文明的重要元素。在語音的部分，唇齒在口腔中的各種精細運作，組成了豐富的基本音與字詞，而工程師為了要讓機器除了記憶資料、重複執行任務外，還能理解辨識人類的語言、展現出看似活學活用的「人工智慧」，其中一個方式便是類神經網路 (neural network) 模型。

類神經網路的概念來自腦神經科學，神經元彼此連結、傳遞訊息，而在類神經網路中，每個節點都和上下層的其他節點彼此相連。在輸入、輸出層之間，則有著大量的隱藏層 (hidden layers)，一層一層地擷取輸入資料的特徵。在複雜的神經網路模型中，因為有巨量可調整的參數和資料，能大幅提升精細度，雖然本質上仍是透過一張超精細的課表來執行任務，但看起來像是「活學活用」。舉例來說，當機器學習了上萬張不同貓咪的照片、擷取出屬於貓咪的共同特徵後，未來雖然看到一張從未看過的貓咪圖像，卻仍然有機會正確做出判斷。

應用到這次的主角「語音」上，聲音的音波能夠輕易轉換成電訊號，並透過富氏轉換 (fourier transformation) 幫助後續分析進行。而特徵擷取 (feature extraction) 用在語音辨識上，則可以擷取出每段音頻與唇齒舌相對關係有關的參數，是一個數十維的巨大向量，以便進行後續分析、比對並選擇出適合的模型。在發展和選擇模型時，則常會用到數學中的隱藏式馬可夫模型 (hidden Markov models, HMM) 和狀態轉移矩陣 (state transition porbabilities)，透過輸入資料的學習，計算出不同語音組合會出現的機率及其對應的文字型態，進而做出有效的判斷與回應。

●加速語音辨識的深層學習

有趣的是，許多時候機器的「深度學習」不只來自一台機器，而是能透過對抗式學習 (adversial learning) 與生成對抗網路 (generative adversarial network, GAN) 讓機器有機會展現出「創作」。以兩台機器為例，其中一台稱為生成器 (generator)，不斷生產創作，而另一台鑑別器(discriminator) 則是找出生成器的結果與目標結果間的差異並評分。這樣反覆固定一台機器訓練另一台，在互相對抗中彼此學習後，生成器的產出成品就會跟鑑別器中的人類作品越來越像卻不盡相同，也讓實質不斷重複任務的機器，做出看似「有創意」的作品。

過去人類透過「語言學」這套知識系統來理解語言的架構，而如果採用端到端深層學習 (end-to-end deep learning) 語音辨識的話，只要資料夠充足，則能夠完全透過深層學習、不斷擷取比對資料特徵來理解一個語言的架構、讓機器盡可能學到聲音、詞彙、句型等各種知識並舉一反三地使用該語言。人一生中能聽到的聲音最多數十萬小時，相比之下，機器則可以做到在短時間接收大量的聲音資訊，讓語音辨識的科學研究進展更加快速。

●語音如何促進人類文明發展

在李琳山教授的理想中，語音辨識的發達將能對人類文明進程有諸多助益。除能作為與語音版的 Google 外，更能幫助人類將網路資訊去蕪存菁，以便於資訊爆炸的時代快速掌握關鍵知識。教授更進一步認為，語音辨識的發展將是未來促成「個人化隨選教育」的重要基石，在正規教育體制外，除了能根據語音關鍵字提供適合的課程外，還能夠在短時間內建立對不同領域的了解。

對教育相當感興趣的李教授，也當場展示了許多有趣的研究成果。早年在中文的開源影片資料較少時，李琳山教授先以公視新聞進行實作，偵測並組合關鍵的語音與影像片段，將一則則新聞濃縮成簡短的摘要。近年將這樣的技術運用在線上課程後，除能幫助學生摘要上課內容、快速複習及搜索，還能將相似的語音資訊分群並組成二維樹狀結構，透過機器判斷段落間的關係與先後順序，建構章節間的學習地圖，讓機器成為學生最及時的、最客製化的助教，讓學習變得更有效率。

將近二十五年前，電腦開始能輸入語音，但依然以文字作為資訊主要傳遞的媒介，而現今是科技研發的黃金時代，超強機器、巨量數據、深層學習等皆是史上未曾出現過的新機會，借助機器的力量，更有機會開啟語音寶藏的大門，也開始在今日的科技文明中看到語言聲音扮演的角色。而在曙光乍現時，雖然個人化隨選教育的路途仍然漫長，但隨著新技術的出現、過去難題的逐步克服，這樣的願景似乎也已近在咫尺。

(Visited 107 times, 1 visits today)

分享至

views