機器翻譯功力再升級

2019 年 07 月 01 日2022 年 01 月 04 日 intern NMT, PBMT, 片語, 神經網路

分享至

撰文／張俊盛｜轉載自《科學人》2016年11月第177期

最近不乏人工智慧（AI）展現驚人突破的消息，大都圍繞在類神經網路的再起，以及深度學習辦得到、甚至超越人類能力的影像辨識或是棋賽。今年9月Google又在一連串的進展上添加一筆，推出Google翻譯上線10年來最大的突破與改版─Google類神經機器翻譯（neural machine translation， NMT）。NMT採用多層次的神經網路連結原文句與譯文，輸出的字詞顧慮到全句文脈，一改Google翻譯以往「片語為本的機器翻譯」（phrase-based machine translation，PBMT）缺點，例如不考慮上下文、獨立翻譯一個個片語。

早在1943年，麥卡洛克和匹茲就提出類似人類神經系統的計算與學習模型：有輸入、隱藏、輸出等三層神經元，這些神經元逐層加權、整合、傳遞訊息以完成任務。1980年代，學者發現了反向擴散演算法，可運用輸入、輸出的訓練資料自動調整權重，訓練類神經網路。

1989年，美國紐約大學的楊立昆應用反向擴散演算法，在貝爾實驗室提出三重隱藏層的類神經網路，能有效辨識手寫的郵遞區號。加拿大多倫多大學的辛頓推動神經網路亦不遺餘力，他在1992年9月的Scientific American上清楚解釋，反向擴散演算法就是透過神經網路輸出層的誤差，回頭調整權重來訓練網路，達到輸出最佳化的目標。

有效的演算法，加上可推廣的應用潛力，一時之間，類神經網路蔚為AI的顯學。然而，受限於當時電腦的計算能力與稀少的數位化資料，多層次類神經網路的概念雖好，卻難以突破實作上的瓶頸，使得效果不如人意。類神經網路的光輝漸漸褪色，被更簡單有效的機器學習方法取代。

如今在巨量資料、高速計算的時代，類神經網路的深度學習技術終於否極泰來，藉各種延伸應用，證明比其他機器學習模型更有效。辛頓和楊立昆分別為Google和臉書效力，把深度學習的AI帶入產業。

從1996年起，當學者開始探索NMT的可行性時，就發現最簡單的NMT的效果也足以和PBMT並駕齊驅。之後，還有更多進展：包括罕見字處理、輸入焦點、字根模型，以及提升執行的速度，終於使得NMT產品化。Google翻譯的NMT採用特殊的遞迴神經網路（recurrent neural network），把輸入句的每一個字存起來，之後再透過另一個類似的網路逐字產生翻譯結果。

從下表的例子可以看出來NMT的翻譯非常流暢，也幾乎傳達了原文要義。美中不足的是，NMT把「中加總理年度對話機制」和「與加拿大總理杜魯多」兩個片語的翻譯，前後倒置，稍稍偏離原意。這凸顯NMT不重視結構的缺失。為了處理好結構、詞序，有不少學者提出多種同步文法的機器翻譯模型，但都尚未能顯著勝過PBMT。

機器翻譯的典範一再轉移，從未定於一尊。NMT當然距離專業翻譯還有一大段距離，未來如何繼續縮短差距仍然渾沌不明。是進一步延伸NMT，納入語言的句法結構？還是加入其他型態的文法增強效果？或是出現整合NMT、PBMT等不同模型的混合式機器翻譯系統？我們拭目以待。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 125 times, 1 visits today)

分享至

views