機器是否已經達到人類的境界?
講者/陳信希(台大資工系教授) |彙整/楊于葳
整理自2018.11.10〈CASE探索系列講座第20期.子非人,安知人之語?—談自然語言處理〉
與生活形影不離的應用—機器翻譯
機器翻譯換言之,就是希望透過機器將不同語言做轉換。機器翻譯目前進步到什麼程度呢?老師將逐年使用google翻譯的結果紀錄下來,發現每年的翻譯的確有在變化,但翻譯的結果還是有很大的進步空間。機器翻譯的發展早在冷戰時期,當時蘇聯跟美國之間互相在找對方的情報,如何很快的把俄文變成英文,變成是很重要的技能。從早期的冷戰時期情報收集,到近年來生活層面的翻譯需求隨處可見,但我們要知道的是,語言間的詞彙使用與結構上有很大差異性,所以我們必須要知道,在整個過程裡面會面臨什麼樣的挑戰與搭配,圖像分析即是一個方法。假如我們到日本、韓國,我們不需要知道如何打出日文、韓語,只要用手機翻譯掃描,馬上就可以得到相互對應的翻譯結果。
美國版的百萬小學堂,這次要與超級電腦一起比賽—問答系統
問答系統包括語音問答,如智慧手機的問答、智慧音箱等,讓我們可以對著機器詢問我們想問的問題。在2011年2月,美國曾舉辦人與電腦的機智問答比賽,由超級電腦DeepQA(簡稱華生,Watson),與過去兩位機智問答的冠軍簡寧斯(Ken Jennings)與洛特(Brad Rutter)進行一場問答比賽。這場比賽的最後的結果,是由超級電腦華生得到冠軍,簡寧斯與洛特分別得到第二名與第三名。在問答系統中超級電腦華生幾乎能既精準又正確的回答出答案,但有時的回答甚至讓人覺得匪夷所思,這是因為超級電腦在回答問題的過程中,會面臨許多難題。首先要分析問題,找出問題在問什麼,第二要分析內容,擷取正確答案,還要有計算支持或反駁資訊的信心度,並且涵蓋自然語言處理、資訊檢索、機器學習、知識表示和推理、大規模平行計算等應用在裡面,而這一切都環環相扣、密不可分。
例如我們問超級電腦華生「是誰創立了諾貝爾獎?」首先要知道,題目問的是「一個人」,而電腦系統的文件中,可能有非常多個文件可以支持這的答案,所以電腦必須進行文件檢索,把可能含有答案的那些文件給找出來。這時我們搜索到兩個文件:
- 文件一:在他的遺囑中,他利用他的巨大財富創立了諾貝爾獎,各種諾貝爾獎項均以他的名字命名。
- 文件二:諾貝爾獎是根據阿佛列・諾貝爾在1895年的遺囑而設立的,並由諾貝爾基金會管理阿佛列・諾貝爾的遺產級諾貝爾獎的頒發。
在兩份文件中,一個寫著「創立諾貝爾獎」,另一個寫著「設立諾貝爾獎」,我們可以看到在第一個文件中的敘述,是比較符合題目的問題的,但語句中使用的是代名詞「他」,如果華生回答的答案是「他」,顯然不是正確的答案,所以代名詞對電腦來說又是另一項挑戰。
意見探勘
首先應用的是文本分析,我們對新聞、科技論文、電子郵件、網頁、部落格貼文、微網誌、病例等,用不同類型來源的數位資料進行文件探勘,了解不同面向的議題,如市場產品資訊、政治意見追蹤、社群網路分析、熱門議題分析等。我們都有相同的經驗,去旅遊的時候,一定要找到住宿的旅館,希望交通地點越便利越好,服務態度也是越親切越好,所以要找旅館的時候,我們都會看旅館的評論。用旅館評論為一個例子,假如我們搜尋一間旅館,而網路評論內容是:
狀元樓是南京老牌酒店了,在夫子廟入口的地方,遍佈我喜歡的小吃店。客房格局挺古老的,面積不大,不過景觀很好,可以看見秦淮河。服務態度很好,會用地的幫著推轉門(就不能裝個自動的嘛)。洗澡水很舒服。
紅色代表正面評論,綠色代表負面評論,藍色則表示其他考量因素。透過網路評論,擷取出對我們而言相對重要的信息,即達到文本分析的功能。
機器翻譯是否已經達到人類翻譯的境界?
老師從2008年起追蹤Google翻譯,到今年已經十年了,2018年Google翻譯出來的結果與老師翻譯的結果大致相同,看來機器翻譯似乎成功了,但事實上還沒有成功,透過機器翻譯病例資料可以發現,領域知識對於自然語言處理很重要,領域的轉移對於系統效能也有很大的影響,資源在以機器學習或深度學習為基礎的自然語言處理,扮演了重要的角色,所以稀少資源或有限資源機器學習或深度學習的研究中,資料和知識的整合是一項重要的趨勢。而語言理解不僅和語言相關,可能還需要用到世界知識、常識等外部知識,未來我們還可以在建立人類常識、世界知識、因果關係、動作過程,或者是整合文字、視覺、聽覺等資訊的多模態知識庫,呈現知識表達與推理。透過翻譯可以簡單地讓我們體認這一切都還在發展之中,我們不需要對於被人工智慧取代太過於恐懼,只要積極正向的面對未來就可以了!
(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)