自舉式學習:AI的第四條路

分享至

自舉式學習:AI的第四條路

撰文/張俊盛|轉載自《科學人》2005年2月第36期

達文西的時代,歐洲人重新發現了古希臘的典籍,走出亞里斯多德學派排斥觀察與實證的迷障,開啟現代科學之門。人類對於知識的理性與實證的辯證,起源於希臘。古希臘學者德模克里特(Democritus, 460~362 B.C.)最具實證傾向,他認為萬物的本源是原子,其大小、形狀、排列造成了物質形態、顏色、味道的不同。德模克里特的理論淹沒在當時學術最高權威的亞里斯多德的論述中。徒有理性而缺乏實證,導致許多想當然爾的謬誤。「重的東西下落的速度『當然』比較快。」亞里斯多德如是說。

在資訊科學研究中,也有同樣的路線之爭:學者多試圖用各種規則來「教導」電腦如何做,而比較少於提供資料讓電腦自動「學習」。「教」電腦最著名的例子,就是美國史丹佛大學的萊納特(Doug Lenat)1984年成立的賽克計畫(Cyc Project)。這個規模龐大的計畫,試圖將12歲孩童的常識,以邏輯形式輸入電腦,設計出能思考的電腦。1991年時,萊納特向Scientific American預言五年後賽克程式將可自動閱讀,吸收新知。2002年,時間又向後延遲5~20年。投入20年光陰之後,賽克的應用似乎僅止於知道10美分的鎳幣上有羅斯福總統頭像,因此搜尋「鎳幣」時,擴充為「鎳幣或羅斯福」或許效果更好。賽克計畫一再跳票,顯示「教」電腦的學習策略似乎陷入困境。

反之,研究如何讓電腦自動學習的策略,也就是所謂的機器學習(machine learning)似乎顯得比較可行。在所有的機器學習理論中,最好玩的要算是演化式學習。這個策略模仿大自然的學習方式,一開始先複製許多基因程式,篩選效率好的程式存活,反覆地讓基因突變,最後演化出最佳的程式。根據2003年《科學人》的介紹,基因程式成功地讓電腦重現人類發明的電路專利(見3月號〈演化,AI的第三條路!〉)。然而,讓電腦鑽研過於特定的問題,如電腦下棋或設計電路,並非探究知識與學習本質最好的途徑。1980年代的專家系統與1990年代的深藍系統,雖然都展現了媲美、甚至超越專家的能力。然而,這類系統的策略,卻很難說明人類日常生活中的智慧行為。

說到底,知識、學習很難完全脫離語言而存在。因此自然語言處理(natural language processing)的研究,反而比較能彰顯一般性的機器學習策略。例如1995年賓州大學的亞羅斯基(David Yarowsky)透過自舉式學習(bootstrap learning),讓電腦分辨詞彙的語意歧義。詞彙的語意是由上下文決定的學說,出自心理學大師米勒(George Miller)。由米勒的理論出發,亞羅斯基更進一步觀察,發現在上下文中,其實常常有一個搭配詞,單獨決定了歧義詞彙的語意;這就是語言中「一組搭配,一個意思」的特性。例如:英語中plant搭配了life在旁,幾乎都是「植物」的意思;而搭配了power的plant幾乎都是「工廠」。亞羅斯基的演算法,由含有life與power的plant少量例句,來建立初步的歧義分辨系統。接著反覆利用系統自身,分辨其他例句中的plant是「植物」還是「工廠」,進而篩選出更多「植物」或是「工廠」的搭配詞回饋給系統,來強化系統的能力。亞羅斯基對12個字做實驗,證明了自舉式演算法可以在大量例句中,精確學到大量搭配詞,據以分辨不同意思,效果達到96%!

自舉式學習的機器學習技術,提供簡單卻有效的學習策略,再配合上大量資料,效果更是令人驚豔。這種一般性的學習策略,也呼應了語言教學的新理論:在不查辭典的狀況下「廣泛閱讀」(extensive reading),學生最能夠無師自通,能在不知不覺中學會了很多詞彙。自舉式學習,加上不虞匱乏的網路資料,可能讓電腦的智慧之門大開。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 5 times, 1 visits today)

分享至
views