自舉式學習：AI的第四條路

2020 年 02 月 10 日2022 年 01 月 03 日 intern 亞里斯多德學派, 廣泛閱讀, 自舉式學習, 賽克計畫

分享至

撰文／張俊盛｜轉載自《科學人》2005年2月第36期

達文西的時代，歐洲人重新發現了古希臘的典籍，走出亞里斯多德學派排斥觀察與實證的迷障，開啟現代科學之門。人類對於知識的理性與實證的辯證，起源於希臘。古希臘學者德模克里特（Democritus, 460~362 B.C.）最具實證傾向，他認為萬物的本源是原子，其大小、形狀、排列造成了物質形態、顏色、味道的不同。德模克里特的理論淹沒在當時學術最高權威的亞里斯多德的論述中。徒有理性而缺乏實證，導致許多想當然爾的謬誤。「重的東西下落的速度『當然』比較快。」亞里斯多德如是說。

在資訊科學研究中，也有同樣的路線之爭：學者多試圖用各種規則來「教導」電腦如何做，而比較少於提供資料讓電腦自動「學習」。「教」電腦最著名的例子，就是美國史丹佛大學的萊納特（Doug Lenat）1984年成立的賽克計畫（Cyc Project）。這個規模龐大的計畫，試圖將12歲孩童的常識，以邏輯形式輸入電腦，設計出能思考的電腦。1991年時，萊納特向Scientific American預言五年後賽克程式將可自動閱讀，吸收新知。2002年，時間又向後延遲5~20年。投入20年光陰之後，賽克的應用似乎僅止於知道10美分的鎳幣上有羅斯福總統頭像，因此搜尋「鎳幣」時，擴充為「鎳幣或羅斯福」或許效果更好。賽克計畫一再跳票，顯示「教」電腦的學習策略似乎陷入困境。

反之，研究如何讓電腦自動學習的策略，也就是所謂的機器學習（machine learning）似乎顯得比較可行。在所有的機器學習理論中，最好玩的要算是演化式學習。這個策略模仿大自然的學習方式，一開始先複製許多基因程式，篩選效率好的程式存活，反覆地讓基因突變，最後演化出最佳的程式。根據2003年《科學人》的介紹，基因程式成功地讓電腦重現人類發明的電路專利（見3月號〈演化，AI的第三條路！〉）。然而，讓電腦鑽研過於特定的問題，如電腦下棋或設計電路，並非探究知識與學習本質最好的途徑。1980年代的專家系統與1990年代的深藍系統，雖然都展現了媲美、甚至超越專家的能力。然而，這類系統的策略，卻很難說明人類日常生活中的智慧行為。

說到底，知識、學習很難完全脫離語言而存在。因此自然語言處理（natural language processing）的研究，反而比較能彰顯一般性的機器學習策略。例如1995年賓州大學的亞羅斯基（David Yarowsky）透過自舉式學習（bootstrap learning），讓電腦分辨詞彙的語意歧義。詞彙的語意是由上下文決定的學說，出自心理學大師米勒（George Miller）。由米勒的理論出發，亞羅斯基更進一步觀察，發現在上下文中，其實常常有一個搭配詞，單獨決定了歧義詞彙的語意；這就是語言中「一組搭配，一個意思」的特性。例如：英語中plant搭配了life在旁，幾乎都是「植物」的意思；而搭配了power的plant幾乎都是「工廠」。亞羅斯基的演算法，由含有life與power的plant少量例句，來建立初步的歧義分辨系統。接著反覆利用系統自身，分辨其他例句中的plant是「植物」還是「工廠」，進而篩選出更多「植物」或是「工廠」的搭配詞回饋給系統，來強化系統的能力。亞羅斯基對12個字做實驗，證明了自舉式演算法可以在大量例句中，精確學到大量搭配詞，據以分辨不同意思，效果達到96%！

自舉式學習的機器學習技術，提供簡單卻有效的學習策略，再配合上大量資料，效果更是令人驚豔。這種一般性的學習策略，也呼應了語言教學的新理論：在不查辭典的狀況下「廣泛閱讀」（extensive reading），學生最能夠無師自通，能在不知不覺中學會了很多詞彙。自舉式學習，加上不虞匱乏的網路資料，可能讓電腦的智慧之門大開。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 184 times, 1 visits today)

分享至

views