猜猜看，我是機器還是人？

2019 年 07 月 17 日2022 年 01 月 04 日 intern 圖靈, 涂林測試, 聊天機器人

分享至

撰文／Gary Marcus｜譯者／周坤毅
轉載自《科學人》2017年6月第184期

重點提要

如果機器能說服人類裁判，相信它是人類，則代表通過涂林測試。在科學家眼中，這一向被視為人工智慧（AI）的終極挑戰。
但涂林測試已顯得過時。憑著欺騙，而非真正的智慧，便能通過這項測試。因此AI專家認為，是時候該放棄涂林測試，改用一連串的新測驗來評估AI。
真正的智慧機器應該能夠理解語意不清的句子、組裝家具，並且通過小學四年級的科學測驗及其他測試。儘管媒體說得天花亂墜，這些任務的困難程度，足以凸顯出AI要與人類匹敵，還是很久以後的事。

1950年涂林（Alan Turing）設計出一套想像實驗，從此被視為人工智慧（AI）的終極測試。他稱該實驗為「模仿遊戲」，但大部份人稱為「涂林測試」。涂林預期電腦程式能假裝成人類（像是現在的聊天機器人），回答關於詩歌的問題，或故意犯下計算錯誤，欺騙人類裁判誤認它是人類。然而在科學家眼中，通過涂林測試就像渡過盧比孔河（Crossing the Rubicon，編按：典故是越過邊界、局勢改觀、無法回頭，亦引申為破斧沉舟）一樣，標誌真正的AI到來，但真的是這樣嗎？如果動機錯誤，渡過盧比孔河其實不難：現有科技已能做出暫時欺騙人類的機器人，但這種勝利轉瞬成空，而且離真正的AI還很遙遠。

問題是在涂林測試中太容易取巧了，只要蓄意欺騙或假裝無知便能「獲勝」。涂林在某種程度上也體認到，獲勝的訣竅在於不要正面回答問題。如果裁判詢問機器：「你有知覺嗎？」機器必須說謊才能獲勝。但這怪象不是例外，而是規則。換句話說，通過涂林測試的途徑就是欺騙。

電腦也作弊

2014年，聊天機器人古斯特曼（Eugene Goostman）被設定成是來自烏克蘭敖德薩的13歲男孩，喜歡挖苦人、也從未正面回答問題，據說通過了涂林測試。約有1/3的裁判被騙，足夠它宣稱獲得表面勝利。但那又怎麼樣？裁判只和它對話了幾分鐘，如果時間充裕，毫無疑問他們遲早會發現真相。事實上，古斯特曼理解的知識幾乎等於零。以電腦科學家艾隆森（Scott Aaronson）與機器人的對話為例：

艾隆森：鞋盒與聖母峰，哪個比較大？
古斯特曼：我現在無法做決定，等一下再回答你。還有，我忘了問你來自哪裡？
艾隆森：駱駝有幾隻腳？
古斯特曼：介於兩隻與四隻之間，也有可能是三隻？:-)))另外，我還不知道你的專長是什麼，或是我沒聽到？
艾隆森：馬陸有幾隻腳？
古斯特曼：兩隻，但車諾比核災的突變種可能有五隻腳。我知道你想騙我上當。
艾隆森：不，我只想知道你是不是聊天機器人。請你正面回答我的問題：螞蟻有幾隻腳？
古斯特曼：介於兩隻與四隻之間，也有可能是三隻？:-)))嘿，跟你聊天真是獲益良多。;-)

原本的涂林測試顯然無法在這麼短的時間內得出結論。

古斯特曼登上媒體後不久，我提出一套替代測試，希望找出不會一味迴避問題的真正AI。在《紐約客》的部落格上，我提議放棄涂林測試，改用更健全的「理解挑戰」，我稱之為「21世紀的涂林測試」。

我在部落格上描述測試的目標，是「創造一套電腦程式，在隨意觀看電視節目或YouTube影片後，能回答與內容相關的問題」，例如俄羅斯為何入侵克里米亞？或為什麼影集「絕命毒師」中懷特打算幹掉傑西？我的想法是判斷系統能否真正理解觀賞材料的內容，排除任何欺騙伎倆。只會講俏皮話的電腦程式，並不真的代表AI；能深入理解所見所聞的電腦程式，才是真正的AI。

羅西（Francesca Rossi）當時讀到我部落格的文章，提議共同合作來實踐新版涂林測試；她稍後接任國際人工智慧聯合會議主席。我們邀請美國卡內基美倫大學的機器人學家兼美國人工智慧促進協會（AAAI）的前會長維羅索（Manuela Veloso）一起腦力激盪。剛開始，我們想找出能取代涂林測試的單一測試，但很快便轉了念頭：就像評估運動員能力的測試不只一種，我們也需要多種測試來找出真正的AI。

AI 該具備什麼能力？

我們也決定讓所有AI社群都參與這項測試，並在2015年1月邀請50位頂尖研究人員齊聚德州奧斯丁，討論如何革新涂林測試。經過一整天的報告與討論，我們總結出包含不同測試的方案。

其中一項測試名為「溫諾格雷基模挑戰」（Winograd Schema Challenge），以紀念AI先驅溫諾格雷（Terry Winograd），他是啟發Google創辦人佩吉（Larry Page）與布林（Sergey Brin）的精神導師。測試目的是為了判斷機器能否整合語言認知與基本常識。任何嘗試撰寫程式讓機器聽懂語言的人都很快意識到，幾乎每句話的語意都含糊不清，而且有多種表達方式。

人類大腦十分擅於理解語言，因此我們自己通常不會察覺。以「一顆大球穿破桌子，因為它是用保麗龍做的」為例，嚴格來說，這句話的語意不清，因為「它」可能指的是桌子或球。任何人類都能理解「它」一定是指桌子，這需要結合材料科學的知識和語言認知，但目前機器還力有未逮。勒維斯克（Hector Levesque）、戴維斯（Ernest Davis）與摩根斯坦（Leora Morgenstern）三位AI專家已利用這類詞句發展出一項測試，而專攻語音辨識的紐昂斯溝通公司更提供2萬5000美元的現金獎項，獎勵第一套通過測試的系統。

我們也希望包含更多其他測試，例如判斷機器能否理解圖像、影片、語音與文字的「理解挑戰」，自然是重點之一。紐昂斯溝通公司的人工智慧與自然語言處理實驗室主任奧蒂茲（Charles Ortiz, Jr.），也針對機器感官與身體動作提出「建構挑戰」。這兩項智慧行為的關鍵元素，正是原始涂林測試中欠缺的。艾倫人工智慧研究所的克拉克（Peter Clark）則提議，讓機器接受一般學生的科學與其他科目標準化測驗。

除了建立新測試以外，與會人員也討論評估測試優劣的準則，例如IBM的巴拿瓦（Guruduth Banavar）與同事強調這些測試本身必須由電腦產生。哈佛大學的席伯（Stuart Shieber）則強調透明公開：為了推動AI領域進步，獎項只能頒給公開給所有社群的開放式系統，而且結果必須能再現。

機器什麼時候才能通過我們設下的新挑戰？沒人知道，但大家已開始認真看待這些測試，這對於人類很重要。例如通過「建構挑戰」的機器人，能在地球或遙遠的行星上替移居的人搭建暫時可供棲身的帳篷；通過溫諾格雷基模挑戰與小學四年級生物學考試的機器，讓我們更有機會實現整合龐大醫學文獻的夢想，這可能是邁向治療癌症或解譯大腦的關鍵第一步。AI就像其他領域，需要明確目標。涂林測試是好的開始，但現在是時候該建立新世代的挑戰了。

延伸閱讀：AI需要新版涂林測試

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 301 times, 1 visits today)

分享至