從遊戲中學習 AI發展出同國小孩童般的認知能力
編譯/賴佳昀
寓教於樂
艾倫人工智慧研究所(Allen Institute for AI,AI2)為AI打造了一個可以「寓教於樂」的學習環境:在一間逼真的虛擬房間內,一個AI被要求將馬桶吸盤、番茄、麵包、杯子或刀子等物品藏起來,再由另一個AI試著將其找出來。最剛開始的時候,由於對環境並不熟悉,兩個模型只是看似漫無目的地探索房間內的擺設,像是推、拉抽屜把手或牆壁、將物品隨機放置到不同的地點。久而久之,當AI很輕易地就找到被藏起來的馬桶吸盤後,另一個AI便曉得下一次必須換一個更好的藏匿點。
一旦對這個遊戲駕輕就熟後,研究人員便開始一連串特別設計過的測試,檢驗模型在遊戲中學會了什麼,例如:虛擬房間的景深,或是某樣物品的形狀。這時AI2的模型和傳統監督式學習所訓練出的模型表現不相上下,有時甚至更好;儘管當場景換成真實的房間後,AI2模型的表現雖然不佳,卻也比預期得好。
兩種AI其實都在做一樣的事:表徵學習(Representation learning),也就是將輸入的圖片、聲音或是文字資料,按照「特徵」來分門別類,例如「喵─喵─喵─」的叫聲是「貓」獨有的特徵。而除了各類別對應的特徵外,我們也希望AI能學會自己分辨「哪些是特徵」,於是往後若遇到過去不曾見過的物件時,也能游刃有餘、應變自如。兩者不同之處,則是在於傳統的監督式學習,是透過帶有標籤(正確答案)的資料來學會各個類別的特徵,而AI2則試圖通過遊戲任AI自己摸索,甚至發展出一些基本的「認知本能」(cognitive primitives)。
Pee-ka-boo
這些「認知本能」是什麼?一個比較容易理解的例子,是YouTube或TikTok上常見的「What the Fluff」挑戰:人類先在自己與寵物(通常是狗)之間拉起一大塊布,遮掩寵物的視線,而後在放手讓布自由落下的瞬間躲進鄰近的其他房間。從寵物的視角看來,就像「主人突然消失」一樣,多數寵物犬都表現出驚訝與不解,上前尋找自己的主人。寵物「憨傻」行徑的背後,其實就是一種看似基本但不簡單的認知本能──物體恆存。根據心理學家Jean Piaget的認知發展理論,人類嬰兒大約在2歲前發展出這樣的概念。
除此之外,AI2的模型還能清楚界定出物體的邊界範圍,甚至按照閒置空間的大小為房間不同角落的圖片排序。而後者這種按照共同性質為物件排序的能力,也是Piaget理論中人類在7到11歲時才會發展出的「序列化」(seriation)能力。
從遊戲中學習的想法並不新穎。2019年,OpenAI的一項研究便是利用捉迷藏來訓練AI,但當時的焦點卻是放在「找」與「藏」,以及遊戲的輸贏上。相較之下,AI2更在乎模型是如何認識環境,發展出自己對環境的認知。不過,AI2明言他們還暫不考慮將這個方法應用到可能對人類生活有實際影響的機器人身上:一來模型在前期需要很長一段時間來探索環境;二是在探索的過程中,很難保證模型不會做出什麼出人意料的舉動,更何況拿著馬桶塞在實驗室裡到處亂晃。
編譯來源
- E. Strickland, “AI Agents Play “Hide the Toilet Plunger” to Learn Deep Concepts About Life“, IEEE Spectrum: Technology, Engineering, and Science News, 2021.
參考資料
- L. Weihs et al., “Learning Generalizable Visual Representations via Interactive Gameplay“, arXiv.org, 2021.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)