遊戲AI不是只會玩遊戲
編譯/許晉華
獎勵與懲罰
常見的深度學習,是藉由餵給大量資料,讓AI能從中摸索出規律與差異。舉例而言,假設今天想要針對Twitter上的推文進行情緒分析(sentiment analysis),可透過蒐集大量文本內容來訓練模型,準確率最終可逾九成,甚至更高。這在自然語言分析與圖像識別等領域,已取得不錯的成果。然而,若遇到完整資料難以取得,或資料規律性不明顯的任務與情境下,這樣的機器學習方法顯得無用武之地,此時,強化學習(reinforcement learning)便成為另一種可行的途徑。
藉由嘗試錯誤法,放任AI盡情嘗試各種可能,在缺乏完整資料,並對可能遭遇的後果一無所知的情況下,令系統也能由錯誤中學習、成長,最終達成預期任務。而如Dota2等電競遊戲,即使其中所建構出的世界觀往往超乎現實,玩家也常被賦予超乎一般人類所及、無懈可擊的特殊能力,但因為可有多次嘗試機會,且在某種程度上複製了現實生活中對未來以及其他玩家反應的無知,如此複雜又精密的虛擬世界,理所當然成為訓練此類AI的不二場所。
除此之外,遊戲中固有的設定,例如在限定時間內完成任務,或在獎勵消失前全數到手,方能獲得積分或其他形式的獎勵;反之,未能完成任務則代表失敗,甚至被施以某種懲罰。與人類孩童的學習過程相似,這些獎懲機制,也可為開發者所用,作為獎賞與懲罰,以糾正AI的行為導向。
以一款賽車遊戲「極速快感:血債血償」(Need for Speed Payback)為例,參賽AI被賦予「贏得遊戲」的最終目標。在一開始不熟悉路況的情況下,AI可能會迷失方向,不知道該往哪裡前進,但透過相對應的獎懲機制:若AI能於時間內抵達終點則給予獎勵,否則記為負值作為懲罰,經過反覆試驗與不斷嘗試後,AI玩家便可對賽道瞭若指掌,甚至避開障礙物,穿梭自如,主宰遊戲。
從個體到團隊合作
然而現今電玩遊戲的發展,早已不再侷限於上述可由單智慧個體(single-agent)達成,如賽車或穿越迷宮等簡單任務。例如先前所提到的Dota2,便是一款角色扮演遊戲,由5位玩家各自操控能力相異的英雄角色,在對戰過程中蒐集金錢、道具等並摧毀對手。
為了在這些多人一組的多智慧個體(multi-agent)遊戲中取得勝利,除了順暢溝通外,開發團隊更須確保沒有任何AI會選擇「叛變」。倘若放任5個AI各自學習而不加以規範,一個必然且合理的選擇,便是不擇手段最大化自己的目標。為此,開發者可以透過設立獎懲規則,例如:若通過團隊合作取得勝利,可以得到更高的積分獎勵;但對於個人的勝利給予較低的分數或負數值。循循善誘,令AI也能比肩合作,迎來最終的勝利。
編譯來源
K. Maladkar, “AI Researchers Find Games More Engrossing Than Real-World Scenarios“, Analytics India Magazine, 2018.
參考資料
“OpenAI Five“, OpenAI Blog, 2018.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)