遊戲AI不是只會玩遊戲

2018 年 10 月 15 日2022 年 01 月 04 日 intern 強化學習, 遊戲AI, 電競前一篇文章前一篇文章

分享至

編譯／許晉華

獎勵與懲罰

常見的深度學習，是藉由餵給大量資料，讓AI能從中摸索出規律與差異。舉例而言，假設今天想要針對Twitter上的推文進行情緒分析（sentiment analysis），可透過蒐集大量文本內容來訓練模型，準確率最終可逾九成，甚至更高。這在自然語言分析與圖像識別等領域，已取得不錯的成果。然而，若遇到完整資料難以取得，或資料規律性不明顯的任務與情境下，這樣的機器學習方法顯得無用武之地，此時，強化學習（reinforcement learning）便成為另一種可行的途徑。

藉由嘗試錯誤法，放任AI盡情嘗試各種可能，在缺乏完整資料，並對可能遭遇的後果一無所知的情況下，令系統也能由錯誤中學習、成長，最終達成預期任務。而如Dota2等電競遊戲，即使其中所建構出的世界觀往往超乎現實，玩家也常被賦予超乎一般人類所及、無懈可擊的特殊能力，但因為可有多次嘗試機會，且在某種程度上複製了現實生活中對未來以及其他玩家反應的無知，如此複雜又精密的虛擬世界，理所當然成為訓練此類AI的不二場所。

除此之外，遊戲中固有的設定，例如在限定時間內完成任務，或在獎勵消失前全數到手，方能獲得積分或其他形式的獎勵；反之，未能完成任務則代表失敗，甚至被施以某種懲罰。與人類孩童的學習過程相似，這些獎懲機制，也可為開發者所用，作為獎賞與懲罰，以糾正AI的行為導向。

以一款賽車遊戲「極速快感：血債血償」（Need for Speed Payback）為例，參賽AI被賦予「贏得遊戲」的最終目標。在一開始不熟悉路況的情況下，AI可能會迷失方向，不知道該往哪裡前進，但透過相對應的獎懲機制：若AI能於時間內抵達終點則給予獎勵，否則記為負值作為懲罰，經過反覆試驗與不斷嘗試後，AI玩家便可對賽道瞭若指掌，甚至避開障礙物，穿梭自如，主宰遊戲。

從個體到團隊合作

然而現今電玩遊戲的發展，早已不再侷限於上述可由單智慧個體（single-agent）達成，如賽車或穿越迷宮等簡單任務。例如先前所提到的Dota2，便是一款角色扮演遊戲，由5位玩家各自操控能力相異的英雄角色，在對戰過程中蒐集金錢、道具等並摧毀對手。

為了在這些多人一組的多智慧個體（multi-agent）遊戲中取得勝利，除了順暢溝通外，開發團隊更須確保沒有任何AI會選擇「叛變」。倘若放任5個AI各自學習而不加以規範，一個必然且合理的選擇，便是不擇手段最大化自己的目標。為此，開發者可以透過設立獎懲規則，例如：若通過團隊合作取得勝利，可以得到更高的積分獎勵；但對於個人的勝利給予較低的分數或負數值。循循善誘，令AI也能比肩合作，迎來最終的勝利。

編譯來源

K. Maladkar, “AI Researchers Find Games More Engrossing Than Real-World Scenarios“, Analytics India Magazine, 2018.

參考資料

“OpenAI Five“, OpenAI Blog, 2018.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 130 times, 1 visits today)

分享至

views