AI化身電競選手，展現團隊合作默契

2018 年 09 月 21 日2022 年 01 月 05 日 intern Dota2, 強化學習, 遊戲AI, 電競

分享至

編譯／許晉華

輝煌戰績

1997年，IBM打造的Deep Blue AI成功挑戰西洋棋冠軍 Garry Kasparov以來，AI無論在棋盤、牌類或電玩遊戲上的表現，可說是勢如破竹，不斷過關斬將。2016年，AlphaGo對戰南韓圍棋九段棋手李世石的勝利，到現在都還記憶猶新，為人所樂道。然而，這次的遊戲─Dota2，由2013年發表以來，已吸引全球上百萬名玩家，是一款講究反應速度與團隊合作的多人線上遊戲。遊戲採兩隊競賽模式，玩家團隊在合力摧毀對方堡壘的同時，尚需顧慮來自敵隊的攻擊。這對擅長單打獨鬥、運籌帷幄的AI而言，儼然是項全新的挑戰。

此次AI代表，則是由OpenAI所開發的OpenAI FIVE團隊。OpenAI，由前Tesla執行長Elon Musk於2015年與他人共同創辦，在此之前已向世人多次展示AI的無窮潛力。在一場一對一的Dota2預賽中，更成功擊敗人類電玩高手。落敗的人類玩家─William “Blitz” Lee表示：「被非人類玩家這樣壓著打很不好受，尤其在整場遊戲過程中，我們完全被AI左右包夾，慘遭擊潰。」邀請賽贏家的頭銜，OpenAI FIVE看似勢在必得，然而OpenAI的共同創辦人與技術總監Greg Brockman則不敢過於樂觀。

OpenAI FIVE背後的開發團隊。( 來源： Synced )

強化學習

在跳棋及圍棋中，AI主要透過搜尋樹（search trees），來分析遊戲未來可能的發展途徑。相較之下，Dota2，需考量的動作與指令更加複雜，每個玩家可執行的指令選項高達上千種，包括該施哪一個咒語、往哪個方向逃或瞄準何處等，且需連續不間斷地下指令。高自由度，意味著 AI若要以過往的搜尋樹來進行預測的話，將需要更快的計算速度，難度也相對提升許多。

因此，此次OpenAI FIVE改採神經網路為核心演算法，先前提到的AlphaGo則是同時結合兩者。在訓練過程中，首先讓OpenAI FIVE漫無目的地隨意嘗試各種指令。當特定組合能讓AI在遊戲中獲得更好的表現時，一連串指令所對應神經網路中「神經元」的連結也受到強化，最終歷經上千次的反覆測試後，找出最萬無一失的策略，這種訓練過程被稱為「強化學習」（reinforcement learning）。

針對前哨賽中OpenAI FIVE的表現，英國Falmouth大學資訊科學教授Michael Cook認為：OpenAI FIVE的出色表現，主要在於過人的計算能力。基於這點，在遊戲過程中，其能預測一些特定動作所帶來的後果與效益，例如特定攻擊指令能為對手造成多大的傷害；其次，雖然研究團隊將OpenAI FIVE的反應時間調整至與人類相同，約為1/5秒，但在這看似短暫的時間內，AI所獲得或運算的資訊量，其實遠超出於一般人類玩家。如此縝密又精準的演算法，讓OpenAI FIVE能在遊戲中無往不利，快速又準確地擊敗對手。但Cook也擔心OpenAI FIVE恐無法勝任長時間的戰略遊戲：一旦AI在其中一場對戰中落敗，必須花上一段時間重新建立連結，難以適時調整。

團體合作與自我犧牲

儘管如此，AI仍有另一項優勢：OpenAI FIVE中的任一電腦玩家，相較於人類，都更願意犧牲自我，成全全體利益。Lee指出，AI對自我犧牲的無懼，是多數人類玩家無法比擬的。另外，由於OpenAI FIVE由五個相似AI所組成，建立於一個蜂巢狀系統上，彼此間可以互相窺探對方的思維和行為模式，而人類玩家只能透過語言溝通，這也是OpenAI FIVE能合作無間的另一項因素。

遺憾的是，最終OpenAI FIVE未能在邀請賽中取得最後的勝利。歷經45分鐘的精彩對戰後，敗給五位中國前職業玩家─Xiao8、BurNIng、rOtK、Ferrai_430及SanSheng。即使如此，OpenAI FIVE仍創下許多紀錄，如最高殺戮次數勝於其他人類玩家、贏得最多次的團隊戰爭等；然與此同時，也鑄下不少錯誤，例如隨便亂選道具、ganking（兩名以上玩家聯手偷襲）次數較少等。

以遊戲模擬現實

但這次的失敗並非OpenAI FIVE的結束。之所以致力於遊戲AI的開發，在於透過遊戲中所遭遇的各種情境，模擬人類的日常生活。如此，當AI最終應用於實際生活中時，面對真實世界中的各種難題，都能迎刃而解。OpenAI表示接下來會繼續訓練OpenAI FIVE，報名參加明年的Dota2國際邀請賽，再次與世界各地的職業玩家一較高下。

倫敦大學電腦科學教授與星海爭霸II（另一款線上策略競技電玩）的協作者Jun Wang表示：AI仍需加強彼此間的「合作」；而同是協作者暨牛津大學電腦科學教授Jakob Foerster，則認為：策略推理能力，是往後稱霸Dota2的另一項重點。除Dota2外，許多遊戲其實都是更好的練功坊，例如：星海爭霸II、策略型桌遊，如卡坦島拓荒等，舉凡採取多人模式，涉及談判、交易與結盟的遊戲，都是磨練AI合作、競技，以及執行長期規劃能力的選項。

德國Dortmund理工大學資訊科學教授Vanessa Volz，則點出OpenAI FIVE的另一個潛在弱點：由於OpenAI FIVE過去總是以單機模式自我訓練，一旦有遊戲風格特異的玩家出現，AI將無法猜測對方的行為模式。這點，預賽中落敗的人類玩家Lee也十分認同，認為只要再與OpenAI FIVE對戰幾回，便可輕易掌握AI的行為模式，拿下勝利。

編譯來源

M. Hutson, “To hone its collaborative skills, this AI is taking on the world’s top video game players“, Science | AAAS, 2018.

參考資料

T. Peng, “OpenAI’s Long Pursuit of Dota 2 Mastery“, Synced, 2018.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 239 times, 1 visits today)

分享至

views