AI化身電競選手,展現團隊合作默契

AI化身電競選手,展現團隊合作默契

編譯/許晉華

輝煌戰績

1997年,IBM打造的Deep Blue AI成功挑戰西洋棋冠軍 Garry Kasparov以來,AI無論在棋盤、牌類或電玩遊戲上的表現,可說是勢如破竹,不斷過關斬將。2016年,AlphaGo對戰南韓圍棋九段棋手李世石的勝利,到現在都還記憶猶新,為人所樂道。然而,這次的遊戲─Dota2,由2013年發表以來,已吸引全球上百萬名玩家,是一款講究反應速度與團隊合作的多人線上遊戲。遊戲採兩隊競賽模式,玩家團隊在合力摧毀對方堡壘的同時,尚需顧慮來自敵隊的攻擊。這對擅長單打獨鬥、運籌帷幄的AI而言,儼然是項全新的挑戰。

此次AI代表,則是由OpenAI所開發的OpenAI FIVE團隊。OpenAI,由前Tesla執行長Elon Musk於2015年與他人共同創辦,在此之前已向世人多次展示AI的無窮潛力。在一場一對一的Dota2預賽中,更成功擊敗人類電玩高手。落敗的人類玩家─William “Blitz” Lee表示:「被非人類玩家這樣壓著打很不好受,尤其在整場遊戲過程中,我們完全被AI左右包夾,慘遭擊潰。」邀請賽贏家的頭銜,OpenAI FIVE看似勢在必得,然而OpenAI的共同創辦人與技術總監Greg Brockman則不敢過於樂觀。

OpenAI FIVE背後的開發團隊。( 來源: Synced )

強化學習

在跳棋及圍棋中,AI主要透過搜尋樹(search trees),來分析遊戲未來可能的發展途徑。相較之下,Dota2,需考量的動作與指令更加複雜,每個玩家可執行的指令選項高達上千種,包括該施哪一個咒語、往哪個方向逃或瞄準何處等,且需連續不間斷地下指令。高自由度,意味著 AI若要以過往的搜尋樹來進行預測的話,將需要更快的計算速度,難度也相對提升許多。

因此,此次OpenAI FIVE改採神經網路為核心演算法,先前提到的AlphaGo則是同時結合兩者。在訓練過程中,首先讓OpenAI FIVE漫無目的地隨意嘗試各種指令。當特定組合能讓AI在遊戲中獲得更好的表現時,一連串指令所對應神經網路中「神經元」的連結也受到強化,最終歷經上千次的反覆測試後,找出最萬無一失的策略,這種訓練過程被稱為「強化學習」(reinforcement learning)。

針對前哨賽中OpenAI FIVE的表現,英國Falmouth大學資訊科學教授Michael Cook認為:OpenAI FIVE的出色表現,主要在於過人的計算能力。基於這點,在遊戲過程中,其能預測一些特定動作所帶來的後果與效益,例如特定攻擊指令能為對手造成多大的傷害;其次,雖然研究團隊將OpenAI FIVE的反應時間調整至與人類相同,約為1/5秒,但在這看似短暫的時間內,AI所獲得或運算的資訊量,其實遠超出於一般人類玩家。如此縝密又精準的演算法,讓OpenAI FIVE能在遊戲中無往不利,快速又準確地擊敗對手。但Cook也擔心OpenAI FIVE恐無法勝任長時間的戰略遊戲:一旦AI在其中一場對戰中落敗,必須花上一段時間重新建立連結,難以適時調整。

團體合作與自我犧牲

儘管如此,AI仍有另一項優勢:OpenAI FIVE中的任一電腦玩家,相較於人類,都更願意犧牲自我,成全全體利益。Lee指出,AI對自我犧牲的無懼,是多數人類玩家無法比擬的。另外,由於OpenAI FIVE由五個相似AI所組成,建立於一個蜂巢狀系統上,彼此間可以互相窺探對方的思維和行為模式,而人類玩家只能透過語言溝通,這也是OpenAI FIVE能合作無間的另一項因素。

遺憾的是,最終OpenAI FIVE未能在邀請賽中取得最後的勝利。歷經45分鐘的精彩對戰後,敗給五位中國前職業玩家─Xiao8、BurNIng、rOtK、Ferrai_430及SanSheng。即使如此,OpenAI FIVE仍創下許多紀錄,如最高殺戮次數勝於其他人類玩家、贏得最多次的團隊戰爭等;然與此同時,也鑄下不少錯誤,例如隨便亂選道具、ganking(兩名以上玩家聯手偷襲)次數較少等。

以遊戲模擬現實

但這次的失敗並非OpenAI FIVE的結束。之所以致力於遊戲AI的開發,在於透過遊戲中所遭遇的各種情境,模擬人類的日常生活。如此,當AI最終應用於實際生活中時,面對真實世界中的各種難題,都能迎刃而解。OpenAI表示接下來會繼續訓練OpenAI FIVE,報名參加明年的Dota2國際邀請賽,再次與世界各地的職業玩家一較高下。

倫敦大學電腦科學教授與星海爭霸II(另一款線上策略競技電玩)的協作者Jun Wang表示:AI仍需加強彼此間的「合作」;而同是協作者暨牛津大學電腦科學教授Jakob Foerster,則認為:策略推理能力,是往後稱霸Dota2的另一項重點。除Dota2外,許多遊戲其實都是更好的練功坊,例如:星海爭霸II、策略型桌遊,如卡坦島拓荒等,舉凡採取多人模式,涉及談判、交易與結盟的遊戲,都是磨練AI合作、競技,以及執行長期規劃能力的選項。

德國Dortmund理工大學資訊科學教授Vanessa Volz,則點出OpenAI FIVE的另一個潛在弱點:由於OpenAI FIVE過去總是以單機模式自我訓練,一旦有遊戲風格特異的玩家出現,AI將無法猜測對方的行為模式。這點,預賽中落敗的人類玩家Lee也十分認同,認為只要再與OpenAI FIVE對戰幾回,便可輕易掌握AI的行為模式,拿下勝利。

 

編譯來源

M. Hutson, “To hone its collaborative skills, this AI is taking on the world’s top video game players“, Science | AAAS, 2018.

參考資料

T. Peng, “OpenAI’s Long Pursuit of Dota 2 Mastery“, Synced, 2018.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

views