會作弊的AI擁有如生命體般的創造力（上）

2018 年 11 月 12 日2022 年 01 月 04 日 intern 數碼演化, 演化算法, 遊戲AI

分享至

編譯／臺大農藝系林采萱

什麼是演化

查爾斯·達爾文在1859年發表了《物種起源》奠定演化論基礎，以融合演變與進化概念的「演化（evolution）」一詞來解釋生物在世代與世代間的發展具有變異之現象，一個物種可能是由其他物種演化而來，或是從原始簡單生物進化成爲複雜有智慧的物種。儘管此理論在當年不受主流宗教文化所接受，但作為現今生物遺傳學的基礎，可以用來解釋地球上百萬種物種的起源與分化。單一物種族群中的基因具有多元變異，當面對環境改變時，只有具特定特徵的個體能夠適應環境的考驗，適者生存不適者淘汰，優勢者則可靠繁殖將優勢基因傳到下個世代，並隨時間性狀特徵逐漸越差越大而形成新物種。在一連串的過程中，生物演化出各式各樣特殊的性徵，好比身為自營生物的植物具有葉綠體可行光合作用，自己產生能量，而植物會擁有葉綠體則是遠古真核生物吞下帶有葉綠素的藍綠菌演化而來；生物除了發展出特殊特徵外也可能產生趨同演化，像是植物受攻擊時由鈣離子傳遞類似人類痛覺的反應，這可能是動物的神經系統機制的起源。或是鳥類、昆蟲、蝙蝠等親緣差異大但卻同樣有翅膀可飛翔。物種可能因為演化而差異變大，但也可能因此而具備相似功能，生物演化變化萬千，但都是因為一個共通目標—為了適應環境並生存下來。

數碼演化與演化算法

在機器人工智慧發展蓬勃的現代，機器學習中的神經網絡模仿真實生物神經網絡結構與功能，來做多元的計算處理。以數位模仿生物，那會不會因而出現數位的生物現象呢？Uber的人工智慧研究員Jeff Clune説「這些被我們創造出來的機器系統遠比我們想像中的更能適應環境變化，而且能做出我們意想不到的事情。」

21世紀，演化不再只會發生於生命體，電腦計算系統也會產生相同現象，稱之「數碼演化（digital evolution）」。生物演化是透過繁殖、變異、競爭、選擇來達成，而有一種演算法稱作「演化算法（evolutionary algorithm, EA）」則靠著選擇、重組、變異創造問題的最佳化解法。近期Clune合著的一篇論文探討演化算法形成數碼演化現象，並列出人工智慧系統富有驚人創造性的真實研究案例。演化算法包括遺傳算法（genetic algorithm）、遺傳編程（genetic programming）、演化編程（evolutionary programming）、演化策略（evolution strategy）等算法，而最核心也最普遍使用的是以達爾文的進化論為概念的遺傳算法，從完全隨機個體的族群開始，根據該世代整個族群和個體的適應度（fitness）隨機選擇數個父母本，通過選擇和繁殖（包含交配及突變）產生新的生命子代，該子代在下一代中成為初始的品種族群，逐漸演化出多個世代。對演化算法來說，個體即為最佳化問題的解，並以稱作染色體的變數序列表示，經過多代數碼演化來找出能滿足最佳值的個體。

從研究中發現以演化算法開發的系統具備類似生物演化的數碼演化特性，會利用開發者創造的環境及訓練條件發展出我們從未想過的事情，如同生物一般，可以突破環境的盲點漏洞找出生存方式，也可以依據環境演化出類似真實生物的行為模式，甚至未來可能作為生物演化的模擬系統。

圖一、遺傳算法的運作模式（McCabism blog）

演化後會作弊的AI機器人！？

今年初德國弗萊堡大學研究團隊發表一篇文獻關於演化機器人玩Atari系列遊戲Qbert時執行的策略，融合強化學習與演化算法中的演化策略反覆訓練機器人，意外發展出人類玩家從未使用過的玩法。早年街機遊戲盛行時Qbert是其中一個經典，近年則推出掌上型遊戲機、電腦的單機遊戲版本。這是一款動作過關小遊戲，由玩家控制Q精靈在方格上移動，躲避毒蛇及巨石的攻擊，並踏遍所有的小方塊使其顏色一致，才可過關進到下一個關卡。看似一個單純的破關遊戲，但機器人前所未見的玩法發現遊戲原始設定的兩個漏洞。遊戲原始設定若得分超過99999的話，分數會歸零重新計算，但機器人發現以特定方法破第一關後，在全部方塊平台發亮時若繼續停留於原關卡能夠不受威脅來回跳上跳下於平台間，並破壞遊戲規則獲得超越人類歷史紀錄的近百萬高分。第二種情況更驚為天人，機器人讓Q精靈跳下平台自殺誘使追趕而來的毒蛇同歸於盡，因為遊戲認為玩家成功清除敵人，因此可額外得到一條命及積分，零風險的玩法對機器人來說無疑是最佳遊戲策略。

圖二、機器人玩Qbert遊戲的畫面，機器人控制Q精靈誘使敵人毒蛇同歸於盡（上）。機器人不斷在平台來回移動刷高分數（下）。（Lehman et al, 2018）

從這樣的情況中，有些人稱之為「作弊」，人類認為AI不是真的會玩遊戲，而是藉由遊戲系統缺陷來讓自己能更輕鬆獲得高分、獲取獎勵。大多數的人工智慧研究員都努力避免上述狀況，認為是訓練方式有誤導致的不良結果，僅有少數學者找尋看似錯誤演化的成因，運用出錯的AI來解決現存問題。Jeff Clune説未來的工程師應該是與這些機器合作並指導系統，善用AI的創造力可以更有效地做出最佳決策。

編譯來源

Tom Simonite, “When Bots Teach Themselves to Cheat“, WIRED, 2018.

參考資料

Lehman et al, ” The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities“, arXiv preprint, 2018.
Leike et al., “Ai safety gridworlds“, arXiv preprint, 2017.

(Visited 95 times, 1 visits today)

分享至

views