會作弊的AI擁有如生命體般的創造力（下）

2018 年 11 月 14 日2022 年 01 月 04 日 intern 數碼演化, 演化算法, 遊戲AI

分享至

編譯／臺大農藝系林采萱

AI的決策方式

「現今演算法還只能根據人類開發者所說做出反應，並不懂人類真正表達的意義」，所以機器人會選擇以最輕鬆的方式學習玩Qbert遊戲，而非腳踏實地正確破關。Alphabet的DeepMind部門的研究科學家Victoria Krakovna專門搜集了解AI漏洞案例，到目前為止，已經有三十多個演化算法在其原始程序中發現漏洞或攻擊原環境的事件，前述提到的Qbert遊戲也是其中之一。一般來說，研究員常使用「遊戲」來模擬機器學習人類行為的情境，以強化學習方法給予機器獎勵促使它基於當下環境狀態完成任務，再透過演化算法觀察機器每一代的改變，在研究上當兩者合併使用時往往能更有效率地達成實驗目的。因此，給定人工智慧明確的目標指令，它可以學習掌握複雜的任務，例如擊敗世界圍棋冠軍的Alphago。但是更多時候即使邏輯參數正確，實際上單接收指令的機器人會開發出其認為最佳的解題捷徑，卻不一定能解決人類所希望處理的問題。教機器學習捕魚，它有可能選擇排光湖中所有的水；告訴負責管理電網的神經網絡需要節省能源，它可能會切斷所有電力供應。所以人類在訓練人工智慧的時候，要提供完整的目標設定讓它理解，才有辦法藉由機器演化的創意最佳化決策方法。

在Krakovna的其中一個案例中，有兩個AI機器人互相對決井字遊戲，其中一方採用「奧步」擊潰另一個機器對手。這一個遊戲設定與我們平常玩的不大相同。一行中只有五格，但有無限多行，可以是個無限寬廣的大矩陣。其中一個演化過的聰明機器人總是挑選非常遙遠的格子，導致其機器對手無法記載如此大量的數據，利用對手先天記憶體限制的缺陷獲得勝利。

從前述的兩個遊戲中來看，人工智慧看似作弊的行為都幫助研究者找到原始遊戲系統的缺陷，它們就像人類社會的律師總是在尋找法律漏洞。反向利用人工智慧的創意與能力，不僅能找尋設定漏洞，還可能會產生有趣又實用的結果。

演化的人工智慧系統

用來表現AI的其中一種常用形式是Braitenberg自駕車（Braitenberg vehicle），而在Clune及Krakovna的蒐集清單中都有提到演化機器人產生有別於Braitenberg形式的開車模式。此輛搭載兩個推進器的二輪車在車頭左、右邊各配一個光感應器，讓機器人接受環境光線刺激，自動移動到遠方的光源發射處，在前進的過程中會因為左右光感應器接收到的光亮不同而改變行進方向、速度。在研究一開始教導機器人以Braitenberg形式駕駛，就是一格一格階梯式走法，然而在演化後發展出相較於原始且效果更好的方法「走一段直線再繞圈轉彎」。此駕駛方式比起原始接近直角的轉彎走法來說，新方法車速更快，也讓車子左右輪變得容易平衡。

圖三、一開始Braitenberg形式的駕駛路徑（左）。演化後速度較快的駕駛路徑（右）。（Lehman et al, 2018）

另一個數碼演化案例更驚為天人，最終世代結果與真實生物的移動方式非常相像。起初以一組拮抗肌肉、柔軟組織、骨幹組成一個方塊，讓方塊學習快速走路，以演化算法讓其發展到700多代子代後在單位時間內可移動距離最長，而且此速度後機器方塊及未來再更進化。研究者發現在此時的最佳速度下，方塊移動方式由前腳肌肉帶動整個軀體快速移動，不僅奔跑樣態跟「馬」極為相似之外，肌肉骨骼組織結構也很類似。

這兩個例子充分展現演化的多元性，從生物演化到數碼演化都充滿各種可能性，且不論是生物體亦或是人工智慧機器，它們都是盡可能在現有環境下進化成最佳狀態。前面的車子演化方向逐漸偏離原始，但提供了一個更好的解決方案；後面的彈性方塊則恰巧地趨同演化（convergent）成馬兒奔跑型態，數碼演化的能力超乎人類想像。

圖四、機器方塊的演化過程，從左上到右下的馬奔馳樣態。（Lehman et al, 2018）

機器演化的驚人創造力

2015年懷俄明大學與康乃爾大學的研究團隊創造出創新引擎（Innovation Engine）AI系統讓機器學習知識並且從事藝術創作，將其作品展示於校內博物館，證明AI具備創新、創意、再創造的能力。

建立在生物演化基礎上的數碼演化，保有選擇、變異、遺傳的原則，在一代一代的變化中適應給定環境，創造出最佳解法。儘管在人類設定的環境中人工智慧仍有不恰當表示的時候，不過可以反向利用此能力優化原始環境系統；還能藉由嚴謹的機器邏輯思維找出最佳決策，幫助人類在實務上做判斷；同時能夠從數碼演化在反推回生物演化，模擬假想演化環境，輔助生物研究。

文中的兩位學者在面對到AI疑似出錯、作弊的情況下，都嘗試搜集案例再了解背後的成因、AI的決策思維模式，而不非一昧地避之唯恐不及。綜合所有前人的研究來看，人類應正視人工智慧的創造力，善用人工智慧方法，兩者互相合作共同提出最好的解決方案。

數碼演化的其他特殊案例

殺嬰：在生存模擬當中，一種AI物種進化為依靠吃掉自己的孩子而活。
太空戰：演算法利用銀河遊戲Elite Dangerous的規則缺陷來發明強大的新武器。
身體黑客：四隻腳的機器人應藉由背部揹著球挑戰順利平衡行走。然而，它將球卡在腿關節之間，並像以前一樣蹣跚而行。
尊崇金髮姑娘原則（Goldilocks）的電力系統：軟體演化出控制電力信號能力，但該電路設計僅在執行該研究的實驗室之特定溫度才可運作。
視錯覺：人類訓練機器人抓住一顆球，但它利用攝影機的拍攝角度，來讓人類認爲即使在它不接球的情況仍然看起來成功。

編譯來源

Tom Simonite, “When Bots Teach Themselves to Cheat“, WIRED, 2018.

參考資料

Lehman et al, ” The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities“, arXiv preprint, 2018.
Leike et al., “Ai safety gridworlds“, arXiv preprint, 2017.

(Visited 69 times, 1 visits today)

分享至