AI也能分辨敵友?

AI也能分辨敵友?

編譯/陳育婷

強化學習

「強化學習」(Reinforcement Learning)有別於傳統監督式學習輸入與輸出有明確定義,強調透過與環境的互動以及獎懲機制,來建立機器的行為模式。正如同訓練貓、狗,若能精準遵循口令,則給予獎勵,反之則施以懲罰,久而久之建立起「正確」的行為模式。

其中牽涉兩個主要角色:行動者(Agent)與環境(Environment),後者泛指前者無法直接操控的一切事物。行動者無權更動獎懲規則,所以需要從與環境的互動中學習,調整自己的行為,以求最大化長期利益。為此,必須要能判定當前狀態,並以累積更多的獎勵為目標,選擇接下來的動作,而這樣的過程通常仰賴「馬可夫決策」(Markov Decision Process)。

馬可夫決策過程

若環境具有馬可夫性質,則機器便可透過馬可夫決策過程選擇下一步。所謂「馬可夫性質」(Markov property)是指:環境的未來取決於當下的狀態,而與過去無關。決策過程考量下列變數:

  • 狀態(s∈S)
    視問題而定,以下棋為例,可定義為棋盤中所有方格。
  • 動作(a∈A)
    同樣視問題而定,以下棋為例,便是棋子的移動規則。
  • 狀態移轉方程式 T(s, a, s’)
    紀錄從狀態s採取動作a到達s’的機率。
  • 獎勵函數方程式 R(s, a, s’)
    從狀態s採動作a到達s’,所能得到的獎勵。這是關鍵,這樣行動者才能學習如何在狀態變換間獲取最大獎勵。
  • γ折扣率(discount)
    為了讓未來回報總和收斂,γ∈[0, 1]
  • π策略(policy)
    行動者的行為函數,π (a|s) = P (a = a|s= s)
  • Gt回報
    從時刻t开始的總折扣獎勵,G= Rt+1 + γRt+2 + …= ​k=1γkRt+1+k
  • vπ(s) 狀態值函數
    從狀態s出發,按照策略π得到的期望回報,vπ(s) = Eπ(Gt | st = s)
  • qπ(s, a) 行為值函數
    從狀態s出發,採取行為a後,按策略π採取行為得到的期望回報,qπ(s, a) = Eπ(Gt | st = s, a=a )

將單一行動者的馬可夫決策過程擴展為一連串的決策決定,便可模擬隨機博弈中的多人互動。

歸納偏置

機器透過訓練所掌握輸入與輸出的對應關係,若需擴展應用至訓練集外的樣本時,勢必做出某些預設,這些假設稱為「歸納偏置」(inductive bias),或「學習偏誤」(learning bias)。例如我們第一次遇到「fly」(輸入)這個單字時,可能會以為是在字尾加上後綴-ed(對應關係)形成過去式(輸出;作「飛行」解時,應為「flew」),「所有英語動詞皆為規則變化」便是一種歸納偏置,或許無法百分之百正確,但足以應付多數情況;當人類或機器試圖揣摩其他智慧體的心理狀態或意圖時,亦是如此。

研究團隊認為:若可以「可組合團隊層次結構」(Composable Team Hierarchies,CTH)為歸納偏置的內容,AI可以更貼近人類的社交觀察能力。CTH包含三個函數運算子:兩個簡單計劃運算子─「個體最佳反應運算子」(Best-Response operator,BR)與「共同規劃運算子」(Joint-Planning operator,JP)─以及一個「替代運算子」(REPLACE),此以來概括多人的社會互動,由族群、部族到與聯盟的合作關係。運用貝氏規則(Bayes Rule)對CTH做機率推論,推斷行動者對他人採取的立場。

BR及JP的函式內容,就是強化學習中常用的「貝爾曼方程式」(Bellman Equation),表達行為值函數與動作值函數自身及相互的遞迴關係;REPLACE則是將前述兩個運算子結合起來。行動者可藉由方程式決定要採取怎樣的行為?到什麼狀態才會得到最高期望獎勵?

綜合上述三個步驟,以及其中所提的概念與數學模型,建構出完整的演算法,讓機器可以由觀察培養出人類的社交直覺,並做出推斷。

獵鹿博弈

研究團隊更設計了「獵鹿博弈實驗」(stag-hunt)來測試AI的社交能力:三名獵人、兩頭鹿與兩隻兔子,一開始分別位於5×7方格中的不同位置。獵人捕獲兔子可以得到1點,捕獲鹿則可以得到20點,然而後者需要兩名獵人同時抵達鹿的所在位置才算分。研究者提供獵人移動前三步的線索,要求機器與人類受試者分別判斷在不同起始位置、不同路線,獵人間的合作關係。結果顯示:此演算法已能在特定情境下,透過快速、抽象的觀察判斷社交關係,且與人類的判斷相去不遠。

 

編譯來源

K. Hao, “An algorithm that mimics our tribal instincts could help AI learn to socialize“, MIT Technology Review, January 22, 2019.

參考資料

M. Shum, M. Kleiman-Weiner, M. L. Littman, and J. B. Tenenbaum, “Theory of Minds: Understanding Behavior in Groups Through Inverse Planning,” arXiv preprint arXiv:1901.06085, 2019.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 1 times, 1 visits today)
views