AI也能分辨敵友?

2019 年 04 月 10 日2022 年 01 月 04 日 intern ToM, 合作, 心智理論, 歸納偏置, 社會行為, 馬可夫決策

分享至

編譯／陳育婷

強化學習

「強化學習」（Reinforcement Learning）有別於傳統監督式學習輸入與輸出有明確定義，強調透過與環境的互動以及獎懲機制，來建立機器的行為模式。正如同訓練貓、狗，若能精準遵循口令，則給予獎勵，反之則施以懲罰，久而久之建立起「正確」的行為模式。

其中牽涉兩個主要角色：行動者（Agent）與環境（Environment），後者泛指前者無法直接操控的一切事物。行動者無權更動獎懲規則，所以需要從與環境的互動中學習，調整自己的行為，以求最大化長期利益。為此，必須要能判定當前狀態，並以累積更多的獎勵為目標，選擇接下來的動作，而這樣的過程通常仰賴「馬可夫決策」（Markov Decision Process）。

馬可夫決策過程

若環境具有馬可夫性質，則機器便可透過馬可夫決策過程選擇下一步。所謂「馬可夫性質」（Markov property）是指：環境的未來取決於當下的狀態，而與過去無關。決策過程考量下列變數：

狀態（s∈S）
視問題而定，以下棋為例，可定義為棋盤中所有方格。
動作（a∈A）
同樣視問題而定，以下棋為例，便是棋子的移動規則。
狀態移轉方程式 T（s, a, s’）
紀錄從狀態s採取動作a到達s’的機率。
獎勵函數方程式 R（s, a, s’)
從狀態s採動作a到達s’，所能得到的獎勵。這是關鍵，這樣行動者才能學習如何在狀態變換間獲取最大獎勵。
γ折扣率（discount）
為了讓未來回報總和收斂，γ∈[0, 1]
π策略（policy）
行動者的行為函數，π (a|s) = P (a_t = a|s_t= s)
G_t回報
從時刻t开始的總折扣獎勵，G_t= R_t+1 + γR_t+2 + …= ∑∞k=1γkRt+1+k
v_π(s) 狀態值函數
從狀態s出發，按照策略π得到的期望回報，v_π(s) = E_π(G_t | s_t = s)
q_π(s, a) 行為值函數
從狀態s出發，採取行為a後，按策略π採取行為得到的期望回報，q_π(s, a) = E_π(G_t | s_t = s, a_t=a)

將單一行動者的馬可夫決策過程擴展為一連串的決策決定，便可模擬隨機博弈中的多人互動。

歸納偏置

機器透過訓練所掌握輸入與輸出的對應關係，若需擴展應用至訓練集外的樣本時，勢必做出某些預設，這些假設稱為「歸納偏置」（inductive bias），或「學習偏誤」（learning bias）。例如我們第一次遇到「fly」（輸入）這個單字時，可能會以為是在字尾加上後綴-ed（對應關係）形成過去式（輸出；作「飛行」解時，應為「flew」），「所有英語動詞皆為規則變化」便是一種歸納偏置，或許無法百分之百正確，但足以應付多數情況；當人類或機器試圖揣摩其他智慧體的心理狀態或意圖時，亦是如此。

研究團隊認為：若可以「可組合團隊層次結構」（Composable Team Hierarchies，CTH）為歸納偏置的內容，AI可以更貼近人類的社交觀察能力。CTH包含三個函數運算子：兩個簡單計劃運算子─「個體最佳反應運算子」（Best-Response operator，BR）與「共同規劃運算子」（Joint-Planning operator，JP）─以及一個「替代運算子」（REPLACE），此以來概括多人的社會互動，由族群、部族到與聯盟的合作關係。運用貝氏規則（Bayes Rule）對CTH做機率推論，推斷行動者對他人採取的立場。

BR及JP的函式內容，就是強化學習中常用的「貝爾曼方程式」（Bellman Equation），表達行為值函數與動作值函數自身及相互的遞迴關係；REPLACE則是將前述兩個運算子結合起來。行動者可藉由方程式決定要採取怎樣的行為？到什麼狀態才會得到最高期望獎勵？

綜合上述三個步驟，以及其中所提的概念與數學模型，建構出完整的演算法，讓機器可以由觀察培養出人類的社交直覺，並做出推斷。

獵鹿博弈

研究團隊更設計了「獵鹿博弈實驗」（stag-hunt）來測試AI的社交能力：三名獵人、兩頭鹿與兩隻兔子，一開始分別位於5×7方格中的不同位置。獵人捕獲兔子可以得到1點，捕獲鹿則可以得到20點，然而後者需要兩名獵人同時抵達鹿的所在位置才算分。研究者提供獵人移動前三步的線索，要求機器與人類受試者分別判斷在不同起始位置、不同路線，獵人間的合作關係。結果顯示：此演算法已能在特定情境下，透過快速、抽象的觀察判斷社交關係，且與人類的判斷相去不遠。

編譯來源

K. Hao, “An algorithm that mimics our tribal instincts could help AI learn to socialize“, MIT Technology Review, January 22, 2019.

參考資料

M. Shum, M. Kleiman-Weiner, M. L. Littman, and J. B. Tenenbaum, “Theory of Minds: Understanding Behavior in Groups Through Inverse Planning,” arXiv preprint arXiv:1901.06085, 2019.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

Facebook Twitter Line Email 分享

(Visited 101 times, 1 visits today)

分享至

views