資訊界的馴獸技術

2020 年 01 月 13 日2022 年 01 月 03 日 intern 制約, 懲罰, 最佳化, 獎勵

分享至

撰文／林守德｜轉載自《科學人》2013年7月第137期

賞罰分明的加強式訓練，成就更靈活的人工智慧。

人工智慧代理人（AI agent）泛指具有某種程度的智慧，可以代理人類執行某些任務的軟硬體。例如在沙漠上探勘的機器人，必須能對各式各樣情境做出不同的反應：前方有障礙物擋住就盡快找到別的路徑，接收到生命反應要趨前察看，也要能迴避險惡環境……。要賦予機器人能力處理這些林林總總的狀況，最直覺的方式稱為「規則式學習」（rule-based learning）。首先要找對沙漠生態地形有研究的專家，盡量把所有可能發生的情境列舉出來，然後針對每個情境研議機器人該有的反應與動作（稱之為規則），最後再把這些規則寫到機器人的「腦」（中央處理器）裡面，它就會按照這些已有的規則行動。

規則式學習有幾個重大缺點：首先，要產生規則的話，一定要找到該領域相關的專業人士諮商，成本較高。第二，真正可能遇到的情境數以千萬計，相對應產生的規則可能很多很複雜，要把這些規則都加以程式化、裝到機器人的中央處理器，需要耗費不少人力及時間；而當規則變多時，機器人搜尋可用規則的時間也會增加，導致反應遲緩。最後，也是最嚴重的缺點，當遇到不在規則內的情境時，機器人就會陷入無法判斷下一步的窘境。

於是，師法動物的訓練過程，資訊學家想到了一種方法，不需花費人力來窮舉可能的情境，也可以讓機器人應付各種況狀。動物經過訓練，往往可以表現出看似有高度智能的行為：例如猩猩可以使用工具，海豚可以隨著訓練員的手勢、聲音做出不同反應。「獎賞」（reward）跟「懲罰」（penalty）是訓練這些動物最常用的手段：獎勵通常是在動物表現符合期待時給予食物，而懲罰可能是在犯錯時給予體罰或是減少食物供給。

動物一開始也許不知道自己為什麼得到獎勵或懲罰，而必須從表現的行為中重複嘗試，判斷哪些行為會得到鼓勵、哪些會受到懲罰。多次經驗之後，受訓的動物就漸漸學到，在什麼場合要做什麼動作好贏得正面報酬。這樣的概念也被資訊學家用來訓練人工智慧代理人（如機器人），使其對於所處情境做出最正確的反應，這種方法稱為「加強式學習」（reinforcement learning）。

在訓練的一開始，先把機器人放到某個環境中讓它自由行動，同時在行動中即時告知它收到的獎賞與懲罰，例如被障礙物絆倒就扣分、跨過障礙物就加分等，這樣的過程我們稱之為「訓練行為」。在訓練過程中，機器人除了接受獎懲，也不斷會利用身上的感應器來感測環境。隨著訓練的次數增加，機器人會蒐集到越來越多「情境、行動、獎懲」如何發生的資料。然後就可以利用機率模型來計算在任一種情境之下，做出某種動作的「期望獎懲值」，也就是之後得到報酬的期望值。

有了這些期望值，機器人就可以藉由感測器所得的訊息來判斷當時情境，再根據情境選出當下「期望值最高」的動作來執行。這種「邊做邊學邊修正」的訓練模式，其實跟訓練動物有異曲同工之妙。訓練師並沒有明確教導動物看到什麼指令就要做什麼動作，而是利用獎懲一步步引導動物做出一連串符合要求的行為。

利用獎懲來引導學習，是人類慣用的教育方式。對於人類自己，獎懲也許只是一句鼓勵或責備；對於動物，食物是個好的誘因；而對於電腦就更簡單了，只要把獎懲量化成分數，然後利用「最佳化」的技術讓電腦追求高分即可。而這些被「訓練」完成的電腦程式，也已經在救災機器人、自動駕駛、電腦棋藝、網路競標程式等應用崗位上展現所長。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 73 times, 1 visits today)

分享至

views