多變多巴胺——第十部:遇見AI,是晴還是雨?(上)
故事是這樣開始的。科學家最初試圖用數學計算來解釋動物大腦是如何運作學習獎勵機制的,於是他們想出了一些簡單模型,但都收效甚微。直到AI研究人員構建了新模型,可以隨時間的推移學習到更好的演算方式。然後,情節繼續轉折,神經科學家又發現,這種AI學習的新方法其實早已內置在我們的多巴胺神經元中。後來,AI作為學習機器,功力愈練愈高強,AI再度向我們的多巴胺系統汲取靈感,變得能夠模擬神經元的協作機制,使其能夠像大腦一樣運作,形成高效的決策網絡。那麼,多巴胺遇見AI的際遇,究竟會是天緣奇遇還是狹路相逢呢?
撰文|A. H.

二十世紀末至二十一世紀初,多巴胺姑娘披上了「成癮理論」的外衣,並與「獎勵預測誤差概念」聯想學習理論結合。也就是後來我們談到的聯想學習古典制約的影響,主要探討的是當人類或動物即將執行某項動作時,多巴胺神經元會預期的即將得到的獎勵;一旦收到實際獎勵,他們就會分泌與預測誤差相對應定量的多巴胺。比預期更好的獎勵會觸發使多巴胺釋放更活躍的機制,而比預期差的獎勵則會抑制化學物質的產生。
大約同期,AI領域也取得了一項計算模型的突破——「時序差分學習」(Temporal difference learning, TD learning)。在過去,想預測未來的可能獲得的報酬是很複雜的,但TD學習找到了一條巧妙的捷徑,它並不是直接去計算未來可得的總獎勵,而是嘗試預測一項小事件的即時獎勵,並加上自己對下一刻的預測與該預測可獲得的即時獎勵,透過不停重複這樣簡單的檢查和調整過程來進行最終總獎勵的預測。簡單的說,就是計算機通過猜測未來獎勵,在獲得新資訊時再次更新猜測,以及隨著時間的推移逐步改進決策,從而在經驗中不斷學習的一種方式。這就有點像玩遊戲時,通過每次獲得的經驗來調整與學習如何玩得更好,而AI就是透過TD學習的方式逐漸學會了做出準確的長期獎勵預測。
儘管神經科學家發現多巴胺神經元的放電模式與TD模型中預測誤差訊號的運作模式非常接近,但仍留下了懸而未決的問題:
- TD可以學習動作的平均值或預期值(如咖啡愛好者的多巴胺神經元最初只會對咖啡味道產生反應,但在多次前往咖啡店後,多巴胺神經元在離開辦公室前往咖啡店時就會開始放電,期待在不久後將能享用到的咖啡),但卻無法追蹤給定動作後可能出現的所有不同結果。
- 此外,TD無法預測到多巴胺反應的多樣性,這表示並非所有多巴胺神經元都會連結到相同的預期獎勵。但現實生活很少如此,因為有時咖啡店會贈送免費糕點,有時咖啡味道可能不太好,甚至可能出現意外的延誤。
在這個初步結果被發現後,科學家將AI領域的另一見解引入神經科學界,巧妙地解決了這兩個問題:多巴胺反應的多樣性實際反映了不同結果的概率分布。也就是說,從AI導入的多巴胺預測誤差理論,代表了未來獎勵的完全分配,而不僅僅是平均值。讓我們再以咖啡愛好者的例子來說明。
完全分布預測概念的用武之地,在於計算所謂的「分散式強化學習」(distributional reinforcement learning),這是計算機從經驗中學習的一種更聰明的方式,它不僅是預測一種可能的未來獎勵,而且預測一系列可能的結果,以幫助它們做出更好的決策。有點像天氣預報,它會給出了不同類型天氣的概率,而不僅僅是表示會下雨與否。將此運用在多巴胺科學中,計算得出的結果不僅是多巴胺編碼的平均獎勵(通常的咖啡體驗),而是代表了各種可能性,包括最好的情況(一個驚喜糕點或一杯出色咖啡)、最壞的情況(燒焦的咖啡),以及介於兩者間的一切可能。
也就是說,科學家們對於大腦完整運作模式的推測是受到以類似方法來優化的AI模型啟發。這些模型不僅是計算平均結果,還能考慮一系列改進預測和適應的可能性。同樣,這種多巴胺預測理論對人類如何學習應對「不確定性」和「微調期望」提供了更細緻的理解。

最著名的例子就是利用Google DeepMind探討多巴胺在大腦中啟發強化學習的演算。該研究運用分散式強化學習技術訓練遞迴神經網路,將多巴胺充當大腦的TD訊號,再將獲得的遞迴網路活動動態與以往神經實驗獲得的真實資料比較異同。DeepMind研究發現,確實有可能僅使用多巴胺細胞的放電率來重建獎勵分布,通過獎勵學習的AI演算法來反映大腦中多巴胺所驅動的學習機制,從而提供對學習、心理健康和動機的見解(圖二)。誠如研究作者在最後的說明中明確指出:
“我們發現大腦中的多巴胺神經元各自被調整到不同程度的悲觀或樂觀。如果他們是一個合唱團,他們不會都唱同一個音符,而是和聲——每個人都有各自獨特的聲域,就像男低音和女高音一樣。在人工強化學習系統中,這種多樣化的調整會產生更豐富的訓練訊號,從而大大加快神經網路的學習速度。我們推測大腦可能會使用與此相同的運作模式。”
近期(2025/02),哈佛大學的一項研究更表明了AI協助多巴胺研究的功力大增。過去科學家雖已知中腦邊緣多巴胺系統能夠透過更新紋狀體中的平均值表示來構成哺乳動物大腦強化學習的基礎,但對該迴路中的神經元是在何處,以及如何編碼有關獎勵分布的高階訊息卻知之甚少。為了填補這一空白,研究團隊運用AI分散式強化學習執行任務來進行預測。此研究透過將學習目標從平均獎勵擴展到獎勵的整體機率分布,使用神經像素紀錄、多巴胺損傷、雙光子鈣成像 (Calcium imaging) 和光遺傳學 (Optogenetics) 來證實這些預測。

例如使用高密度探針來記錄在執行經典反射任務的小鼠的紋狀體受體活動情況,其中的獎勵平均值、獎勵方差和刺激等變因均能被獨立調控。與傳統強化學習相比,研究不僅將紋狀體的平均值進行編碼,還將它對變異數、風險和整體機率分布的形狀也都進行編碼,因而更有助於解釋中型多棘神經元 (Medium spiny neurons, MSNs)(圖三)中多巴胺受體D1和D2如何處理不同類型獎勵的可能性:如D1 MSN側重於樂觀結果,而D2 MSN則側重於更謹慎或悲觀的結果(圖四)。此類研究不僅提高了我們對大腦獎勵迴路背後計算原理的理解,更加強了自然智慧和AI間的聯繫。(待續)

參考文獻
- Bakermans, J. J., Muller, T. H., & Behrens, T. E. (2020). Reinforcement learning: full glass or empty—depends who you ask. Current Biology, 30(7), R321-R324.
- Dabney and Kurth-Nelson, Dopamine and temporal difference learning: A fruitful relationship between neuroscience and AI. Google DeepMind, Jan 15 2020.
- Lowet, A. S., Zheng, Q., Meng, M., Matias, S., Drugowitsch, J., & Uchida, N. (2025). An opponent striatal circuit for distributional reinforcement learning. Nature, 1-10.
- 美國國家醫學圖書館醫學科目標題(MeSH)知識樹:中型多棘神經元(MSNs): MeSH: D000094242
✨對二十世紀末二十一世紀初的多巴胺研究感興趣者,請見《多變多巴胺——前傳》;對多巴胺與學習制約的關係感興趣者,請見《多變多巴胺——第五部》
