超越人類認知謬誤的LLM
你有沒有想過,當別人向你提問時,你回答問題的思考邏輯是什麼呢?這個看似很奇怪的問題,其實是非常重要的事情,因為它可能是造成我們思維與人工智慧思維有所區別的最大原因。從經典的心理學實驗「琳達問題」,認知心理家發現人們在思考時,容易因為捷思法,透過自己的經驗反射性判斷出答案,而非經過複雜縝密的思考。讓人意外的是,這樣的問題在LLM當中也同樣會發生,但差別在於LLM如果透過提示與修正提問方式之後,回答準確度會有上升的趨勢,但在人類身上並沒有這樣的效果。如此看來,機器的發展和人類大腦的發展,似乎並不是依循著相同的發展路線而前進,這又是另一個值得玩味的議題。
撰文|王冠云
人類在進行思考與推論時,可能會根據過往經驗或尋求更快的找到解法,而直覺性地回答了問題,而忽略的問題本身的機率。著名的心理學實驗例子如「琳達問題」,問題是這麼問的:
琳達今年三十一歲,單身,說話坦率直接,個性開朗,主修哲學。在學生時期,就非常關注歧視和社會正義,也參與反核遊行。
請問下列哪種情形比較有可能?
一、琳達是銀行出納
二、琳達是銀行出納,平日積極參與女權運動
這個問題,答案是什麼?人類和AI的回答有沒有差別?認知心理學家展開了相關的研究。
容易落入直覺思考的人類
上文提到的問題,或許很多人會回答「二、琳達是銀行出納,平日積極參與女權運動」,畢竟敘述中所提到關於她的背景,都非常符合典型的女權主義者的設定。然而,就客觀的機率而言,選項一的機率比選項二高很多,可是很多人選了選項二。這就是所謂的「合取謬誤 (conjunction fallacy)」,我們的大腦容易受到「代表性」的影響。由於故事敘述非常具有「女權主義者」的「代表性」,所以即使「同時是銀行出納且是女權主義者」的機率比「銀行出納」的機率低,我們還是會犯了謬誤,而選擇了機率實際上比較低的選項。
除了琳達問題之外,心理學家還有另一套稱為「認知反射測驗 (Cognitive Reflection Test, CRT)」的題目。同樣也考驗了作答者的思考邏輯,是否容易落入陷阱之中。例題如:「一根球棒和一顆球合計1.10美元,球棒比球貴1美元,請問一顆球幾美元?」看似簡單的數學問題,若是沒有仔細用數學思考而透過心理捷徑來思考的話,可能不小心想成「球棒1美元,所以球是0.1美元」,那麼這題可就答錯啦。
用人類易犯錯的題目來考驗AI
如今大語言模型 (LLM) 的發展正在飛快的進步當中,除了文本摘要、翻譯、校對等工作之外,我們也期待LLM能夠幫助我們進行推論與思考。若是將上述人類的思考容易受影響的問題,請LLM回答,是否能透過AI之力,解決人類推論的極限以及認知思考的謬誤呢?
Yax等人 (2024) 的研究,採用了8種大型語言GPT (Generative Pretrained Transformer) 模型,來測試LLM是否也會有人類的謬誤。為了避免LLM過去的訓練資料就有涵蓋上述知名心理學實驗的例子,因此Yax等人也重新撰寫了一組琳達問題和一組認知反射測驗的題目。
在他們的研究中,針對琳達問題找到了128位實驗參與者,認知反射測驗則是找到了100位實驗參與者,平均年齡大約介於37至40歲,男女各半。另外,由於LLM的回答具有創造性,並非每次皆回答相同的答案,所以研究者在進行測試時,也把LLM回答的次數等同於人類參與者的數量,反覆進行提問和收集LLM的答案。
研究結果發現,一般LLM的回答,確實會受到謬誤的影響,而導致模型回答出了錯誤的答案,人類的回答仍然表現較好。有趣的是,研究者還進行了一項操弄,在實驗參與者回答問題前,先提示他們要記得按照步驟推理,或者先提供範例給參與者參考。同樣的,LLM也會先給予不同的「prompt」,然後再請LLM回答。然而,人類在聽了必須按照步驟推理的指示,效果並不顯著,只有在看到範例的時候,才比較能提升回答的正確度。相反的,對LLM來說,為了讓模型能進行推理,也給予了推理的具體指示,例如琳達問題的問法,從「請問下列哪種情形比較有可能?」變成了「100人當中有多少人是銀行出納員」這種類型的題目時,稍微提高了LLM的準確度,但卻不見於人類實驗參與者中有同樣的效果。
未來的LLM越來越強大,甚至能超越人類謬誤?
最後,Yax等人 (2024) 使用了OpenAI發布的最新模型「Turbo GPT-3.5」和「GPT-4」(在研究者論文寫成時的最新版),他們發現,這兩個最新模型所產生的謬誤是最小的,也因此甚至比人類的表現還要好。
不過,研究者也坦言,由於OpenAI並沒有公開LLM模型,因此難以分析背後的機制是如何讓LLM可以變得具有「超人類」的表現。研究者甚至在同一年,前後隔了三個月,使用GPT-4進行相同的實驗,得到的準確率卻有大大的不同。這也讓研究更難下斷言,無法瞭解是LLM背後什麼樣的機制影響了回答問題的效果。
此外,Yax等人 (2024) 的實驗問題中,除了利用語言文字問邏輯推理問題之外,也用了單純的數學式子請LLM解決,結果發現,LLM在進行這兩種推理時的能力是截然不同的。另外,研究者也提出了很特別的觀點,人類通常會刻意規避複雜的大腦運算,所以會利用捷思法來快速回答問題,即使人類被提醒需要利用推理來解決,人類還是更傾向於透過範例來被動理解該如何解題。可是LLM卻不會避開複雜的運算,可以透過給予實際的機率的邏輯敘述來導正合取謬誤。
至於為什麼LLM模型越是發展,越能減輕謬誤推論,而不會因為學習人類行為而變得跟人類一樣容易產生思考謬誤呢?由於表現最好的LLM並沒有被公開,而機器的發展和人類大腦的發展,似乎並不是依循著相同的發展路線而前進,這又是另一個值得玩味的議題了。
參考文獻
- Yax, N., Anlló, H. & Palminteri, S. Studying and improving reasoning in humans and machines. Communications Psychology, 2, 51 (2024).
- 一個叫「琳達問題」心理學實驗
- 困難:幫助我們停下來思考