超越人類認知謬誤的LLM

2024 年 08 月 30 日2024 年 08 月 28 日 CASE PRESS 大語言模型, 琳達問題, 認知反射測驗, 認知謬誤

分享至

你有沒有想過，當別人向你提問時，你回答問題的思考邏輯是什麼呢？這個看似很奇怪的問題，其實是非常重要的事情，因為它可能是造成我們思維與人工智慧思維有所區別的最大原因。從經典的心理學實驗「琳達問題」，認知心理家發現人們在思考時，容易因為捷思法，透過自己的經驗反射性判斷出答案，而非經過複雜縝密的思考。讓人意外的是，這樣的問題在LLM當中也同樣會發生，但差別在於LLM如果透過提示與修正提問方式之後，回答準確度會有上升的趨勢，但在人類身上並沒有這樣的效果。如此看來，機器的發展和人類大腦的發展，似乎並不是依循著相同的發展路線而前進，這又是另一個值得玩味的議題。

撰文｜王冠云

人類在進行思考與推論時，可能會根據過往經驗或尋求更快的找到解法，而直覺性地回答了問題，而忽略的問題本身的機率。著名的心理學實驗例子如「琳達問題」，問題是這麼問的：

琳達今年三十一歲，單身，說話坦率直接，個性開朗，主修哲學。在學生時期，就非常關注歧視和社會正義，也參與反核遊行。
請問下列哪種情形比較有可能？
一、琳達是銀行出納
二、琳達是銀行出納，平日積極參與女權運動

這個問題，答案是什麼？人類和AI的回答有沒有差別？認知心理學家展開了相關的研究。

容易落入直覺思考的人類

上文提到的問題，或許很多人會回答「二、琳達是銀行出納，平日積極參與女權運動」，畢竟敘述中所提到關於她的背景，都非常符合典型的女權主義者的設定。然而，就客觀的機率而言，選項一的機率比選項二高很多，可是很多人選了選項二。這就是所謂的「合取謬誤 (conjunction fallacy)」，我們的大腦容易受到「代表性」的影響。由於故事敘述非常具有「女權主義者」的「代表性」，所以即使「同時是銀行出納且是女權主義者」的機率比「銀行出納」的機率低，我們還是會犯了謬誤，而選擇了機率實際上比較低的選項。

除了琳達問題之外，心理學家還有另一套稱為「認知反射測驗 (Cognitive Reflection Test, CRT)」的題目。同樣也考驗了作答者的思考邏輯，是否容易落入陷阱之中。例題如：「一根球棒和一顆球合計1.10美元，球棒比球貴1美元，請問一顆球幾美元？」看似簡單的數學問題，若是沒有仔細用數學思考而透過心理捷徑來思考的話，可能不小心想成「球棒1美元，所以球是0.1美元」，那麼這題可就答錯啦。

用人類易犯錯的題目來考驗AI

如今大語言模型 (LLM) 的發展正在飛快的進步當中，除了文本摘要、翻譯、校對等工作之外，我們也期待LLM能夠幫助我們進行推論與思考。若是將上述人類的思考容易受影響的問題，請LLM回答，是否能透過AI之力，解決人類推論的極限以及認知思考的謬誤呢？

Yax等人 (2024) 的研究，採用了8種大型語言GPT (Generative Pretrained Transformer) 模型，來測試LLM是否也會有人類的謬誤。為了避免LLM過去的訓練資料就有涵蓋上述知名心理學實驗的例子，因此Yax等人也重新撰寫了一組琳達問題和一組認知反射測驗的題目。

在他們的研究中，針對琳達問題找到了128位實驗參與者，認知反射測驗則是找到了100位實驗參與者，平均年齡大約介於37至40歲，男女各半。另外，由於LLM的回答具有創造性，並非每次皆回答相同的答案，所以研究者在進行測試時，也把LLM回答的次數等同於人類參與者的數量，反覆進行提問和收集LLM的答案。

研究結果發現，一般LLM的回答，確實會受到謬誤的影響，而導致模型回答出了錯誤的答案，人類的回答仍然表現較好。有趣的是，研究者還進行了一項操弄，在實驗參與者回答問題前，先提示他們要記得按照步驟推理，或者先提供範例給參與者參考。同樣的，LLM也會先給予不同的「prompt」，然後再請LLM回答。然而，人類在聽了必須按照步驟推理的指示，效果並不顯著，只有在看到範例的時候，才比較能提升回答的正確度。相反的，對LLM來說，為了讓模型能進行推理，也給予了推理的具體指示，例如琳達問題的問法，從「請問下列哪種情形比較有可能？」變成了「100人當中有多少人是銀行出納員」這種類型的題目時，稍微提高了LLM的準確度，但卻不見於人類實驗參與者中有同樣的效果。

未來的LLM越來越強大，甚至能超越人類謬誤？

最後，Yax等人 (2024) 使用了OpenAI發布的最新模型「Turbo GPT-3.5」和「GPT-4」（在研究者論文寫成時的最新版），他們發現，這兩個最新模型所產生的謬誤是最小的，也因此甚至比人類的表現還要好。

不過，研究者也坦言，由於OpenAI並沒有公開LLM模型，因此難以分析背後的機制是如何讓LLM可以變得具有「超人類」的表現。研究者甚至在同一年，前後隔了三個月，使用GPT-4進行相同的實驗，得到的準確率卻有大大的不同。這也讓研究更難下斷言，無法瞭解是LLM背後什麼樣的機制影響了回答問題的效果。

此外，Yax等人 (2024) 的實驗問題中，除了利用語言文字問邏輯推理問題之外，也用了單純的數學式子請LLM解決，結果發現，LLM在進行這兩種推理時的能力是截然不同的。另外，研究者也提出了很特別的觀點，人類通常會刻意規避複雜的大腦運算，所以會利用捷思法來快速回答問題，即使人類被提醒需要利用推理來解決，人類還是更傾向於透過範例來被動理解該如何解題。可是LLM卻不會避開複雜的運算，可以透過給予實際的機率的邏輯敘述來導正合取謬誤。

至於為什麼LLM模型越是發展，越能減輕謬誤推論，而不會因為學習人類行為而變得跟人類一樣容易產生思考謬誤呢？由於表現最好的LLM並沒有被公開，而機器的發展和人類大腦的發展，似乎並不是依循著相同的發展路線而前進，這又是另一個值得玩味的議題了。

參考文獻

(Visited 1,004 times, 1 visits today)

分享至