數學應用問題怎麼解？讓LLM學會人類思維

2025 年 07 月 11 日2025 年 07 月 11 日 CASE PRESS 大語言模型, 數學, 計算

分享至

大語言模型帶給了我們生活很多的便利，不少人的資訊檢索習慣已經從搜尋引擎轉變到詢問大語言模型。不過，若是碰到數學問題，尤其是數學應用問題，是否能讓大語言模型在透過理解語言文字之後，完成推理，列出數學式子，以進一步完成題目的要求呢？

撰文｜王冠云

大語言模型 (Large Language Model, LLM) 帶給了我們生活很多的便利，不少人的資訊檢索習慣已經從搜尋引擎轉變到詢問大語言模型。甚至在校園內，也有些學生會利用大語言模型來複習功課，或者利用它來協助自己做作業。

然而，大語言模型的本質是一種語言模型，在語言文字的生成、摘要整理、歸納等方面，具有相當近似於人類的表現。不過，若是碰到數學問題，尤其是數學應用問題，是否能讓大語言模型在透過理解語言文字之後，完成推理，列出數學式子，以進一步完成題目的要求呢？

「雙過程推理」系統的設計

為了減少大語言模型 (LLM) 在解數學題時可能會出現的邏輯錯誤，在Liu等人 (2025) 的研究中，將心理學的「雙過程推理 (Dual-Process Reasoning)」概念加入到大語言模型的推理過程中，提出了一個「KNOS (Knowledge Guided Solver)」框架。依循著「雙過程推理」的理論架構，將系統分為兩個架構，一個叫做「知識系統 (knowledge system)」、另一個叫做「推斷系統 (inference system)」，而這也分別對應到《快思慢想》這本書所提到的系統一以及系統二兩種不同類型的思考系統，分別代表了更注重經驗與知識的系統以及注重應用知識進行邏輯推斷的系統。

在知識系統中，利用了LLM的基礎知識，如同人類能透過系統一進行知識與經驗的取用一般，在此系統中，讓LLM得以進行知識的激發 (invoke)。此外，每一次的知識激發，只會針對整個數學推理的一個步驟來進行，所以透過LLM所產出的，會是LLM在處理完整個數學應用問題的多個句子後，所分別對應出來的多個步驟的集合。

接著，在推斷系統中，會將拆解後的題目文字，轉換成適當的符號表示，類比於人類的系統二的邏輯思考，在推斷系統中總共有主要的三個部分，分別為主幹解題器 (backbone solver)、知識驗證器 (knowledge verifiere)、知識注入器 (knowledge injector)。如同人類在面對問題時，會激發出過去的背景知識，以及腦中的邏輯推斷功能，在知識被激發出來之後，也會進行知識的轉換，並且將抽象的符號「注入」到LLM模型中，讓LLM最終能產出適當的數學式子。

除了「雙過程推理」之外，也讓LLM可以「開書考」

另外，如果僅只依靠原生的LLM（如GPT3模型、GPT4模型），或者讓原生的LLM透過雙過程推理來達成解題，那麼就好像學校的「閉卷考」，在考試的時候沒有辦法參看其他小抄。因此，Liu等人 (2025) 也延伸出了「EKNOS」模型 (External Knowledge Enhancement)，類似於「開書考」的概念，使用知識圖譜 (knowledge graph) 將數學解題會用到的名詞和可能會用到的相對應的運算進行知識圖譜的連結，並且，也提供數學公式知識，例如基礎的距離公式、總重量、總成本的公式等等，幫助LLM可以更容易的從文句中擷取重點，有步驟的轉化成數學符號。

在雙過程推理的流程中，用LLM來模擬了人類在雙過程推理中經歷的「激發-驗證—注入 (invoke-verify-inject)」的歷程，Liu等人 (2025) 的研究以一個中文的數學題目資料庫和一個英文的數學題目資料庫來進行模型的測試與驗證。並且選定了不同的大語言模型來測試基本值 (baseline)，以便於比較使用了KNOS框架或是EKNOS框架之後的模型表現。

研究結果發現，使用英文資料庫的測試結果表現略高於中文資料庫，原因可能來自於原生的LLM的訓練資料多以英文為主，因此反映在實際測試的效果上。不過，整體而言，加入了KNOS框架以及EKNOS框架之後，模型的表現比起原生的LLM效果更好，而且使用EKNOS的話，由於讓LLM得以在推理的同時又有「小抄」可以參考，回答問題的正確率又略高於KNOS框架。

此外，Liu等人 (2025) 也在研究中提到了使用模型的效率以及成本考量，在較困難的推理情境或者是較多推理步驟的情境之下，使用EKNOS框架的話，可以再困難及複雜任務中，仍然不至於讓模型的表現降低太多，幅度皆比原生LLM還小，而且在處理對於LLM來說「不是母語」的中文資料庫方面，也能維持較好的表現。若論及模型使用的LLM API數量，使用EKNOS的解法也比起其他類型的框架還要更能節省API的呼叫次數。（API呼叫次數越低，越省成本，因為可以省去每次呼叫所需負擔的費用）

運用提示工程與心理學，提升LLM效能

總結來說，Liu等人 (2025) 的研究透過從心理學上提供的理論進行發想，設計出可以讓LLM學習並且模擬人類心智運作的提示詞 (prompt)。同時，也結合了一些資訊系統設計的優勢，例如，透過樹狀結構設計知識圖譜，讓模型能夠更有效的提取相關知識來進行邏輯推理等等。而在研究中，也驗證了成本效率方面，能因此而降低費用的消耗。

研究者在論文中提到，未來希望可以結合其他人類推理的行為進入到模型的框架之中，例如人類的計畫與反思的行為。另外，也希望可以使用更前端的LLM模型或者進行其他類型的數學題目的解題測試。而本研究嘗試模擬了人類的認知行為，希望能以此研究拋轉引玉，對其他研究也能有所貢獻。

參考文獻

Liu, Z. Huang, Q. Liu, Z. Ma, C. Zhai and E. Chen, "Knowledge-Centered Dual-Process Reasoning for Math Word Problems With Large Language Models," in IEEE Transactions on Knowledge and Data Engineering, vol. 37, no. 6, pp. 3457-3471, June 2025, doi: 10.1109/TKDE.2025.3556367.

(Visited 15 times, 15 visits today)

分享至

views

← Bad Energy！（一）