運用多模態大語言模型辨識學生的學習情緒

分享至

情緒在我們日常生活的決策中,扮演了重要的角色,在教育的場域中,也有許多研究者們,試著透過了解學生的基本情緒以及學業有關的情緒,試圖了解學生們的學習需求。在少子化的今日,「個人化學習 (personalized learning)」這個概念的出現,再加上目前AI科技的發展,透過AI輔助來辨識學生的學習情緒,也有助於提供更加個人化的學習指引。

撰文|王冠云

來源:MotionElements

 

多模態模型帶來的新契機

Yu等人 (2025) 發表的最新研究中,看到了使用多模態大語言模型 (Multimodal Large Language Model, MLLM) 來進行自動情緒辨識 (Automated Emotion Recognition, AER) 的可能性。自動情緒辨識在教育情境上,指的是使用AI工具來協助偵測或是回應學習者的情緒,並且以此作為打造個人化學習的重要參考之一。有一派的研究專注於辨識心理學家們所提出的基本情緒,例如開心、生氣、驚訝等等,有一派的研究則是特化於辨識與學習有關的情緒,例如困惑、專注等等。不過,過去的AI工具在進行辨識的時候,具有某些技術上的限制。技術上並不是真的能應用在實務的教育場域,且過去機器學習或深度學習模型,還是如同「黑盒子」一般,並不能讓使用者理解AI是依靠什麼來辨識學習紙的情緒,此外,也尚未有很具有劃時代的研究或發明,真的能非常具有即時性的在教育用的應用程式裡面,導入自動情緒辨識功能。

綜覽目前AER技術在教育領域所遇到的瓶頸,Yu等人 (2025) 在論文中指出,目前多數的過去研究,在模型訓練方面,高度依賴大規模、高品質要求、且需要已經被標籤的資料庫,所以會讓整個AI應用研究變得非常曠日廢時,但如果使用MLLM技術,在大語言模型的訓練階段,本身早已經受過大量資料的訓練。再者,過往研究和模型缺發彈性,並且在應用時可能也會難以特化到特定領域,但MLLM的可轉移性相對較高。而目前大語言模型的發展還正在萌芽,應用於教育領域的尚未有相當完整且豐富研究,因此,非常值得使用新的技術來進行初步嘗試。

 

運用Gemini的多模態模型到五個最大的情緒資料庫

於是Yu等人 (2025) 使用了在進行研究時,Google最新釋出的Gemini多模態的版本,應用在CK+、FER-2013、RAF-DB、OL-SFED、DAIiSEE這五個資料庫。這些資料庫包含了許多已經被進行標註的人類臉部表情,前三個資料庫以基本情緒為主,包含生氣、噁心、害怕、開心、驚訝等等,後兩個資料庫則是專注在學習有關的情緒,包含享受 (enjoyment)、困惑 (confusion)、疲累 (fatigue)、分心 (distraction)、無聊 (boredom)、專注 (engagement) 等等,這些資料庫最大型的甚至包含了超過3萬張圖片,有相當豐富的資料。不過,為了進行跨資料庫的比較,所以研究者也分別從這五個資料庫中隨機抽取了部分的資料,讓可供訓練的照片數量取得平衡,如此一來才能避免掉資源規模不同而產生的誤差。

Yu等人 (2025) 的研究選定了使用Google的Gemini進行測試,所以他們也參考了Google官方撰寫提示詞 (prompt) 的指南書,並且也參考了過往研究在提示詞方面的見解。將提示詞的設計分了10段不同的成分,從提供明確且具體的指示開始,並且提供少量例子、指定角色、添加脈絡資訊等等,讓提示詞的設計變得更加合理。而有關情緒辨識的部分,也套用了心理學家Willcox所提出的「情緒之輪 (Feeling Wheel)」,將相關的情緒化約到資料庫中的幾種已被標籤的情緒中,這樣比較有助於以LLM的提示詞來理解並分類。

 

Gemini的正確率以及未來可能發展

Yu等人 (2025) 的研究結果指出,Gemini在五大資料庫中分類不同情緒的正確率介於56%到77%之間,表現較好的兩個資料庫是CK+以及RAF-DB,分別是77%以及67%。且若只進行二元分類,即只分辨正向情緒以及負向情緒的話,在CK+資料庫甚至可以高達96%。

然而,這樣的結果並沒有比過往的研究還要具備更好的正確率,Yu等人 (2025) 也在論文中比較了過往使用深度學習或機器學習模型的研究的準確率,以做研究當下時間點的Gemini表現而言,尚未有超越經典機器學習或深度學習的成果。但過往研究以及對於Gemini而言,資料庫裡面的資料越是在受到控制的實驗室環境下所收集到的資料,對於模型而言更能夠清楚的辨識,也就越能夠擁有更高的準確率,就像CK+資料庫,裡面的臉部表情圖片是在實驗室控制的環境下收集而得。

不過,由於大語言具有生成對話的功能,所以研究者們也請Gemini在分類後,提供它用來進行情緒分類的依據。研究結果發現,Gemini使用了臉部上的特定定位來進行分類,尤其是眼睛和嘴巴。而從Gemini提供的分類依據的理由來看,使用MLLM也具有可以辨識出更特定的情緒的潛力。它們能夠從脈絡的線索來推測行為的意圖,甚至它們能夠指出針對學習情境中,當臉部表情產生某些變化的時候,可能代表了什麼意思,例如,它能指出,專注的神情通常會伴隨著較為靠近的眼睛以及微微縮緊的嘴唇。而因為有這樣的具有辨識特定畫面中的現象的能力,未來在開發個人化學習的數位工具方面,也可能將AI導入到個人化的學習回饋以及適性化學習等方面。

 


參考文獻

  1. Yu, S., Androsov, A., & Yan, H. (2025). Exploring the prospects of multimodal large language models for Automated Emotion Recognition in education: Insights from Gemini. Computers & Education, 232, 105307.
(Visited 21 times, 3 visits today)

分享至
views