解密ChatGPT的人格特質

分享至

大語言模型 (Large Language Models, LLMs) 展現了複雜的語言理解能力,也讓心理學家們開始試圖利用這樣的能力,讓這些語言模型去模擬真實世界中,不同文化群體在心理學面的個體差異。他們在LLM模擬不同的群體差異,創建了100個虛擬的人物,每個的社經地位、身分背景均不相同,並發放心理學問卷填寫,希望能藉此來理解真實情況下,這些群體人類的人格特質。

撰文|王冠云

來源:MotionELements

 

主流的心理學人格特質量表

在心理學調查研究中,有許多自陳式量表 (self-report questionnaires) 供心理學家發放給研究參與者,透過大量的問卷量表並且進行統計分析後,得到不同心理學構面。而關於人格特質測試,也有相當多不同的工具來幫助心理學家或相關研究者進行調查。

例如,常用的大五性格測試 (Big Five Inventory),將人格特質分為五大面向:開放性、責任感、外向性、親和性、神經質等。十六種人格因素問卷(Sixteen Personality Factor Questionnaire,簡稱16 PF)細分出了十六種跟人格特質有關的不同因子。除此之外,還有測量特定人格特質的量表,例如:暗黑三特質量表(Short Dark Triad,簡稱SD3),測量了三種社會厭惡特質 (socially aversive traits),包含馬基維利主義 (Machiavellianism)、自戀 (narcissism) 以及病態人格 (psychopathy)。Rosenberg自尊量表 (Rosenberg Self-Esteem Scale) 則用以評估自覺的個人價值,而自我構念量表 (Self-construal Scale),則是用來評估「獨立我/相依我 (independent/interdependent)」兩種自我建構。

 

讓大語言模型填寫心理學問卷

在Li&Qi (2025) 的研究指出,目前有不少調查顯示,在各種心理學的評估與調查中,GPT (Generative Pretrained Transformer) 模型展現了穩定的人格特徵,而且通常表現了像是平均普通人的樣態。不過,由於目前的研究尚未有完整的模型參數的設定(多數研究僅採用預設值)以便確認可複製的研究成果,也沒有尚未仔細調查提示詞工程 (prompt engineering) 所帶來的影響,而特定的人口統計變項的模擬也尚未被驗證,因此,在他們的研究中,特別克服了上述提到的研究缺口,並且也探索了LLM是否能模擬人類不同的心理特徵。

首先,最需要調整的模型參數叫做「temperature(溫度)」,越高的溫度設定,表示LLM所產出的回應會越具有隨機性,而且可以生成更多樣化的結果。如同人類回答心理學問卷一樣,其實每次測量都還是會有若干的變異性,所以雖然將溫度設定為0可以確保可複製性,但是為了進行模擬,稍微調整這個參數仍然有其必要性。

另一方面,在提示工程的調整方面有兩種主流方式,一種叫做「Chain-of-Thought (CoT)」,讓模型進行仔細的考慮後再進行回應;另一種叫做「zero shot / few shot」的方法,藉由提供模型一些問答的範例,讓模型可以依照指示快速進行回應。

在Li&Qi (2025) 的研究中,除了進行上述參數的調整之外,也將模型用於前文所提到的各種心理學的人格特質量表中,最後,在以LLM模擬不同的群體差異,創建了100個虛擬的人物,各自擁有不同的社經地位等背景,模擬人類在人格特質量表的填答情形。

 

大語言模型的人格特質表現

Li&Qi (2025) 的研究結果指出,使用不同的溫度參數對於大五人格測試並沒有顯著的差異,也就是說,溫度參數對於模型的回應模式或是自我表達而言,並沒有明顯的改變。所以若是未來研究要使用LLM來回答人格特質測驗,研究者建議可以將溫度調為0,如此一來可以增進研究的穩定性和可複製性。

不過,使用不同的提示詞類型,會造成不同的人格特質的差異。而Li&Qi (2025) 也透過網路平臺收集了大量的真人參與者的填答結果,以此來比較真人與大語言模型在人格特質問卷填答上的差異。總體而言,在各種人格特質測驗中,LLM表現出來的友善程度、外向性、誠實性、自尊、盡責性以及情緒穩定等相關的人格特質方面,皆比人類稍高。畢竟在進行模型訓練時,相當多的開發團隊皆使用了人類評價增強學習 (reinforcement learning with human feedback) 來訓練模型,而人類給予的評價原則上希望大語言模型的回應能夠對人類有幫助、無害,而且誠實。

然而,在模仿不同文化群體進行人格特質測試的實驗中,Li&Qi (2025) 藉由設定LLM的姓名、性別、年齡、教育程度、居住地區等來塑造不同的人物,並且讓這些虛擬人物回答自我建構量表,卻沒有辦法呈現出如同真人群體般的差異。在研究結果中,設定為美國人的虛擬人物在「相依我」以及「獨立我」皆高於設定為中國人的虛擬人物,這違背了一般的跨文化研究。研究者認為,很可能是因為大語言模型本身的訓練資料就涵蓋了各種不同的文化,因此沒辦法刻意的只用居住地區來模擬並且創建不同文化的群體虛擬人物。

 

LLM與真人的誤差

研究者提醒,未來的研究若是需要使用LLM進行人格特質的評估,需要確保溫度和提示詞的設定維持在一定的標準之下,確保研究的程序。而若是涉及到跨文化的模擬研究,或者是人格特質的模擬等等,也還需要更全面的思考適用性。此外,有關AI倫理的部分,由於LLM仍然具有被刻意設計出來的特質,因此當使用LLM來模擬人類群體時,必須要小心LLM的代表性,它仍然不足以完全取代需要真人參與者的心理學研究。

 


參考文獻

  1. Li, C., & Qi, Y. (2025). Toward Accurate Psychological Simulations: Investigating LLMs’ Responses to Personality and Cultural Variables. Computers in Human Behavior, 108687.
  2. 張益慈, 詹雨臻, & 陳學志. (2021). 繁體中文版 [簡式暗黑四特質量表] 之發展與信效度考驗. 測驗學刊68(4), 287-316。
(Visited 22 times, 2 visits today)

分享至
views