可以讓LLM幫我生成問卷樣本嗎?以學習策略問卷為例
從ChatGPT出現後,大語言模型成為最火熱的話題,許多專家都積極投入,希望將這項技術應用於各個場域,如今幾乎各行各業都有其應用之處。既然LLM最擅長搜集、統整數據,並藉此產出許多資料,科學家們便開始是想,是不是能使用這項技術來產出大量模擬真人行為與想法的虛構樣本呢?這樣或許就能解決部分研究會面臨的樣本數量不足的問題。不過這項應用仍有許多問題尚須面對,像是模擬樣本是否能代表真實人類的想法,或是使用不同模型可能產出不同研究結果等,都有待未來科技發展來解決。
撰文|王冠云

ChatGPT的表現力如同真人一般,自從以GPT (Generative Pre-trained Transformer) 為基礎的大語言模型 (Large Language Models, LLMs) 橫空出世之後,讓人看見了AI發展的新曙光,科學家們也開始試想,許多真人行為與想法,或許也可以利用LLM的技術,產出大量的模擬樣本,如此一來,將可能可以讓整個人類行為的驗證以及理論的建構,變得更具有規模性。
讓LLM生成問卷樣本可行嗎?
Vogelsmeier等人 (2025) 的研究,即是試圖透過LLM,來生成大量的問卷填答回應,並且以心理學的網路分析 (network analysis) 及因素分析 (factor analysis),來判斷模型所生成的樣本,是否確實能反映真人的填答狀況。
在該研究的文獻評述中提到,以LLM來生成問卷樣本的技術方面,主要有幾點限制與挑戰,首先,LLM的訓練資料許多來自於網路上可得的語言文字資料,包含了任何且大量未經修飾、未經驗證的人類自然語言。而以模型本身的邏輯而言,LLM在預測下一個詞語方面被盡可能的優化,也就是說,LLM的輸出可以最大化語言文法上的合理性,但是對於真實人類的心理真實性以及歷程方面,恐怕並不是真的如此貼近。例如,在動機以及後設認知 (metacognition) 方面,像是「是否知道自己正在思考」這樣的命題,對於LLM是否具有意義,恐怕也有待進一步的討論。
Vogelsmeier等人 (2025) 在文獻回顧中也發現,過往也有許多研究嘗試使用不同的LLM模型來進行問卷填答的模擬,不過尚未有教育類的研究做過相似的事情。因此,他們選擇了學習策略與動機相關的主題,這類的主題更需要去模擬人類的動機與後設認知的部分,對於LLM而言,理當更具有挑戰性。此外,以LLM的大量訓練資料而言,LLM可能也會出現變異性不足,只能表現出總體人類的平均傾向的限制。然而,為了未來有機會可以使用LLM來模擬一些難以接觸到的人類群體,研究LLM所生成的問卷樣本的特性,具有其必要性。
將LLM生成的結果進行心理學計量分析
Vogelsmeier等人 (2025) 選定了「激勵的學習策略量表 (Motivated Strategies for Learning Questionnaire, MSLQ)」來進行心理學問卷填答的模擬,這是一個可以評估自我調節學習 (Self-regulation Learning, SRL) 的問卷量表,包含44道題目,5個構面,分別為「內在價值 (Intrinsic Value)」、「自我效能 (Self-Efficacy)」、「考試焦慮 (Text Anxiety)」、「認知策略使用 (Cognitive Strategy Use)」、「自我調節 (Self-Regulation)」,使用的是測量高中生學習策略與學業動機的版本,而選定這個題材,一方面也是因為已有內容分析的回顧型研究指出,自我調節和學習表現有正向相關,因此,以此為測試LLM的主題,對於心理學及教育學方面,具有更深的理論意涵。
用來生成填答樣本的LLM包含GPT-4o、Claude 3.7 Sonnet, Gemini 2 Flash, LLaMa 3.1-8B、以及Mistral Large,這些模型代表了目前市面上很流行的幾個重要模型,有的具有高度的表現性,有的則是開源模型,甚至有的還可以下載到本地設備執行等。每個模型讓它們生成1000個樣本,大約花費3小時生成,所以全部跑完一次需要花費15個小時。
在進行心理學的網路分析時,以R2來判斷模型的某個構面是否可以和其他的構面具有連結的變異程度,而均方根誤差 (root mean squared error, RMSE),則是用來判斷整體網路模型的預測誤差。在Vogelsmeier等人 (2025) 的結果指出,網路模型中表現最好的是Gemini模型。
另外,在進行心理學的探索式因素分析 (Exploratory factor analyses) 時,表現較好的模型是Claude以及Gemini,Claude將原本的MSLQ量表的結果收斂出5個構面,但Gemini收斂出4構面,儘管原理論的構面為5,但是LLM所做出來的結果,也有助於心理學家重新審視理論。以Gemini為例,之所以變成4個因素,是因為模擬出來的結果將「認知策略使用」以及「自我調節」結合了,甚至也包含了一些「內在價值」這一個構面的題目。儘管很有可能LLM在進行因素收斂或者是進行問卷填答的時候,只是利用了語言本身的特性做出了回答,所以才導致了這樣結果,但是透過這樣模擬的結果,其實也能促進心理學家去發展一些不同的問卷題目,也許也能夠更可以清晰的闡述不同的題項,讓人類的回答更具有區辨度。
模型的持續進步與未來研究
儘管現行Vogelsmeier等人 (2025) 的研究已經進行了多種模型的測試,並且取得了一定程度的結果,但是,研究者們也提醒,由於LLM模型的發展進程快速,所以還是有可能隨著新模型的釋出,而讓研究的結果發生了改變。不過,對於早期進行模擬生成的研究而言,還是可以作為未來研究就基準線,用以檢視未來的技術是否真的提升了模擬人類行為的可行性。
另外,就方法論而言,Vogelsmeier等人 (2025) 提供了他們在做研究過程中使用的提示詞,許多研究都擔心LLM是否能具有跨文化的適用性,透過提示詞在研究領域的共享,可以讓學者們互相分享,並且使用相同的手法進行泛用性 (generalizability) 的驗證。對於科學發展的累積而言,有待未來研究持續的疊加新的成果。
參考文獻
