高效率機器學習模型的力量:預測學習者表現
在當今這個大數據時代,教育類的系統提供了非常大量的學生與科技設備的互動資料。從早期電腦輔助教學 (Computer-assisted Instruction, CAI) 的概念提出,到後來又提出了更具有客製化學習概念的「智慧家教系統 (Intelligent Tutoring System, ITS)」,用以了解學習者的知識水準、追蹤學習者的學習進度等。數據與資料的儲存和應用,也讓教育科技的領域有了更進一步的發展。
撰文|王冠云
智慧家教系統的預測模型
隨著電腦算力的增強,智慧家教系統得以整合不同的「領域模型 (domain model)」,提升了系統預測學習者學習表現的正確性。所謂的「領域模型」,指的是從學習者的資料抽取「知識成分 (knowledge components, KCs)」的模型。概念上,是一套用來評估學習者的知識量的工具,認為若是掌握了學習者的知識量,就能夠預測學習者回答問題的正確率。
傳統上用來預測學習表現的模型有很多種,諸如貝式知識追蹤 (Bayesian Knowledge Tracing, BKT)、深度知識追蹤 (Deep Knowledge Tracing) 等。而Hakkal等人 (2024) 的研究,則是為了提升模型的效率,並且達到當今時代所講究的規模化的需求,使用了XGBoost (eXtreme Gradient Boosting) 的模型來進行預測。此外,在Hakkal等人的研究中,也嘗試將XGBoost模型與羅吉斯回歸 (Logistic Regreesion) 的相關模型進行整合,嘗試過去還未有研究使用的模型來進行測試。
XGBoost具有高效、可規模化且適合分析稀疏 (sparse) 檔案資料的優點,這類型的檔案的資料點會含有很多零,而大量收集的學習資料也容易產生這樣的情形。此外,Hakkal等人 (2024) 的研究中,也使用了羅吉斯回歸相關的模型包含了可以反映題目困難度與回答正確率的項目反映理論(Item Response Theory,以下簡稱IRT),以及考量了學習者的歷史回答率資訊的性能因素分析(Performance Factor Analysis,以下簡稱PFA)模型。
經由大量資料實驗證實XGBoost的強大預測力
Hakkal等人 (2024) 的研究,總共測試了8個大型的資料庫。其中四個資料庫來自於「ASSISTments Intelligent Tutoring System」,這些資料庫來自於一個數學的線上智慧家教系統,並且提供了質性以及量性的評估,有學生的回饋,也有教師的完整報告。其中兩個資料庫則是來自於KDD盃於2010年舉辦的知識探索與資料探勘的比賽用資料庫,也是使用了真實世界當中的資料。另外,還有一個資料庫是大學階段提供給工程類科學生的問題解決導向的數學課程所收集到的資料。以及一個來自於Moodle上教授Python程式語言課程的學生資料。這些資料庫最少都有超過200位學習者的資料,最大的資料庫甚至有將近3萬名學習者的資料。
Hakkal等人 (2024) 使用XGBoost模型以及其他羅吉斯回歸相關模型,透過學習者資訊以及歷史學習資料,來預測未來的學習上,答對問題的正確率。在機器學習的模型訓練方面,使用了五折交叉驗證 (5-fold cross-validation) 分割訓練集與測試集,這個訓練方法是將所有的資料分成五等分,其中四等分為訓練集,另一等分為測試集,且每一等分會輪流進行訓練及測試,所以總共會進行5次,利用這個方法來驗證訓練及測試集的穩定度,並且透過這個方式來取得最佳化的模型超參數 (hyperparameters)。這是目前在機器學習的研究以及運算中,常用的手法之一。
在模型的表現方面,Hakkal等人 (2024) 測試了不同的整合模型的組合(使用XGBoost搭配PFA或IRT模型),並且一一測試在八個不同的資料集上。最後的結果顯示,使用PFA搭配XGBoost的整合模型具有較佳的模型表現,八個資料集之中,在正確率方面的最佳表現達到了84.3%。
Hakkal等人 (2024) 指出,經由八個資料集的比較,證實了PFA模型比起IRT模型更具有實用性。比較這兩個模型的差異,在於PFA有考量的學習者本身的知識量狀態以及過往的學習狀況,透過這些資料來預測,會更加的有效果,而若是深究其數學式,也會發現到這個模型在數理上更直觀。
而在研究中透過整合型XGBoost模型和傳統的回歸模型的比較,Hakkal等人 (2024) 指出,XGBoost的模型對於處理複雜的資料庫以及提升預測的正確率方面,都更勝於傳統的羅吉斯回歸模型。尤其XGBoost可不只是用於單一資料庫,使用同樣的模型超參數,也能有效的跨越不同的資料庫進行預測,更具有導入系統中的泛用性。
未來研究與教育科技的下一步
在教育科技的發展與改善方面,隨著電腦算力的增加以及模型結構的改良,讓模型越來越具高效率,除了處理速度快之外,還能處理大量且複雜的資料。Hakkal等人 (2024) 認為,若導入高效率的模型進入系統之中,很適合提供具有即時同步性的教學介入,並且轉向更具有個人化設計的學習系統,讓學生更能適性學習。
不過,Hakkal等人 (2024) 指出,目前若是資料量太過於龐大時,XGBoost的處理速度還是稍微緩慢,如果能有更好的模型架構,也許能幫助解決這個問題。此外,未來研究也可以再把XGBoost模型應用在不同的資料庫上,或者,針對餵入機器學習模型所使用的特徵量,也可以再進行不同的設計,讓模型能有更適合的學習資料。如此一來,對於機器學習模型或是XGBoost的發展潛力,將能發揮得更大。
參考文獻