寶寶在看哪裡？自動化嬰幼兒眼動數據標註系統

2024 年 04 月 19 日2024 年 04 月 16 日 CASE PRESS 深度學習, 網路實驗, 認知發展, 開源軟體

分享至

當今的電腦計算機可能尚無法自主進行研究、提出理論，但卻能夠有效率地幫忙收集資料、解決過去進行研究時所遇到的瓶頸。過去進行嬰兒行為相關研究時，總是會因為參與者稀少、數據分析、標示的人力成本過高，導致研究窒礙難行，但Erel等人在2023年的最新研究，開發出了一個可以自動化標註嬰兒眼動軌跡的系統，此系統雖然在某些條件下仍會有誤判的情況，但整體而言的準確率已經近似人類標註者。這項電腦視覺技術使得心理學家們得以安心透過網路平臺招募參與者，並使用電腦軟體協助判讀，降低人力成本，有效解決過往進行實驗時所遭遇的困境。

撰文｜王冠云

自我們出生的那一刻起，便開始了與這個世界的互動。但在我們還不會說話的時候，我們是如何認知這個世界呢？心理學家們在研究人類行為及認知的發展時，需要大量招募嬰幼兒來進行相關的實驗。不過，對一個還不會說話，生活還不能自理的寶寶而言，要怎麼配合研究者進行實驗呢？

實驗的瓶頸依靠科技的力量解決

發展心理學的許多重大發現仰賴於研究者們以嬰兒為實驗參與者，透過觀察嬰兒的眼動軌跡來測量人類在尚未具有語言能力時的認知能力。例如，在瞭解嬰兒的偏好時，藉由嬰兒目光停留在物品上的時間長短，來推測其對於物品的偏好程度。然而，這樣的研究卻有兩個瓶頸有待解決。

其中一個阻礙就是招募實驗參與者的困難，畢竟除了嬰兒的實驗參與者很難尋找之外，若是請父母親帶著孩子前來實驗室參與實驗，也是十分舟車勞頓的事情，所以，願意參與心理學實驗的親子組合非常稀少。因此，在2020年代末期，就出現了一些網路平臺，讓願意參與發展心理學實驗的親子，透過網路攝影機就能夠在家裡錄製研究者需要的實驗素材 (Scott & Schulz, 2017)。

但這時就會碰到第二個阻礙：人工標註影片資料太過費時。蒐集完大量的影片資料之後，雖然目前已經有如OpenFace等的開源軟體，可以協助研究者自動化地分析臉部肌肉的運動，但通常現有的分析軟體主要都是針對成人的臉部表情來進行分析，也需要具有良好解析度的影像。因此，對於畫面品質不穩定而且是嬰兒的臉部資料來說，現有的工具仍然沒有辦法自動化分析臉部表情，仍然需要大量的人工投入心力來進行標註，才能夠供研究者進行下一步的分析。

結合臉部辨識以及眼動辨識的電腦視覺

Erel等人 (2023) 的最新研究，正是為了解決目前發展心理學所遇到的瓶頸，開發了一個可以自動化標註嬰兒眼動軌跡的系統，他們的研究發表在心理學研究方法論中相當重要的期刊《Advances in Methods and Practices in Psychological Science》上。而早在2022年，Erel等人就已經先把這個系統的架構發表成論文，於2023年提出的論文則是先前模型的改良版，具備了比OpenFace等開源軟體還要更好的準確率。

在Erel等人提出的架構中，以深度學習的模型來進行嬰兒的眼動標註。由於影片來自於網路平臺，所以影片的品質較為參差不齊，畫面中可能同時有很多孩子，或者嬰兒的照顧者會抱著嬰兒，好讓他能呈現在相機畫面前。不同於實驗室，由照顧者抱著嬰兒時，通常照顧者會背對鏡頭，如此一來，嬰兒的臉才會正對鏡頭。但是，這樣的姿勢卻也容易造成嬰兒的臉可能會被成人的肩膀遮住。因此，影片分析的第一步，必須先偵測畫面當中出現的臉，接著，再從擷取的臉當中，分析那個臉是否是嬰兒的臉。偵測到嬰兒的臉之後，才能正式開始進行眼動的分析。

而分析嬰兒眼動的方法，則是取得影片連續的5幀畫面（每一幀畫面33毫秒），藉由這5幀畫面來判斷嬰兒的眼動是往左 (LEFT)、往右 (RIGHT)、或是看向無關的他處 (AWAY) 的狀態。在Erel等人的研究裡，測試了許多不同的大型網路實驗所取得的嬰兒影片，以電腦標註的結果和真人標註的結果進行比較，確實研發出了可以利用電腦視覺來標註的方法。他們的模型能夠幾乎達成如同真人標註一樣的準確率。

電腦視覺在發展心理學上的應用與限制

Erel等人 (2023) 指出，深度學習會誤判的畫面有兩種特性。第一種是當嬰兒的眼睛看向極端的左邊或右邊時，人類標註者仍然能看出其眼動的方向注視著左邊或是右邊，但深度學習模型的判斷則會將其歸類為看往無關的他處。第二種則是當成人在協助嬰兒調整姿勢時，可能稍微將嬰兒抱起來一點，當類似這樣的小動作發生時，人類仍然能接受並且判斷畫面中嬰兒的眼動，但深度學習模型的判斷則會失準。

儘管如此，Erel等人 (2023) 所提出的架構已經成熟到可以擁有近似於人類標註者的準確率，因此他們認為，對於發展心理學的相關研究，使用深度學習的電腦視覺技術，將能帶來很大的幫助。比方說，為了解決實驗參與者不足的問題，研究者可以放心地使用網路平臺招募參與者，再交由電腦軟體進行判讀，如此一來，即使收到大量雜訊較多的資料，仍然能有自動化的軟體先進行篩選。由於人工標註是一件非常耗費時間，而且也需要相當經費的大工程，因此有了軟體的協助，相信能幫助不少發展心理學家執行實驗。電腦視覺技術雖然不能幫忙提出心理學理論，但能幫忙收集更多資料，便能幫助學者建立更穩定的成果，發展與人類認知、行為有關的理論。

參考文獻

Scott, K., & Schulz, L., 2017, “Lookit (part 1): A new online platform for developmental research.”, Open Mind, 1(1), 4-14.
Baltrusaitis, T., Zadeh, A., Lim, Y. C., & Morency, L. P., 2018, May, “Openface 2.0: Facial behavior analysis toolkit.”, In 2018 13th IEEE international conference on automatic face & gesture recognition (FG 2018) (pp. 59-66). IEEE.
Erel, Y., Potter, C. E., Jaffe‐Dax, S., Lew‐Williams, C., & Bermano, A. H., 2022, “iCatcher: A neural network approach for automated coding of young children's eye movements.” Infancy, 27(4), 765-779.
Yotam Erel’s homepage
Erel, Y., Shannon, K. A., Scott, K., Cao, P., Tan, X., Hart, P., & Liu, S. iCatcher+: Robust and automated annotation of infant gaze from videos collected in the lab and online. Advances in Methods and Practices in Psychological Sciences.

(Visited 323 times, 1 visits today)

分享至