大人如何理解孩子說的話:語音模型與牙牙學語

分享至

小朋友說話的奶音是否常常讓你聽到融化呢?但是為什麼明明發音不標準,大人們卻還是能夠理解孩子們說的話呢?而且如果孩提時代說話不標準的話,我們到底是怎麼學會標準語言的呢?有沒有可能透過數學模型的方式來告訴我們人類語言學習的祕密呢?

撰文|王冠云

來源:MotionElements
成人的「傾聽」對於孩子的語言學習至關重要

麻省理工腦與認知科學系以及哈佛大學心理學系等研究學者(Meylan等人),在2023年於《Nature Human Behaviour》期刊上發表了一篇新研究。在研究中,使用了計算模型,重現成人對於孩童語音的辨識方法,這項研究對於兒童早期的語言習得方式,以及成人照顧者和孩童之間的親子互動提供了一套數學模型。

Meylan等人 (2023) 指出,過去的研究多關注於以孩子為中心的成人「說話角色」,但他們認為,成人的「傾聽行為」同樣重要。成人的傾聽意味著他們如何解釋孩子們充滿變異的語言,而他們的傾聽與理解,將會影響到成人與孩子之間的互動,這些孩子與其主要照顧者的互動經驗,將會成為他們早期學習母語的重要關鍵。

論文中將大人的傾聽與理解稱為「孩童導向的傾聽 (child-directed listening)」。舉例來說,一個小孩在一本書旁邊用著他的奶音說:「ah wan du weed.(偶養但屋)」成人通常都能將這句不標準的奶音話語成功解讀為他想表達的話:「I want to read.(我想看書)」一來是因為小孩子很容易把英語的「r」發成「w」的音,二來則是小孩子比較可能想要看書,而不是除草 (weed)。也就是說,成人照顧者對於小孩子想要說的話會有一些特定的期待,並且根據當時的溝通情境來判斷孩子說的話,再以此來維持溝通。

 

借鑑貝式定理,描繪成人傾聽孩童的思路公式

Meylan等人 (2023) 主要以1歲到4歲的兒童及成人互動為主要的研究對象,從語料庫中,他們收集了大量的成人照顧者與兒童的錄音檔案。而研究者所使用的語音辨識模型,主要使用了貝式 (Bayesian) 架構來進行每個詞的機率計算。使用貝式定理的特色在於,可以用「條件機率」來表示字詞的機率,這樣的機率計算方式,也會更貼近成人在傾聽孩童發言時的猜測機制。

具體而言,所謂的條件機率,簡單舉例來說,指的是「在B事件發生的情境之下,A事件發生的機率」,也就是給定了特定條件之後,來計算事件發生的機率。在這項研究中,給定的條件則是當時的情境以及字詞的語音,藉此來判斷某個特定字詞的可能機率。

在這項研究中,主要有兩類的機率需要估計,分成了兩塊不同的模組:一個是「字詞預測模組」,負責從對話情境中預測某字詞的機率;另一個則是「發音模組」,負責從語音輸入當中預測該語音為某字詞的機率。當這兩個模組結合起來,才能夠進行研究者們所提出來的字詞辨識的條件機率計算。

貝式定理在字詞辨識上的應用圖解。圖中某字詞的條件機率(綠色)為,在特定的語音輸入以及對話情境之下,某字詞出現的機率(圖中的對話情境根據論文提供的範例翻譯後改編而成,以符合中文語境以及解說需要)|來源:作者提供

 

透過不同的模型測試,驗證語言模型的假設

實際上在進行機率的預測時,必須要牽涉到相當多的語言模型。在Meylan等人 (2023) 研究中,嘗試了很多不同的語言模型的組合。為了透過數學模型來重現成人對於孩童語音理解的模式,除了基礎的預測模型的不同之外,透過疊加不同的資料庫或計算方式,亦能提升對於字詞的預測力。在研究中,只有單純透過語音來進行辨識的模型叫做「UNIFORMPRIOR」。關於字詞的預測方面,使用了「BERT」架構以及「GPT-2」架構,這兩者被認為是相對其他方法,更具有自然生產人類語言的類神經網路架構。而作為對比,研究者也使用了「TRIGRAM」——透過前兩個詞來預測下一詞的模型,以及「UNIGRAM」——從語料庫中的所有句子中取出詞頻的模型。

為了進一步提升預測力,除了上述的基底模型之外,也加入了其他語料庫的資料。加入「CHILDES」語料庫的資料,包含了一組在居家環境中,成人與孩童互動的所有對話資料。加入「switchboard」或「adultwritten」語料庫,則是加入了成人間的電話對話以及書信對話(網路論壇、簡訊等),以作為「CHILDES」語料庫的對比。最後,關於「脈絡」長度則是分成了三種:「BIDIRECTIONAL」、「PRECEDING」、「ONEUTT」,分別為前後20個字、前20個字、前1~2個字等不同的差別。

最後,經過Meylan等人 (2023) 的實驗,發現使用「BERT」、「CHILDES」、「BIDIRECTIONAL」這個組合的模型最能成功辨識字詞,而且準確率超過9成,即使在某個字詞的空缺有8000種可能性時,仍然能選出正確的詞來。而且這個模型很厲害的是,還能夠忽略小孩子可能會有的文法錯誤。

然而,雖然透過不同的模型比較,證明了上下文脈絡結合語音辨識對於辨認字詞的重要性,但是研究者在論文的最後也提出了一個有趣的疑問。如果成人對於孩童的語音都有特定的期待,例如可以把當孩童含糊地說著「uh」時,能理解成「up」,然後把孩童抱起來,這表示孩童不需要把話說清楚也能達到溝通的目的,那究竟是什麼動力促使孩童把語言說得更好呢?所以,這篇文章的第一作者說,這篇研究是關於「成人如何理解孩童的語言」,下一步,則是希望建立模型來模擬「孩童如何理解成人的語言」。就讓我們期待後續的研究成果吧!

 


參考文獻

  1. Meylan, S.C., Foushee, R., Wong, N.H. et al.,2023, “How adults understand what young children say.”, Nat Hum Behav.
  2. Anne Trafton, Oct 26, 2023, “How adults understand what kids are saying.”, MIT News. (Last access date: Nov 26, 2023)
(Visited 295 times, 1 visits today)

分享至
views