大人如何理解孩子說的話：語音模型與牙牙學語

2024 年 01 月 04 日2024 年 01 月 04 日 CASE PRESS 兒童語言習得, 自然語言處理, 語料庫, 語音辨識, 貝式定理

分享至

小朋友說話的奶音是否常常讓你聽到融化呢？但是為什麼明明發音不標準，大人們卻還是能夠理解孩子們說的話呢？而且如果孩提時代說話不標準的話，我們到底是怎麼學會標準語言的呢？有沒有可能透過數學模型的方式來告訴我們人類語言學習的祕密呢？

撰文｜王冠云

成人的「傾聽」對於孩子的語言學習至關重要

麻省理工腦與認知科學系以及哈佛大學心理學系等研究學者（Meylan等人），在2023年於《Nature Human Behaviour》期刊上發表了一篇新研究。在研究中，使用了計算模型，重現成人對於孩童語音的辨識方法，這項研究對於兒童早期的語言習得方式，以及成人照顧者和孩童之間的親子互動提供了一套數學模型。

Meylan等人 (2023) 指出，過去的研究多關注於以孩子為中心的成人「說話角色」，但他們認為，成人的「傾聽行為」同樣重要。成人的傾聽意味著他們如何解釋孩子們充滿變異的語言，而他們的傾聽與理解，將會影響到成人與孩子之間的互動，這些孩子與其主要照顧者的互動經驗，將會成為他們早期學習母語的重要關鍵。

論文中將大人的傾聽與理解稱為「孩童導向的傾聽 (child-directed listening)」。舉例來說，一個小孩在一本書旁邊用著他的奶音說：「ah wan du weed.（偶養但屋）」成人通常都能將這句不標準的奶音話語成功解讀為他想表達的話：「I want to read.（我想看書）」一來是因為小孩子很容易把英語的「r」發成「w」的音，二來則是小孩子比較可能想要看書，而不是除草 (weed)。也就是說，成人照顧者對於小孩子想要說的話會有一些特定的期待，並且根據當時的溝通情境來判斷孩子說的話，再以此來維持溝通。

借鑑貝式定理，描繪成人傾聽孩童的思路公式

Meylan等人 (2023) 主要以1歲到4歲的兒童及成人互動為主要的研究對象，從語料庫中，他們收集了大量的成人照顧者與兒童的錄音檔案。而研究者所使用的語音辨識模型，主要使用了貝式 (Bayesian) 架構來進行每個詞的機率計算。使用貝式定理的特色在於，可以用「條件機率」來表示字詞的機率，這樣的機率計算方式，也會更貼近成人在傾聽孩童發言時的猜測機制。

具體而言，所謂的條件機率，簡單舉例來說，指的是「在B事件發生的情境之下，A事件發生的機率」，也就是給定了特定條件之後，來計算事件發生的機率。在這項研究中，給定的條件則是當時的情境以及字詞的語音，藉此來判斷某個特定字詞的可能機率。

在這項研究中，主要有兩類的機率需要估計，分成了兩塊不同的模組：一個是「字詞預測模組」，負責從對話情境中預測某字詞的機率；另一個則是「發音模組」，負責從語音輸入當中預測該語音為某字詞的機率。當這兩個模組結合起來，才能夠進行研究者們所提出來的字詞辨識的條件機率計算。

貝式定理在字詞辨識上的應用圖解。圖中某字詞的條件機率（綠色）為，在特定的語音輸入以及對話情境之下，某字詞出現的機率（圖中的對話情境根據論文提供的範例翻譯後改編而成，以符合中文語境以及解說需要）｜來源：作者提供

透過不同的模型測試，驗證語言模型的假設

實際上在進行機率的預測時，必須要牽涉到相當多的語言模型。在Meylan等人 (2023) 研究中，嘗試了很多不同的語言模型的組合。為了透過數學模型來重現成人對於孩童語音理解的模式，除了基礎的預測模型的不同之外，透過疊加不同的資料庫或計算方式，亦能提升對於字詞的預測力。在研究中，只有單純透過語音來進行辨識的模型叫做「UNIFORMPRIOR」。關於字詞的預測方面，使用了「BERT」架構以及「GPT-2」架構，這兩者被認為是相對其他方法，更具有自然生產人類語言的類神經網路架構。而作為對比，研究者也使用了「TRIGRAM」——透過前兩個詞來預測下一詞的模型，以及「UNIGRAM」——從語料庫中的所有句子中取出詞頻的模型。

為了進一步提升預測力，除了上述的基底模型之外，也加入了其他語料庫的資料。加入「CHILDES」語料庫的資料，包含了一組在居家環境中，成人與孩童互動的所有對話資料。加入「switchboard」或「adultwritten」語料庫，則是加入了成人間的電話對話以及書信對話（網路論壇、簡訊等），以作為「CHILDES」語料庫的對比。最後，關於「脈絡」長度則是分成了三種：「BIDIRECTIONAL」、「PRECEDING」、「ONEUTT」，分別為前後20個字、前20個字、前1～2個字等不同的差別。

最後，經過Meylan等人 (2023) 的實驗，發現使用「BERT」、「CHILDES」、「BIDIRECTIONAL」這個組合的模型最能成功辨識字詞，而且準確率超過9成，即使在某個字詞的空缺有8000種可能性時，仍然能選出正確的詞來。而且這個模型很厲害的是，還能夠忽略小孩子可能會有的文法錯誤。

然而，雖然透過不同的模型比較，證明了上下文脈絡結合語音辨識對於辨認字詞的重要性，但是研究者在論文的最後也提出了一個有趣的疑問。如果成人對於孩童的語音都有特定的期待，例如可以把當孩童含糊地說著「uh」時，能理解成「up」，然後把孩童抱起來，這表示孩童不需要把話說清楚也能達到溝通的目的，那究竟是什麼動力促使孩童把語言說得更好呢？所以，這篇文章的第一作者說，這篇研究是關於「成人如何理解孩童的語言」，下一步，則是希望建立模型來模擬「孩童如何理解成人的語言」。就讓我們期待後續的研究成果吧！

參考文獻

(Visited 428 times, 1 visits today)

分享至

views