我的口音,機器人聽得懂嗎?
編譯/臺大電機系 吳奕萱
Alexa: 口音很美,可是我聽不懂
Amazon與Google等科技公司,正以不同形式的智慧語音助理帶動「聲控世代」,快速改變人們的學習模式與日常生活。以Amazon智慧語音助理Alexa為例,其可以為使用者規劃晚餐、叫外送,而且功能仍不斷擴增。然而Alexa真得能成為每個人的得利助手嗎?
一位有著輕快北美西岸口音的女性與Alexa對話,Alexa能流暢地向她報告當日氣象、解決數學題目,兩者互動愉快。然而當一位帶有西班牙語口音的使用者說出同樣指令時,無論如何放慢速度,Alexa 只是一味請他提供更多資訊,甚至請Alexa關掉音樂時,Alexa反而將音量調大。
而其實只要使用者操的不是「標準」英語腔調,即便是美國境內不同地區的口音,Alexa也有一定的機率無法給予適當回覆。因此,探討語音辨識現況並尋找改進方法,不僅是為了提升使用者的體驗,更是讓這些口音上的「少數族群」不會在聲控時代中被遺忘。
多樣的口音,多重的困惑
研究人員針對來自二十個城市,超過一百位受試者進行實驗,以測試智慧語音助理對美國各地使用者語音辨識的情形。他們設計了七十道日常生活可能出現的指令,例如:「離我最近的便利商店有多遠?」。
有趣的是, Alexa(Amazon Echo)與Google Home在判讀美國本土英語口音時,便已顯現地域差異:Google Home較適應西部口音,判讀準確率比南部口音略高3 %;Alexa則更熟悉南部與東部口音,準確率較中西部高2 %。一位研究人員認為這可能與系統主要銷售區域有關。
帶有西班牙語腔的英語,則在兩系統皆不吃香。相較於來自加州與華盛頓州(依次為Google與Amazon總部所在地)使用者所使用的西部口音,智慧語音助理對西語腔英語的成功辨識機率平均低了6 %。這樣的百分比有什麼影響呢?當語音成為人機互動的主要媒介,即便只是微小的判斷差異,譬如聽錯一個字,都可能嚴重妨礙使用者的日常生活與使用體驗。
另一項實驗中,受試者被要求向語音助理朗讀《華盛頓郵報》上,三則分別與冬奧、習近平連任中國國家主席、以及川普恫嚇福斯新聞頻道(Fox News)主持人有關的頭版標題,比較語音助理判讀結果與實際文本的差異。研究人員以萊文斯坦距離(Levenshtein distance)為指標,衡量兩個字串間,由其中之一轉換為另一字串所需的最低編輯次數,距離愈大代表兩者相似度愈低。結果顯示非母語英語使用者,較母語使用者多了30 % 的距離誤差。
為什麼Alexa如此「偏心」?
有人便質疑,這樣的智慧語音助理根本是歧視非「正統」的英語使用者。然而仔細想想,這樣的辨識結果其實很合理。訓練機器聽懂人類的語言,需要大量語音資料,搭配人工聽寫逐字稿。機器在學習語音與單詞的對應後,聽到新字串時,便能產生有水準的「猜測」。機器學習的一大精神,便是從過去資料中學習規律;訓練次數愈多,辨識愈準確。所以,若過往訓練的樣本,多來自於那些受過高等教育、中產階級的高加索人,自然成功辨識他們所習慣口音的機率也會愈高。此外,非母語者說話的語句型態,往往融合兩種語言以上的構句習慣,形成特殊的規律,也提高訓練機器的難度。
因此,當務之急應是積極擴建訓練資料庫,含納更多非母語者樣本,增加Alexa在訓練、測試及運作階段,所接觸到的語言形式。
Amazon語音轉換模型
2018年中,Amazon通過了一項語音腔調辨識的專利:當機器在接收一段語音輸入後,能將其連結至至少一個口音樣本。若輸入語音無法明確連結至特定既有樣本時,則會比較其中的聲音特性,例如:音頻、聲調與重音等,視為不同樣本的加權組合。接著,機器比較同語言不同口音的樣本,產生一語音轉換模型,並藉由多個類神經網路持續最佳化。在熟悉使用者腔調後,語音助理更能調整語音輸出方式,以接近該使用者的口音回覆。[3]
此項技術將有助於提升溝通效率。當兩個口音差異甚大的人對話時,可先進行語音轉換,讓對方聽到較中性的「標準」腔調,降低錯誤理解的風險,可望應用於智能客服專線。期待Amazon將此專利實際運用於產品中,提升智慧語音助理對重口音使用者的語音辨識能力,讓人、機能真正達到溝通無礙。
編譯來源
Drew Harwell, “The Accent Gap”, The Washington Post, 2018.
參考資料
- Naomi van der Velde, “How well does Alexa handle accents”, Globame Localization, 2018.
- Amazon, “Accent Translation” (US Patent Application Publication), Google Patents.
- Johnson, “In the world of voice-recognition, not all accents are equal”, The Economists, 2018.