我的口音,機器人聽得懂嗎?

我的口音,機器人聽得懂嗎?

編譯/臺大電機系 吳奕萱

Alexa: 口音很美,可是我聽不懂

Amazon與Google等科技公司,正以不同形式的智慧語音助理帶動「聲控世代」,快速改變人們的學習模式與日常生活。以Amazon智慧語音助理Alexa為例,其可以為使用者規劃晚餐、叫外送,而且功能仍不斷擴增。然而Alexa真得能成為每個人的得利助手嗎?

一位有著輕快北美西岸口音的女性與Alexa對話,Alexa能流暢地向她報告當日氣象、解決數學題目,兩者互動愉快。然而當一位帶有西班牙語口音的使用者說出同樣指令時,無論如何放慢速度,Alexa 只是一味請他提供更多資訊,甚至請Alexa關掉音樂時,Alexa反而將音量調大。

而其實只要使用者操的不是「標準」英語腔調,即便是美國境內不同地區的口音,Alexa也有一定的機率無法給予適當回覆。因此,探討語音辨識現況並尋找改進方法,不僅是為了提升使用者的體驗,更是讓這些口音上的「少數族群」不會在聲控時代中被遺忘。

 多樣的口音,多重的困惑

研究人員針對來自二十個城市,超過一百位受試者進行實驗,以測試智慧語音助理對美國各地使用者語音辨識的情形。他們設計了七十道日常生活可能出現的指令,例如:「離我最近的便利商店有多遠?」。

美國口音分布圖(圖片來源:www.speechbuddy.com)

有趣的是, Alexa(Amazon Echo)與Google Home在判讀美國本土英語口音時,便已顯現地域差異:Google Home較適應西部口音,判讀準確率比南部口音略高3 %;Alexa則更熟悉南部與東部口音,準確率較中西部高2 %。一位研究人員認為這可能與系統主要銷售區域有關。

地區口音之語音辨識度(圖片來源:編譯來源)

帶有西班牙語腔的英語,則在兩系統皆不吃香。相較於來自加州與華盛頓州(依次為Google與Amazon總部所在地)使用者所使用的西部口音,智慧語音助理對西語腔英語的成功辨識機率平均低了6 %。這樣的百分比有什麼影響呢?當語音成為人機互動的主要媒介,即便只是微小的判斷差異,譬如聽錯一個字,都可能嚴重妨礙使用者的日常生活與使用體驗。

另一項實驗中,受試者被要求向語音助理朗讀《華盛頓郵報》上,三則分別與冬奧、習近平連任中國國家主席、以及川普恫嚇福斯新聞頻道(Fox News)主持人有關的頭版標題,比較語音助理判讀結果與實際文本的差異。研究人員以萊文斯坦距離(Levenshtein distance)為指標,衡量兩個字串間,由其中之一轉換為另一字串所需的最低編輯次數,距離愈大代表兩者相似度愈低。結果顯示非母語英語使用者,較母語使用者多了30 % 的距離誤差。

 為什麼Alexa如此「偏心」?

有人便質疑,這樣的智慧語音助理根本是歧視非「正統」的英語使用者。然而仔細想想,這樣的辨識結果其實很合理。訓練機器聽懂人類的語言,需要大量語音資料,搭配人工聽寫逐字稿。機器在學習語音與單詞的對應後,聽到新字串時,便能產生有水準的「猜測」。機器學習的一大精神,便是從過去資料中學習規律;訓練次數愈多,辨識愈準確。所以,若過往訓練的樣本,多來自於那些受過高等教育、中產階級的高加索人,自然成功辨識他們所習慣口音的機率也會愈高。此外,非母語者說話的語句型態,往往融合兩種語言以上的構句習慣,形成特殊的規律,也提高訓練機器的難度。

因此,當務之急應是積極擴建訓練資料庫,含納更多非母語者樣本,增加Alexa在訓練、測試及運作階段,所接觸到的語言形式。

 Amazon語音轉換模型

2018年中,Amazon通過了一項語音腔調辨識的專利:當機器在接收一段語音輸入後,能將其連結至至少一個口音樣本。若輸入語音無法明確連結至特定既有樣本時,則會比較其中的聲音特性,例如:音頻、聲調與重音等,視為不同樣本的加權組合。接著,機器比較同語言不同口音的樣本,產生一語音轉換模型,並藉由多個類神經網路持續最佳化。在熟悉使用者腔調後,語音助理更能調整語音輸出方式,以接近該使用者的口音回覆。[3]

此項技術將有助於提升溝通效率。當兩個口音差異甚大的人對話時,可先進行語音轉換,讓對方聽到較中性的「標準」腔調,降低錯誤理解的風險,可望應用於智能客服專線。期待Amazon將此專利實際運用於產品中,提升智慧語音助理對重口音使用者的語音辨識能力,讓人、機能真正達到溝通無礙。

 

編譯來源

Drew Harwell, “The Accent Gap”, The Washington Post, 2018.

參考資料

  1. Naomi van der Velde, “How well does Alexa handle accents”, Globame Localization, 2018.
  2. Amazon, “Accent Translation” (US Patent Application Publication), Google Patents.
  3. Johnson, “In the world of voice-recognition, not all accents are equal”, The Economists, 2018.
(Visited 1 times, 1 visits today)
views