語音診斷,可靠嗎?
編譯/江彥成、黃思齊
抗「疫」聲中
新型冠狀病毒大流行,全球各地都出現招募大眾來響應抗疫的行動:醫院希望在地工廠捐贈口罩、研究人員呼籲康復患者主動提供血液樣本,但在以色列,一家名為Vocalis Health的新創公司卻是向新冠肺炎患者募集他們的聲音。
截至夏季為止,該公司已募有1,500多個語音樣本,Vocalis會透過機器學習將這些錄音與未感染者的聲音進行比對,試著透過患者獨有的聲紋特徵找出可能的潛在病例,以利醫療人員進一步判斷哪些人需要進行篩檢、隔離或直接的醫療協助。Vocalis執行長Tal Wenderow表示:「我希望我們的演算法也能為疫情貢獻一份力。語音診斷不具侵入性,也不是藥品,人們只要對著手機說話(大聲描述他們看見的圖片內容,並從50數到70)即可,非常簡單。」
Vocalis的這個想法來自於他們過去的經驗──一款可以透過使用者說話時的呼吸頻率來檢測慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease,COPD)的應用程式;而除了Vocalis以外,至少還有3個團隊正在積極尋找新冠肺炎的語音(或咳嗽聲中的)生物標記。
語音診斷是個備受矚目的新興領域。過去十年中,科學家開始利用AI辨識人類語音在不同生理條件下的細微差別,透過這些語音標記來診斷如癡呆症、憂鬱症、泛自閉症障礙,甚至心臟病等各種疾病。雖然多數研究尚處於萌芽階段,規模小且效度有待驗證,但他們都有共同的夢想:有朝一日能將這類技術普及化,一支智慧型手機或個人語音助理便可追蹤患者健康,成為醫療體系中不可或缺的一環。
神經退化性疾病
一些疾病會引起明顯的聲音變化,比如過敏或鼻塞。不過科學家認為語音分析能夠提供的線索遠不止於此,因為人類的發聲構造與機制相當複雜:首先大腦負責構築字詞,接著由肺部傳送空氣震動聲帶,舌頭、嘴唇、鼻腔共鳴等塑成語音,在這複雜過程中的任一要素發生異常,都可能在語音中留下痕跡。
早期的語音分析研究多集中在帕金森氏症的診斷上,這類神經退化疾病主要影響運動神經,因而導致顫抖、肢體僵硬、動作遲緩、姿態不穩,也會連帶影響控制發音的肌群,許多帕金森氏症患者因此聲音變得微弱且含糊,這些是人耳就可以辨別出來的。但若有10,000個樣本和機器學習模型,便可以發現更多蛛絲馬跡。英國伯明罕大學的Max Little早在十多年前便開始這類的研究:他找來33位帕金森氏症患者與10位對照組,利用聲學演算法分析他們所發出「啊」聲中的132個聲學特徵,其中10種特徵和帕金森氏症有明確關聯──利用這10個聲學特徵來判斷受試者是否患有帕金森氏症的準確率更高達99%!
除了發音,患者的遣詞用字也是另一條線索。加拿大多倫多大學的一批學者便由250位受試者的語音樣本和寫作記錄中,篩選出十幾個罹患或潛在阿茲海默症的患者獨有的特徵,例如:使用較短的詞語、詞彙量較少、句子常沒有主詞或是動詞、傾向覆述自己說的話,且使用更多如「它」、「這」等代名詞。負責主持這項研究的Frank Rudzicz表示:「這個跡象可能表示他們不記得事物本身的名字了,因此改用代名詞。」結合另外35個聲學特徵,這套系統可以鑑別出潛在的阿茲海默症患者,準確率達九成。「這些隱藏的規律或模式對於我們而言或許很難一眼便看出端倪,但只要有足夠的樣本數,機器學習都可以輕易判別。」
這類研究的目的不在於以語音分析取代醫生、獨立診斷,而是提供醫生決策時的另一個參考指標,就像抽血一樣,語音蒐集有朝一日也能成為臨床診斷的一項生理數據。一些臨床醫師──例如密西根大學安娜堡分校的喉科醫師Norman Hogikyan──也坦承:語音特徵可以告訴我們很多事,但病史與儀器的檢查結果也同樣重要,單靠語音很難有明確的診斷結果。
神經發展障礙
由於這類聲音特徵上的變化在疾病的早期便會一一浮現,如何趕在疾病惡化之前「及早發現」也是語音分析工具十分看好的醫療應用,尤其是那些好發於嬰幼兒時期的神經發展障礙。
在2017年的一項小型研究中,研究團隊所開發的演算法甚至可由10個月大的嬰兒呀呀學語所發出的聲音中,分析、預測該孩童在未來是否會被診斷出自閉症,且有一定的準確度。另外如患有注意力不足過動症(Attention deficit hyperactivity disorder,ADHD)的孩童,可能聲音更大、語速更快,且聲音更緊張。
然而一些臨床醫生,例如美國康乃狄克州聖心大學(Sacred Heart University)的溝通疾患專家Rhea Paul,也提醒我們必須審慎看待這些工具所提供的資訊。舉例來說,我們尚不清楚語音分析工具所找到的這些標記是專屬於自閉症光譜障礙患者,還是任何腦部發育異常所共有的症狀,甚至有可能只是嬰幼兒語言能力發展過程中暫時的個體差異。Paul認為:嬰幼兒的腦部發展是一個漫長、曲折的過程,並不是每個看起來像自閉症的孩子最終都會長成確診自閉症的成人。這些語音生物標記可以告訴我們哪些孩童需要更進一步的評估,但絕非直接給孩子貼上標籤。
監控心理健康
另一方面,語音診斷因為其非侵入性、快速且低成本等優點,十分適合普查或遠端醫療,尤其是那些可以從聲音中「聽出」異常的精神疾患。語音的一些特徵,例如速率、節奏、音量、音調與韻律,能透露說話者當下的情緒與心理狀況──是否沮喪、焦慮不安,甚至處於躁期或鬱期。
紐約大學的精神科醫生Charles Marmar便曾利用機器學習從129名退伍軍人的資料中,篩選出與創傷後壓力症候群(PTSD)相關的18種聲音特徵;透過分析這些特徵來找出哪些退伍軍人可能患有PTSD,正確率接近90%。Marmar和他的同事希望能將這項研究成果擴大應用到女性和一般大眾,成為PTSD的普篩工具。「你能在幾個小時內完成4,000個語音樣本的檢驗」他補充道。類似的應用已經獲得美國退伍軍人協會的支持:一款由波士頓語音分析公司Cogito所開發的應用程式,能透過反映用戶生活習慣的元數據(例如打電話、發簡訊的頻率)及語音備忘錄,來判斷用戶的精神狀態。
有些看似與言語無關的疾病,也可能具備語音特徵。2018年的一場研究中,科學家分析了101位預計進行心臟冠狀動脈血管造影檢查的病患,發現某些語音的音頻特徵與嚴重的冠狀動脈疾病相關,只是目前還不清楚兩者的關聯。推測可能是血流量降低從而造成患者聲音上的變化,但無法排除如壓力或抑鬱等其他因素。
關聯性尚待驗證
從以上各種研究中,我們可以看到機器學習在語音診斷上最艱鉅的任務,其實是如何理解各項聲音特徵的成因和這些特徵的臨床意義。被篩選出來的語音特徵可能與疾病本身沒有直接的關聯,而僅只是反映了受測群體如年齡、性別、身材、學歷或慢性疲勞等健康風險因子。
另外,迄今為止大部分的相關研究也還只停留在一小部分患者身上,所篩選出的特徵能否套用在不同族群、不同患者間仍是個問題。「畢竟紐約人感到沮喪時的語氣,和德州休斯頓可能完全不同!」波士頓語音分析公司Sonde Health的數據和研究副總裁Jim Schwoebel毫不諱言地說道。更大、更具備多樣性(包含多種語言)的樣本實屬必要。
在實驗室之外,日常生活中許多的「不可抗力」也是語音診斷需要克服的挑戰。澳洲新南威爾士大學(University of New South Wales)的語音信號處理研究員Julien Epps便發現:使用高品質麥克風在實驗室環境下錄製的語音樣本,在經過分析後,可以預測受測者是否患有憂鬱症,準確度達94%;然而一旦樣本是受測者在原環境用自己的智慧型手機所錄製的,準確度驟降至75%以下。
隱私問題
最後,語音診斷雖然不具侵入性,但風險──尤其對個人隱私的侵犯──並不低。目前的技術已可從匿名的語音樣本追蹤到特定個人,同時可能無意間捕捉到私人對話、敏感的醫療信息,更不用說資料的洩漏、出售或是濫用。保險公司或是雇主,可能在未經明確同意的情況下獲得這些資訊,因而提高保險費用、不聘用或無故解雇員工。而醫療檢驗固有的偽陽性、過度診斷等問題,也是這些技術付諸實踐之前,我們斷不可輕忽的。
編譯來源
E. Anthes, “Alexa, do I have COVID-19?“, Nature, vol. 586, no. 7827, pp. 22-25, 2020.
參考資料
- “Vocal Biomarkers: New Opportunities in Prevention – The Medical Futurist“, The Medical Futurist, 2017.
- H. Mack, “Mayo Clinic study shows voice-analyzing app may be useful in heart disease diagnosis“, MobiHealthNews, 2016.
- S. Lawrence, “AI startups merge to form Vocalis, get $9M to advance vocal biomarkers for disease screening“, Bioworld.com, 2019.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)