用AI進行憂鬱症的「快篩」
在現今社會中,具有憂鬱症或憂鬱傾向的患者數量持續攀升,然而傳統上評斷憂鬱症的方式具有其問題與限制,且須花費臨床醫師大量的時間處理檔案與訪談。為了解決這個問題,Weisenburger等人開發出了新的方法,應用科技來幫助我們解決這個問題。他們訓練了AI聊天模型,讓受試者僅需與機器人完成問答,就可以完成初步的憂鬱症評估,且其預測結果有高達90%的準確度。然而,由於目前此項研究結果仍有其限制,期望日後有更多關於這方面的研究,讓科技能幫助我們解決更多心理健康檢測的困難。
撰文|王冠云
憂鬱症是一種普遍的疾病,根據統計,超過五分之一的美國人口至少經歷過一次的憂鬱症。且憂鬱症是一種會反覆發作的疾病,曾經有過憂鬱症病史的人,有很高的比例會再度經歷憂鬱症的發作。憂鬱症會對個人及社會帶來沉重的負擔,但卻常常未能被適當的篩檢而被診斷出來,遑論能得到妥善的治療機會。因此,科學家們也正在嘗試是否能有更有效的方法,讓科技來進行憂鬱症的初步篩檢。
使用AI科技來進行憂鬱症篩檢
Weisenburger等人 (2024) 發表的最新研究,即是針對憂鬱症篩檢的短缺這個問題提供解決方案。他們發現,目前在美國有超過1.6億人難以接觸到心理健康相關的醫療資源,且具有心理健康相關知識的醫療人員也十分短缺。在他們的研究中,使用了一個手機應用程式 (APP)「Aiberry」,由一家專門進行心理健康評估的技術研發公司所製作,並利用這支APP來進行傳統憂鬱症評估方法,以及AI評估方法的比較。
傳統上,進行憂鬱症篩檢使用的是憂鬱症篩檢量表,例如病人健康問卷 (PHQ-9) 以及憂鬱症快速評估量表 (QIDS SR-16),透過自主填寫問卷的方式,並計算問卷得分來確認一個人是否具有憂鬱症的傾向。不過,這樣的方式有三大問題:第一、要能寫問卷也需要一定的識讀能力,以美國為例,量表中使用的詞彙超出了美國人平均的閱讀能力,因此,可能會讓結果產生誤差;第二、自陳報告量表的結果常常具有過度高估憂鬱症的情形,填答者可能會過度地把分數評得太高;第三、自陳報告的表格很難取代臨床醫師的訪談,所以在進行臨床諮詢的時候,仍然需要花大量的時間帶著個案填寫表格、處理文書作業,之後才進行訪談,這使得人員的工作負擔很重。
因此,為了減輕負擔並且解決自陳報告所帶來的可能問題,Weisenburger等人 (2024) 想藉由科技介入來改善這些問題。他們與「Aiberry」這間公司合作,他們所使用的模型在過去也曾經用於學術研究中,所以也使用了他們所開發的AI模型來進行測試。在這間公司所推出的一個與這間公司同名的手機APP「Aiberry」中,可以透過錄影、錄音的方式和聊天機器人對話,隨後再利用這些對話內容進行憂鬱症的篩檢。
結合臨床意見與自陳報告進行模型驗證
為了驗證篩檢憂鬱症的AI模型,Weisenburger等人 (2024) 的實驗要求實驗參與者必須填寫「憂鬱症快速評估量表 (QIDS-SR16)」或者病人健康問卷 (PHQ-9)。而參與者們和APP的聊天機器人對話時,則是採用開放式的問答題來進行對談,目前僅有支援英文版,參與者每個題目最多有1分鐘的時間可以回答,大約3至5分鐘左右就會完成初步的憂鬱症評估。
研究中使用的AI模型,是過去研究利用臨床上的視訊聊天的樣本進行訓練,總共包含1324次的訪談,全數都是與憂鬱量表有關的開放式問答。在使用語音處理和自然語言處理演算法之後,訓練AI模型預測自陳報告的憂鬱嚴重程度,並且進行分類,共有五種等級:無、極輕微、輕度、中度、重度。
而使用APP所收集到的實驗參與者的有效樣本共有393人,此外,除了有參與者填寫的憂鬱症量表分數之外,Weisenburger等人 (2024) 也邀請到了兩位博士級的臨床實務專家來針對每個個案進行評分。
最後,就統計結果而言,AI所判斷出來的結果和憂鬱自陳報告量表的結果具有高度相關性,而兩位專家所評斷出來的結果與機器學習模型也具有統計上的一致性。就數據而言,約90%的AI模型預測和憂鬱症量表或專家的意見呈現一致。
AI憂鬱症篩檢與使用者體驗
特別的是,Weisenburger等人 (2024) 在實驗中也進行了使用者體驗調查,結果發現比起填寫自陳量表來檢視自己的憂鬱症傾向,喜歡使用聊天機器人來進行訪談的使用者占了比較多數。而且具有輕度或中度憂鬱症的實驗參與者,對於聊天機器人的偏好更加的顯著。
考量到目前臨床人員短缺的問題,若是能以聊天機器人先進行憂鬱症的篩檢,既可以減少人力來引導求診者填寫表格,對於使用者來說,使用AI的接受度也很高,甚至他們對於這種形式的憂鬱症篩檢更具有一定的偏好。
不過,Weisenburger等人 (2024) 也提醒,雖然使用者對於AI篩檢的使用給予好評,但目前的研究結果是否能推廣到更廣大的人類社群,仍然有疑慮。以目前的資料而言,有色人種的樣本數仍然不全,而且研究也要求必須要有流利的英語對談能力,但若是英語口音太重,即使很流利,也可能一定程度地影響到AI模型的判讀結果。未來若是累積越來越多的資料,甚至若有越來越多的研究關注這個議題,將可能越來越能改善憂鬱症篩檢的這個難題。而除了憂鬱症之外,這整套心理疾病的篩檢模式,也可以應用到失眠、暴飲暴食、酒精成癮等等其他類型的疾病的評估,對於心理健康篩檢這個領域而言,具有相當的貢獻。
參考文獻
- Weisenburger, R. L., Mullarkey, M. C., Labrada, J., Labrousse, D., Yang, M. Y., MacPherson, A. H., Hsu, K. J., Ugail, H., Shumake, J., & Beevers, C. G. (2024). Conversational assessment using artificial intelligence is as clinically useful as depression scales and preferred by users. Journal of Affective Disorders, 351, 489-498.
- 社團法人臺灣憂鬱症防治協會
- Aiberry