使用大語言模型進行文本探勘:心理社會障礙復健相關研究為例
在醫療保健領域的研究當中,心理社會復健 (psychosocial rehabilitation) 以及心理社會障礙 (psychosocial disability) 的研究持續受到重視,圍繞著這個主題,已有不少研究論文產出。不同的研究針對了這個議題,提供了在診斷、預防措施、治療策略等等方面提供了不少觀點。如今大語言模型 (large language model, LLMs) 已經發展得越來越成熟,能否透過LLMs來進行文本探勘,分析前人大量的研究成果呢?
撰文|王冠云

心理社會障礙的個案與研究數量的增加
全球疾病負擔研究 (Global Burden of Diseases, Injuries, and Risk Factors Study, GBD) 在2022年的報告指出,在1990年至2019年間,調查了12種心理與精神障礙,不論是焦慮症、憂鬱症、注意力不足、智能發展遲緩等等,各個症狀在這三十年間,皆有一定程度的增多。然而,令人擔憂的是,以全球尺度而言,心理與精神障礙所帶來的疾病負擔與成本,仍然位居於所有疾病負擔的前十名內,而儘管有眾多研究表明了可以施行一定的干預措施來減輕症狀,但是從逐年增加的患者以及個案數來看,在巨觀的尺度上,卻有隨著時代與科技進步帶來的減輕。因此,仍然有需要透過更具有統整性及宏觀的視野來看心理與精神障礙所造成的負擔成本。
Amirian等人 (2024) 的研究,即是使用人工智慧的工具,希望能進一步的建立資料集,以便整理目前在心理社會障礙與復健有關的科學研究。研究者也統計,在心理社會復健、藥物開發、治療方法等這些領域的期刊與會議論文數量,在2010年以後至今,出版總量已達到超過了100萬篇,數字是相當可觀的。而且每年皆有若干增長。
但是,面對如此龐大的文獻以及研究成果,這同時是優點也是缺點,儘管我們知道已經有大量的研究提出了各種觀點和解決問題的方法,但是要能分析,卻是一項重大的挑戰。而能處理大量資料的工具,正是使用人工智慧所能解決的。
使用LLM的文本探勘法
文本探勘 (text mining) 技術以及自然語言處理在Amirian等人 (2024) 的研究中,是主要的核心技術,在進行大量資料的分析之前,必須經過「資料收集」以及「資料前處理」這兩個步驟。研究者透過「PubMed」這個蒐集了許多醫療相關研究論文的資料庫進行文獻檢索,並且以「醫學主題詞 (MeSH)」進行分類。接著,將這些文本進行適當的切分、標準化,確保文本的資料「乾淨程度」,並且刪除格是錯誤的部分。
準備好乾淨的資料之後,進入到文本探勘以及LLM的使用,Amirian等人 (2024) 先進行詞嵌入 (word embedding) 技術,以Word2Vec計算詞向量 (word vector),並且用GloVe計算詞向量的出線機。而在使用LLM之前,過往研究論文的文本摘要,會先轉換成這些embedding的數值。然後儲存在「向量資料庫當中」。在Amirian等人 (2024) 的研究中,使用的是OpenAI的ChatGPT來做為他們研究互動用的LLM。而他們創建詞嵌入的方法,也是使用OpenAI所提供的API所建構。那麼這些過往的文獻資料,就相當於ChatGPT可拿來當作參考用途的資料庫。
用問答的方法尋找答案
由於要使用LLM來幫助回答研究論文中的問題,所以,當資料庫建立完畢後,Amirian等人 (2024) 也建立了一個簡單的葉面,來幫助測試。最後,研究者分析了字詞相似性,並且使用文字雲來探討重點的關鍵字以及治療方法。他們發現了一些經常被使用的藥物如「clonazepam」、「lorazepam」、「oxazepam」等,而「認知行為療法 (cognitive bahavioral treatment)」是一個常用的臨床治療方法。此外,也發現到研究者及專家們,對於患者與個案的經驗、介入措施以及症狀的表現都相當重視,而且在眾多心理社會障礙當中,人們最為關心憂鬱症以及焦慮症的問題。
Amirian等人 (2024) 指出,就結果而言,這個研究簡單且統整性的提出了一個「檢索增強生成」(Retrieval-Augmented Generation, RAG) 的方法。然而,受限於研究設備的限制,沒有辦法執行更大量的文本向量。此外,雖然使用大語言模型能夠有效的快速掌握最大宗及主流的治療方法,可是,主流的方法是不是最好的方法,並沒有辦法透過人工智慧的統整來解答。因此,研究者也提醒,雖然使用AI提供了一個更快速有效的分析工具,而且能夠對整個領域的大趨勢進行快速的掌握和分析。但是有關取得資料和分析結果後,該如何解讀以及讓醫療相關人員的從業者等利害關係人可以有效地下決策,仍然需要相關的領域專家進行討論和辯證。
參考文獻
- Amirian, S., Kekre, A., Loganathan, B. J., Chavan, V., Kandula, P., Littlefield, N., … Ebuenyi, I. D. (2024). Advancing psychosocial disability and psychosocial rehabilitation research through large language models and computational text mining. Cambridge Prisms: Global Mental Health, 11, e123.
- GBD 2019 Mental Disorders Collaborators.(2022). Global, regional, and national burden of 12 mental disorders in 204 countries and territories, 1990-2019: a systematic analysis for the Global Burden of Disease Study 2019. The Lancet Psychiatry, 9(2), 137-150. doi:10.1016/S2215-0366(21)00395-3