厭倦煩悶的文獻回顧嗎?交給AI吧!
編譯/自由撰稿人 葉姝涵
科研文獻檢索
在網際網路風行之前,研究人員搜尋論文的方法只能從同事、訂閱的期刊或付費資料庫中獲得,再由參考文獻中探索研究主題與範圍。如果研究人員找到一篇認為重要的文獻,必須付費取得或向作者索取,不僅費用可觀,更是曠日廢時。2008 年 11 月 18 日,Google推出Scholar搜尋功能,研究人員以關鍵字即可取得相關文獻的摘要,甚至全文。即使十年後的今天,約六成的科學家仍表示有使用 Google Scholar的習慣。
只是,傳統文獻搜尋引擎,如Google Scholar或以生醫為主的PubMed,其搜尋結果依然龐大,除在短時間難以消化外,也忽略了許多在科學研究中很重要的因素,例如在這個領域中重要的科學家、研究數據、文獻所提供的假設和結論等。如果搜尋結果能包含這些結果,勢必可以大幅減少研究人員的負擔,提高文獻調查的效率。2013 年開始,支援文獻搜尋與整合的AI如雨後春筍般湧現,協助研究人員初步分析和篩選文獻。以下便依照出現時間的先後,簡單介紹。
元老級Semantic Scholar
Semantic Scholar ,2015 年 11月2日由位於美國華盛頓州西雅圖的艾倫人工智慧學院 (Allen Institute for Artificial Intelligence)發佈,與微軟於2016年所開發的Microsoft Academic,可說是AI在科研文獻應用的濫觴。雖然在外觀與使用介面上仿效Google Scholar,但除了能提供更多資訊,如人氣、數據集、研究方法外,亦會顯示文獻中,或因作者所提及的理論或說法早已廣為學界接受,而未明示出處的引用來源。
系統在利用自然語言處理 (Nature Language Process,NLP)技術由文獻中擷取相關訊息的同時,也會建立不同文獻間不甚明顯的關聯,例如在「電腦科學」領域中與另一領域「演算生物學」相關的研究方法與成果,甚至指出特定領域中待解決的問題與重要假說。目前,其所分析的文獻雖著重於計算機科學與神經科學領域,但預計2017年跨足生物醫學。
著重實驗數據的Source Data
來自德國海德堡歐洲分子生物學組織(European Molecular Biology Organization,EMBO)的SourceData,則著重文獻圖表背後的實驗方法與數據,以便同儕搜尋與仔細審視。例如當有人搜尋「胰島素是否會影響葡萄糖?」時,系統會回傳與「胰島素對葡萄糖之影響」相關的量化研究。
只是Source Data依然處於早期開發階段,文獻圖表與圖說中所提及如分子、基因或蛋白質等相關生醫名詞,是在文獻編輯階段透過人力標記與分類,目前也只含括1,000篇文獻、兩萬筆實驗的資料。研究團隊希望在未來這些工作也能由機器透過機器學習完成,並將觸角延伸至神經科學。
圖像化的Iris.ai
一般文獻搜索AI是透過出現在同一句子中的關鍵字產生「知識圖譜」(knowledge graph),以拉起不同文獻間的連結。例如當某一藥物與特定蛋白被寫在同一語句中時,AI便會判定兩者有關連。總部位於德國柏林的Iris.ai, 則採用了不同的方法:與CORE資料庫(一收錄1億3400萬筆開放取用論文的可搜尋式資料庫)連結,藉由文獻中的用字與頻率將其依主題分類。
使用者可以輸入 300-500 字的簡短敘述,或特定文章的URL來檢索相關文獻。搜尋結果會以圖像化的方式呈現。Project Aiur 則是 Iris.ai 團隊新開發的模組,可以多方面檢視一篇論文,並與其他文獻比較,以驗證其中假設。
注重各項指標的Dimensions
科學研究人員的另一種選擇,則是對多種指標多加著墨的Dimensions.ai 。於2018 年發佈,提供以下七種指標以量化文獻的重要性。
- Relative Citation Ratio (RCR):跟這個領域的其他文章相比,文章的相關性引用率。可以知道這篇文章對該領域的影響:大於 0,表示文章的引用率高於平均值。發表不到兩年或是沒有引用的文章沒有 RCR。
- Field Citation Ratio (FCR):跟同領域中發表時間相近的文章比較,大於 0 表示這組文章的引用率高於平均值。發表不到兩年或是沒有引用的文章沒有 FCR。
- Highly Cited Indicator (HCI):在同領域中發表時間相近的文章相比,以 FCR 為比較值,在前 10%、5%及1% 中被引用的文章。
- Citation Count:這篇文章在資料庫中的其他論文中被引用的次數。這要注意文章的發表時間,因為在最新發表的文章中就算是在他的領域有突破性的進展,引用數也可能不高。
- Recent Citations:對於發表超過兩年的文章,計算這篇文章在過去兩年內的引用數。
- Average Citation Rate (ACR):計算在 2 年、3年及5年內,針對不同期刊和領域計算引用率。
- Altmetric Attention Score:是一個加權計分,顯示這篇文章在媒體、文件、學術 Blog、維基百科及各種公開媒體上受到的關注量。
這些新式搜尋引擎,Semantic Scholar與Microsoft Academic 完全免費,Iris.ai 與 Dimentions.ai則須付費使用進階功能。其中雖仍有許多缺陷待排除,一時也不至於撼動 Google Scholar 的主導地位,但已能協助學者在研究初期迅速了解特定領域及研究進展,縮短耗費在文獻回顧的時間與精力。隨著相關技術的進展,有朝一日,或能協助研究人員從中識別出有用的假設與實驗設計,徹底顛覆現有科學研究的操作模式。
編譯來源
A. Extance, “How AI technology can tame the scientific literature”, Nature 561, 273-274, 2018.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)