當論文發表淪為新品發布 AI深陷再現性危機

當論文發表淪為新品發布 AI深陷再現性危機

編譯/賴佳昀

推銷自己還是拓展新知?

2020年10月,31位科學家聯名在Nature撰文,嚴厲批評Google Health稍早發表的一篇論文。該篇論文是有關於一個能在醫療影像中發現乳癌早期病變的AI模型,然而除了對於模型效能顯擺一番之外,對於所使用的程式碼,以及他們如何測試該程式碼的細節付之闕如,儼然是一則廠商推出新產品的廣告,而非一篇正經的學術論文。

然而嚴格說起來,Google Health其實只是隻替罪羊。因為這樣的手法在AI領域早已見怪不怪。據統計,只有約15%的AI研究,在發表時會附上原始程式碼,OpenAI和DeepMind等有大型企業扶持的研究團隊更是最受詬病的一群。

科學發展奠基於研究人員之間的信任,這也意味著每個研究者都有這樣的義務揭露必要的實驗細節,讓他人也能依樣畫葫蘆,確保我們所看到的不是經過美化後的結果,如此科學才能不斷自我修正並淘汰有疑慮的理論。儘管在實務上,很少有人願意花時間去重現已經發表的實驗,一一核對所得到的結果。

不僅是學術倫理

過去被視為純理論科學的AI,在近幾年有向實驗科學轉向的趨勢,但在方法學上顯然還未跟上腳步。而對於AI「透明度」(transparency)的需求,不僅單單出於學術倫理上的潔癖,還有更迫切的考量。

長期以來,AI一直被比喻為「黑盒子」(black box),意味著其實連開發者自己都不一定清楚一個模型為什麼有用?也無法保證當模型離開實驗室環境後,是否還能維持同樣的表現,或導致難以挽回的後果?

透明度在此顯得格外重要,核心細節的開誠布公才得以讓更多人從多方面測試模型的可靠性、是否有潛在的偏誤,以及安全上的疑慮,打造更安全的醫療AI、更公平的法務與警用A、避免突然爆出仇恨言論的聊天機器人。

到底缺了什麼?

只是重現一個AI模型,單單只有程式碼是遠遠不夠的,數據以及硬體反而是更重要的兩大要素。數據通常為「專有財」,譬如說Facebook所收集到的使用者訊息、敏感信息等,這些數據都是不能自由分享的。除此之外,訓練模型時對許多參數的小微調,也關係著模型成功與否。

硬體設備更是另一個棘手的問題。舉例來說,OpenAI估計耗費了1,000到1,200萬美元只為了訓練其語言生成器GPT-3,這還不包括前置開發,以及前幾代模型的訓練成本。巨量資料,以及處理它們所需的大量運算能力,絕非一般學術單位或是小型科技公司可以望其項背的。換句話說:即使公布了程式碼,也不是任何人都有能力複製出同樣的模型。

這個現象並非唯獨出現在AI領域。物理學當中的某些實驗,例如基本粒子的研究,便需要用到「大型強子對撞機」(Large Hadron Collider,LHC)這類,只有傾國家之力才能負擔的實驗裝置,但管理LHC的歐洲核子研究組織(Conseil européen pour la recherche nucléaire,CERN)並不吝於與歐盟內各大學術或研究機構共享這項儀器。相形之下,擁有雄厚AI研究能力的大型科技公司反而更像是大型藥廠,每年投注大量研究資金,只求藥品最後能成功上市帶來巨大獲利。

商業與學術的兩難

如果大型科技公司只在意收益,那為何還要發表學術論文,吃力而不討好?很大的原因在於實際參與研究的,其實還是從學術圈出來的人,實在改不掉作為學者就應該發表論文的老習慣;大型科技公司也積極參與各項(包括學界)的研究,就像你很難找到任何實際從事AI研究的人,沒有用過Facebook的PyTorch或Google的TensorFlow等開源模型開發套件。

學界內部也存在著結構性的問題:只在乎誰做了哪些新研究,卻沒有人在意誰實際重複實驗、驗證了研究的結果。以目前來說,讓碩、博士生來從事實驗複製,並在重要的研討會或期刊中加入「重製挑戰」(reproducibility challenge)的獎項或項目,會是個不錯的方法。就像Nature,將可實際複製的研究與單純展示新產品的文章分為兩類發表;其他如免費的預印本(preprint)期刊分享平台arXiv,更要求所有與機器學習相關的文章都應該一併附上程式碼。

攜手合作的科學

值得注意的是,我們不應該抹煞科技巨頭們在其中的努力。無法避免的,AI的前沿研究還是需要由掌握充沛資源的他們來主導。就像DeepMind一再強調:大型科技公司耗費在AlphaGo或GPT-3上的大量資本,都會以另一種方式回饋於社會。涓滴效應(trickle-down effect)使得其他小公司,乃至於個人,都會因為更有效率、僅需更少運算資源的模型而受益。

好消息是面對這類批評,他們之中有不少公司已經著手改變既有作法,確保其他人也有機會一起討論、參與。例如DeepMind承諾將在研究方法上盡量透明,並可交由其他人審查;OpenAI則與多達80個業界與學術組織合作,共同擬訂研究結果的發表規範。即使因為隱私或其他考量而無法分享所有實驗數據,但只要能還原出模型大致上的模樣(縱使因為數據量少而效果不理想),也能大大改善AI「再現性」與「透明度」的問題。

 

編譯來源

參考資料

  1. B. Haibe-Kains et al., “Transparency and reproducibility in artificial intelligence“, Nature, vol. 586, no. 7829, pp. E14-E16, 2020.
  2. S. McKinney et al., “International evaluation of an AI system for breast cancer screening“, Nature, vol. 577, no. 7788, pp. 89-94, 2020.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

views