當論文發表淪為新品發布 AI深陷再現性危機

2021 年 03 月 26 日2021 年 12 月 10 日 intern 再現性, 學術倫理, 資本, 隱私

分享至

編譯／賴佳昀

推銷自己還是拓展新知？

2020年10月，31位科學家聯名在Nature撰文，嚴厲批評Google Health稍早發表的一篇論文。該篇論文是有關於一個能在醫療影像中發現乳癌早期病變的AI模型，然而除了對於模型效能顯擺一番之外，對於所使用的程式碼，以及他們如何測試該程式碼的細節付之闕如，儼然是一則廠商推出新產品的廣告，而非一篇正經的學術論文。

然而嚴格說起來，Google Health其實只是隻替罪羊。因為這樣的手法在AI領域早已見怪不怪。據統計，只有約15%的AI研究，在發表時會附上原始程式碼，OpenAI和DeepMind等有大型企業扶持的研究團隊更是最受詬病的一群。

科學發展奠基於研究人員之間的信任，這也意味著每個研究者都有這樣的義務揭露必要的實驗細節，讓他人也能依樣畫葫蘆，確保我們所看到的不是經過美化後的結果，如此科學才能不斷自我修正並淘汰有疑慮的理論。儘管在實務上，很少有人願意花時間去重現已經發表的實驗，一一核對所得到的結果。

不僅是學術倫理

過去被視為純理論科學的AI，在近幾年有向實驗科學轉向的趨勢，但在方法學上顯然還未跟上腳步。而對於AI「透明度」（transparency）的需求，不僅單單出於學術倫理上的潔癖，還有更迫切的考量。

長期以來，AI一直被比喻為「黑盒子」（black box），意味著其實連開發者自己都不一定清楚一個模型為什麼有用？也無法保證當模型離開實驗室環境後，是否還能維持同樣的表現，或導致難以挽回的後果？

透明度在此顯得格外重要，核心細節的開誠布公才得以讓更多人從多方面測試模型的可靠性、是否有潛在的偏誤，以及安全上的疑慮，打造更安全的醫療AI、更公平的法務與警用A、避免突然爆出仇恨言論的聊天機器人。

到底缺了什麼？

只是重現一個AI模型，單單只有程式碼是遠遠不夠的，數據以及硬體反而是更重要的兩大要素。數據通常為「專有財」，譬如說Facebook所收集到的使用者訊息、敏感信息等，這些數據都是不能自由分享的。除此之外，訓練模型時對許多參數的小微調，也關係著模型成功與否。

硬體設備更是另一個棘手的問題。舉例來說，OpenAI估計耗費了1,000到1,200萬美元只為了訓練其語言生成器GPT-3，這還不包括前置開發，以及前幾代模型的訓練成本。巨量資料，以及處理它們所需的大量運算能力，絕非一般學術單位或是小型科技公司可以望其項背的。換句話說：即使公布了程式碼，也不是任何人都有能力複製出同樣的模型。

這個現象並非唯獨出現在AI領域。物理學當中的某些實驗，例如基本粒子的研究，便需要用到「大型強子對撞機」（Large Hadron Collider，LHC）這類，只有傾國家之力才能負擔的實驗裝置，但管理LHC的歐洲核子研究組織（Conseil européen pour la recherche nucléaire，CERN）並不吝於與歐盟內各大學術或研究機構共享這項儀器。相形之下，擁有雄厚AI研究能力的大型科技公司反而更像是大型藥廠，每年投注大量研究資金，只求藥品最後能成功上市帶來巨大獲利。

商業與學術的兩難

如果大型科技公司只在意收益，那為何還要發表學術論文，吃力而不討好？很大的原因在於實際參與研究的，其實還是從學術圈出來的人，實在改不掉作為學者就應該發表論文的老習慣；大型科技公司也積極參與各項（包括學界）的研究，就像你很難找到任何實際從事AI研究的人，沒有用過Facebook的PyTorch或Google的TensorFlow等開源模型開發套件。

學界內部也存在著結構性的問題：只在乎誰做了哪些新研究，卻沒有人在意誰實際重複實驗、驗證了研究的結果。以目前來說，讓碩、博士生來從事實驗複製，並在重要的研討會或期刊中加入「重製挑戰」（reproducibility challenge）的獎項或項目，會是個不錯的方法。就像Nature，將可實際複製的研究與單純展示新產品的文章分為兩類發表；其他如免費的預印本（preprint）期刊分享平台arXiv，更要求所有與機器學習相關的文章都應該一併附上程式碼。

攜手合作的科學

值得注意的是，我們不應該抹煞科技巨頭們在其中的努力。無法避免的，AI的前沿研究還是需要由掌握充沛資源的他們來主導。就像DeepMind一再強調：大型科技公司耗費在AlphaGo或GPT-3上的大量資本，都會以另一種方式回饋於社會。涓滴效應（trickle-down effect）使得其他小公司，乃至於個人，都會因為更有效率、僅需更少運算資源的模型而受益。

好消息是面對這類批評，他們之中有不少公司已經著手改變既有作法，確保其他人也有機會一起討論、參與。例如DeepMind承諾將在研究方法上盡量透明，並可交由其他人審查；OpenAI則與多達80個業界與學術組織合作，共同擬訂研究結果的發表規範。即使因為隱私或其他考量而無法分享所有實驗數據，但只要能還原出模型大致上的模樣（縱使因為數據量少而效果不理想），也能大大改善AI「再現性」與「透明度」的問題。

編譯來源

W. Heaven, “AI is wrestling with a replication crisis“, MIT Technology Review, 2020.

參考資料

B. Haibe-Kains et al., “Transparency and reproducibility in artificial intelligence“, Nature, vol. 586, no. 7829, pp. E14-E16, 2020.
S. McKinney et al., “International evaluation of an AI system for breast cancer screening“, Nature, vol. 577, no. 7788, pp. 89-94, 2020.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 60 times, 1 visits today)

分享至

views