資料探勘加劇科學研究的再現性危機
編譯/黃柏瑋
再現性危機
2011年,一組物理學家宣布一則驚人的發現─微中子的傳播速度竟超越光速六十奈秒。經過六個月的反覆驗證,仍然得到同樣的結果;然而,研究人員並未就此罷手慶祝這項物理界的革命發現,反而持續探究造成此一異常現象的癥結,直到發現有一條光纖被錯接了。
這個例子提醒我們「再現性」對於科學的重要性:一個穩固的研究需要經過反覆實驗以及多方的驗證,才能保證結果的真確性與可信度;否則,就像在脆弱地質上蓋房子,未來的努力都將付諸流水,除了資源的損失,更有可能犧牲大眾的安全與健康。
AI產業目前遇到的麻煩之一,正是「再現性危機」。自動車上路想變換車道,深度強化學習(Reinforcement Learning,RL)會在虛擬環境中摸索成千上萬的潛在途徑,直到安全完成任務;但這些嘗試就像被鎖在黑盒子中,外人難以探窺一二,實驗結果難以再現,自然也無從說服大眾自動車技術的可靠性。
Google研究員Ali Rahimi曾將AI比喻為煉金術(alchemy)─在一次次的試錯中不斷地「學習」。但對於演算法的建構與運作缺乏明確的解釋,又難以「再現性」支持原先的成果,如此,我們還能稱AI為一門科學嗎?
資料挖泥
事實上,AI「再現性危機」的發生,是有跡可循的。
在數據科學的領域中,其實沒有一個統一的擷取、淘選及處理資料的管理標準,這就像氣候研究中沒有位置座標和氣溫單位一樣,每份報告都可能有著自己獨特的紀錄原則與方式。當實驗流程繁複,卻欠缺統一的紀錄規範時,「再現性」便受到挑戰。
以臉部辨識系統為例,光是機器訓練、軟體的升級與演算法的修正,步驟都相當複雜,必須鉅細靡遺地被記錄,否則會影響未來修改和重製類似系統的可能。
此外,在科學研究中,我們往往會根據觀察提出假說,再藉由實驗數據來驗證假說是否成立;然而,不少AI研究人員為一己之私,暴力挖掘資料之間的關係,再挑選出表現較好的結果反推假說,硬將兩個毫不相干的現象兜在一起,本末倒置,違背科學實驗應有的初衷。
舉例來說,研究人員試圖利用資料探勘找出素食與癌症間的關聯,苦尋未果卻意外發現紅髮癌症患者不在少數,為了不讓一切努力付諸東流,便將研究主題修改為「髮色與癌症之間的關係」,以迎合這項不合理的因果推論。這樣的作弊手段被謔稱為「資料挖泥」(data dredging / fishing),非但是「再現性危機」的一大禍根,更會扭曲該領域的研究發展走向。
從煉金術到真科學
不得不說,AI確實有著翻轉社會的潛力,不僅改變普羅大眾的日常生活,也顛覆象牙塔內學術研究的型態。可是在我們能保證AI每項決策的品質前,不禁令人遲疑是否能夠委以重任。
於是,當今之務是如何讓AI躋身可靠穩健的真科學,克服再現性危機。就像其他領域的科學一樣,人工智慧,尤其資料探勘的研究也需要一套明確的管理原則,統一規範繁雜的實驗記錄,提升研究的可追溯性(traceability):所有訓練資料的背景和模型參數必須被詳盡地記錄;不同資料序列的合併、分析資料的工具也要通過標準評估。也唯有如此,方能改善研究結果的可信度。
編譯來源
M. Jones, ”How do we address the reproducibility crisis in artificial intelligence?“, Forbes, 26 Oct 2018
參考資料
- P. Ghosh, “AAAS: Machine learning ‘causing science crisis’“, BBC News, 16 Feb 2019
- TED-Ed. “Is there a reproducibility crisis in science? – Matt Anticole”, YouTube, 5 Dec 2016.
- R. Letzter, “Google AI expert: machine learning is no better than alchemy“, LiveScience, 7 May 2018
- S. Charrington, “The reproducibility crisis and why it’s bad for AI”, Medium, 23 Mar 2018
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)