一個模型為什麼會失敗 原因「不好說」
編譯/許守傑
資料位移以外的問題
在AI領域中,對於實驗室裡精密調校後的機器學習模型在實際應用時慘遭滑鐵盧早已司空見慣。科學家通常會將這種現象歸咎於「資料位移」(Data shift),也就是當初訓練或測試AI模型的資料和實際應用時所使用的資料之間差異太大所致。比如說以優質醫學影像訓練出的模型,一旦碰到日常一般廉價相機所拍攝的模糊影像時,正確辨識率便會大幅降低。
然而,事實真的是如我們所想的這樣嗎?來自Google的Alex D’Amour,與他所領導的七個不同團隊,發現了另一個導致機器學習模型失敗「不好說」(Underspecification)的原因,而且這個問題並不罕見。
同樣的標準,不一樣的結果
想要了解為什麼「不好說」,便不得不從模型的訓練開始說起。
以往我們建立模型的基本套路就是:餵給模型大量的訓練資料,然後使用模型沒見過的資料進行測試。在訓練的過程中,因為給定的初始值不同、訓練資料的選擇、表現方式或是次數不同,所得到的模型之間其實會有細微的差異。過往我們一直認為這些差異(通常是隨機的)只要不影響模型在測試中的表現,便無關緊要;但事實證明我們錯了:正是這些細微的差異導致了某些通過測試的模型可以與現實無縫接軌,有些卻根本無法用在現實生活中。
為了突顯這類問題的嚴重性,D’Amour先是以ImageNet同時訓練出準確率在伯仲之間的50個圖像辨識模型。接著,D’Amour透過兩個特別的資料庫,對這50個模型做壓力測試。這兩個資料庫分別是ImageNet-C與ObjectNet。前者透過改變圖片的像素、亮度或對比,扭曲了原訓練資料庫ImageNet中的部分圖像;後者,則是將日常生活中常見的物件以怪異的姿態擺放(倒伏的椅子、吊在衣架掛勾上的T恤)。結果顯示:縱使有些模型的整體表現比其他都好,但多數都有各自的樣本偏好,很難有兩全其美的通用模型。例如某些模型善於辨識解析度較差的圖像,但面對高對比圖像,表現通常不理想,即使這些模型都符合標準、都是「一樣好的」。這類的問題無所不在,甚至在視網膜病變、皮膚癌前病變識別等與人命相關的應用中。
找尋解決方案
D’Amour表示,這代表著「我們目前對於機器學習模型的期待已經遠遠超出了當前的方法所能保證的範圍」。相較於過去一次只產生一個模型,我們必須改變訓練和測試AI模型的流程,例如一次產生多個模型,然後再次測試這些模型以找出效能最好、最適合該任務的候選者。這對於大型科技公司,例如Google而言,不過是舉手之勞,但對於財力與資源不是這麼雄厚的公司而言,並不容易。
現階段我們亟需一套新的模型訓練與測試標準,因為當AI在現實世界中的表現不如預期時,人們需要一個解釋,否則便會失去他們的信任而導致不願意使用。然而D’Amour坦言:他們還沒找到有效的解決方案,即使有些成果,但都是當模型失敗後才後知後覺的檢討報告。
編譯來源
W. Heaven, “The way we train AI is fundamentally flawed”, MIT Technology Review, 2020.
參考資料
A. D’Amour et al., “Underspecification Presents Challenges for Credibility in Modern Machine Learning”, Arxiv.org, 2020.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)