偏差的模型比想像中致命

2020 年 07 月 03 日2021 年 12 月 28 日 intern 大數據, 性別, 資料品質, 醫療影像

分享至

編譯／劉大維

性命攸關

人工智慧的應用層面五花八門，而其在醫療領域的發展可說最為蓬勃熱門。用來進行電腦輔助診斷與影像篩檢的AI系統，已經在全世界各地的醫學中心得到廣泛的採用。而由此衍生的一個首要議題就是：經訓練所得到的AI，其分類依據與結果是否公正或存在偏差，因為這會直接影響模型的成效，在醫療領域更是攸關患者健康、性命的事情。美國國家科學院院刊（PNAS）日前刊登了一篇論文，研究團隊使用性別比例懸殊的病患胸部X光片來訓練機器，結果發現得到的模型在診斷上的成效表現較差。

研究採用Inception-v3、ResNet和DenseNet-121三種神經網路架構，訓練資料則來自於史丹佛大學和國家衛生研究院（NIH）的胸腔X光片資料庫。兩個開放平台所收錄的原始資料雖然性別比均衡，但經研究團隊人為調整後，建立了五組不同的訓練資料集（男女組成比例分別為0、25%、50%、75%、100%）。網路各自經由不同的資料集訓練過後，再以男女混雜的X光片資料進行測試，結果發現性別比例越扭曲的資料集所訓練出來的模型，其診斷準確度越糟。有趣的是，模型並不會因為訓練資料中特定性別比例較高，而針對該性別有較高的準確度。也就是說，不論男女，訓練資料集中被放大（over-represented）的性別並不會因此受惠。

偏差的成因

造成這樣的結果原因還不明確，有可能是生理差異，也可能是各種社會和文化因素造成。舉例來說，女性相較於男性，在疾病發展的各個階段，都更有意願接受X光攝影。也就是說，資料的收集本身可能就存在偏差，研究人員得從源頭把關。

因為訓練資料偏差所造成模型的偏差，可能導致不合宜的分類結果，甚至完全與事實不符。如此一來，AI不僅無法輔助人類，更成了扯後腿的腳色，尤其在醫療領域中，這更會將患者的性命置於危險之中。

然而，有時醫療或研究人員是「不得不使用」帶有偏差的資料，例如乳癌病患的資料通常以女性為大宗。同樣地，自閉症的發生率有性別差異，男孩確診的比例硬是比女孩高出許多。

種瓜得瓜

在現實世界中，人類需要借助AI之處除了相對單純的醫療影像判讀，經濟發展、危機管理、天氣預測等，皆須仰賴各種訊息載體產生即時且連續的資訊流，其中當然也可能存在偏差不均的情形，我們又該如何處理與使用這些資料來訓練出理想的AI模型呢？

一個典型的機器學習系統通常是由資料預處理單元、模型建置器、評估單元及輸出單元所組成。處理資料不平衡的方法可以從三個層面著手：資料層面、演算法層面以及前兩者的混合，也就是從收集的資料著手（取樣手段、資料合成、資料加權及分類方法等等）、修改／更換演算法或是雙管齊下。因此可以看出，要得到理想模型，關鍵還是在前端訓練資料的處理（當然，視情況對分類器輸出結果進行調整與補償也是方法之一）。

如果把AI比喻為一艘船，水就是大數據。水能載舟，亦能覆舟。如何讓AI這艘船在數據大海中航向我們設定的目標，是當前每位AI研究者的要務。

編譯來源

D. Nelson, “AI Models Trained On Sex Biased Data Perform Worse At Diagnosing Disease“, Unite.AI, 2020.

參考資料

A. Larrazabal, N. Nieto, V. Peterson, D. Milone and E. Ferrante, “Gender imbalance in medical imaging datasets produces biased classifiers for computer-aided diagnosis“, Proceedings of the National Academy of Sciences, vol. 117, no. 23, pp. 12592-12594, 2020.
B. Krawczyk, “Learning from imbalanced data: open challenges and future directions“, Progress in Artificial Intelligence, vol. 5, no. 4, pp. 221-232, 2016.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 114 times, 1 visits today)

分享至

views