預測準確就好了嗎?談人工智慧的不公平
許多報導中提到AI的「不公平」,其實都是來自「原始資料中就已經存在的」群體差異。對於這個問題,有些討論強調「原始資料可能不準確,導致預測失準」,但在這個問題之外,我們也可以討論,預測準確真的是AI發展當前的唯一目標嗎?為此,文章中也介紹了「統計歧視」這個概念,幫助大家進一步思考這個問題。
撰文|謝達文
設想你有一個兒子、一個女兒,兩人年紀相仿;有一天,他們看到網路上有一個AI工具,只需要上傳自己的照片,就可以製造出數十張好看的圖繪,兩人非常興奮,各自上傳了一組自拍。
你的兒子興高采烈地將成品給你看,在這數十張圖中,有些將他畫成超級英雄,也有的將他畫成太空人、運動員、科學家,你也看得很開心,並且說了幾句跟追逐夢想有關的話。
接著,你看向你女兒的螢幕:在超過一半的圖中,妳女兒被畫成了性感尤物,衣著妖豔,並且以嬌媚的眼神看向觀眾──儘管你女兒上傳的,是一組很家常的自拍照。
這時候,你要跟妳女兒說什麼?
這不是危言聳聽的故事,而是改編自應用程式Lensa AI的真實案例。英國《衛報》(The Guardian)記者上傳了三位女性主義者不同生涯階段的照片,結果得到的結果多數年輕,而且充斥著裸身躺在床上等圖片(Demopoulos, 2022)。另一位女性作家也上傳了自己的照片,包含自己的童年照,同樣得到了各種裸露、誘惑的圖片(Snow, 2022)。
為什麼會這樣?這很可能並非出自設計者的任何惡意,而是因為AI是從既有的資料中「學習」可以產出怎樣的圖片。事實上,當《衛報》的記者詢問Lensa AI的公司時,公司就強調,他們的模型「是用未經篩選的網路內容進行訓練,因此將反映人們製作圖像時的各種偏誤」──網路上有太多把女性當成性感尤物的照片(相對地,男性更可能出現在專業形象的照片中),而機器所「學習」到的,就是要把帶有女性特徵的照片做得更像「網路上那些女性」。
如果問題只會出現在圖繪上,或許還沒那麼嚴重。
但2019年的調查批露,荷蘭國稅局所使用的AI,六年來累積認定26,000名父母親逃漏稅,政府因此向他們追討高額的稅款,造成他們在財務跟心理上的龐大壓力,最後政府才發現許多案例都是誤判──而這些家長中,低收入戶、移民和少數族裔佔據不成比例的多數(Heikkilä, 2022)。
除了稅務之外,求職、貸款、警政等領域,也可能有類似的問題,社會上已經比較弱勢的群體,在AI的「判斷」中,也容易被認為能力比較低、風險比較高,或者比較危險。
這背後的原因,跟上面繪圖的例子原理相通:因為資料庫裡的「那些人」,紀錄上比較可能「那樣」(不論是「呈現性感的樣子」,「容易逃漏稅」,還是「還款能力比較差」),所以AI在「學習」之後,也給出了「那樣」的答案,即使這個答案可能不公平。
而這背後的「不公平」,又可以分成兩個層次討論:
首先,有些偏誤是來自「原始資料不準」。
以警政為例,歐盟2022年的報告(European Union Agency for Fundamental Rights, 2022)就特別強調,資料庫裡某些種族「看似比較常犯罪」,未必是因為這些種族的人「真的比較常犯罪」,而可能是因為警察之前比較常巡邏這些種族聚集的社區;此外,不同犯罪的通報率不同,也可能間接影響各種族帳面上的犯罪率有關(比如:不同種族經常使用的毒品不同,而使用不同種毒品被抓的機率又不一樣)。因此,資料庫的資料,實際上不能反映「真正的」情形,可能高估了少數種族的犯罪率。
而研究更顯示,這個問題還會層層疊加,警方過去抓比較多人的社區(也是某種族比較集中的社區),AI就會判斷更需要去巡邏,而當警方派越多人去巡邏那個社區,就真的會讓這個社區的犯罪率「看來」更高,AI之後因此又更會建議警方多去,造成循環(McInerney, 2022)。
但是,第二個層次是,即使資料完全準確,問題就解決了嗎?
在求職的領域,經濟學家和社會學家會關注一種歧視,叫做「統計歧視(statistical discrimination)」,舉例而言,雇主看到一個女性求職者,心裡想:「我不知道這個人本身工作能力怎樣,但過去的經驗是,女性比較可能做個幾年就跑去生小孩,所以我不太敢僱用女性。」
這個例子中的女性與生小孩,可以替換成其他的弱勢群體和常見「問題」,總之重點是:雇主可能會看到一個「真實的大趨勢」,就因此歧視「整個群體」。
其實,這個問題在60年代就已經被提出,當時研究者設想的決策者是「憑著過去經驗猜測的雇主」,但到達AI越來越興盛的年代,這個問題可能也會體現「憑著過去經驗做預測的AI」。
讓我們回到犯罪的例子:即使某個種族的人犯罪率真的比較高,我們真的就該多派警察過去巡邏嗎?這樣公平嗎?這會不會讓這個社區的少年一天到晚被攔查,因此反而更討厭、更不信任警察,因此犯罪率更高?
或者,回到文初繪圖的例子,即使網路上女性呈現性感姿態的圖片真的比較多,我們該繼續把女孩的照片都做成性感的樣子嗎?
再舉一個台灣讀者可能很有感的例子,如果臉書的資料確實顯示,貼文講到「美國人」、「英國人」時,出現歧視或過激言論的機率較低,但講到「台灣人」、「中國人」或「香港人」時機率較高;因此,臉書更改設定,只要文章提到「台灣」等詞彙,尤其如果又搭配一些其他語詞(比如:不爽、殺人),就更可能被臉書審查貼文(俗稱的「被祖」),這樣合理嗎?
面對求職、警政、借貸等生活中重要的問題,AI以及建立在其上的決策系統,如果一味追求預測準確,會不會只是打造了高科技版的統計歧視呢?會不會,除了「精準預測」之外,我們也該預先設想歧視或不公平可能發生的所在,讓「應對這些問題」能夠內建於AI(或建立在其上的決策系統)之中呢?這或許是下一階段AI發展必須思考的問題。
參考資料(依文中出現順序):
- Demopoulos, Alaina. 2022. “The Inherent Misogyny of AI Portraits – Amelia Earhart Rendered Naked on a Bed.” The Guardian. Retrieved from:
https://www.theguardian.com/us-news/2022/dec/09/lensa-ai-portraits-misogyny - Snow, Oliver. 2022. “’Magic Avatar’ App Lensa Generated Nudes From My Childhood Photos.” Wired. Retrieved from:
https://www.wired.com/story/lensa-artificial-intelligence-csem/ - Heikkilä, Melissa. 2022. “Dutch Scandal Serves as a Warning for Europe over Risks of Using Algorithms.” Politico. Retrieved from:
https://www.politico.eu/article/dutch-scandal-serves-as-a-warning-for-europe-over-risks-of-using-algorithms/ - European Union Agency for Fundamental Rights. 2022. “Bias in Algorithms - Artificial Intelligence and Discrimination.” Retrieved from:
https://fra.europa.eu/sites/default/files/fra_uploads/fra-2022-bias-in-algorithms_en.pdf - McInerney, Scott. 2022. “Perfectly Imperfect Machines: How Artificial Intelligence Algorithms Produce Biased Decisions.” The Badger Herald. Retrieved from:
https://badgerherald.com/news/2022/09/23/perfectly-imperfect-machines-how-artificial-intelligence-algorithms-produce-biased-decisions/