相較於愛情與佛法,AI更具可解釋性
還記得在準備大學入學面試時,老師總會警告:「記得千萬不要搞怪!」不要搞怪的意思很簡單,將五顏六色的頭髮染回黑色,或將時下流行的潮T改回西裝,總之去回想想阿嬤的乖孫該長怎樣,面試那天打扮成那樣就對了!如果今天面試官從人類換成無法被窺見喜怒哀樂的AI,那又該如何成功達陣呢?
講者|國立臺灣大學心理學系助理教授 黃從仁
彙整撰文|羅崇綱
●想要解釋AI,先從容貌開始
比起觀察情人間的愛恨糾葛,或者宗教裡時而令人摸不著頭緒的教義,似乎AI的決策更可能讓人了解其中道理。演講中,黃從仁教授希望回歸心理學中最基本的觀察法和實驗法,思考到底AI的決策標準在哪裡?萬事起頭難,要回答這個問題,黃教授希望先從「容貌」開始。
於2016年舉辦的Beauty.AI,是第一個由AI擔任評審的國際選美比賽,規則很簡單,只要將網站(http://beauty.ai/)提供的App下載入手機並自拍上傳,AI評審就會針對容貌進行評分,被認證的帥哥美女將有被世界看見的機會。「你是忘記參加,還是怕比賽會輸?」每次被問到是否參加比賽,身邊的朋友總會如此調侃。因此,黃教授毅然決然地將自己的照片上傳。只是,他那張帶有黑框眼鏡、嘴唇緊閉的標準「理工男」臉孔似乎不是AI的菜。不過,我們能夠了解AI青睞怎樣的臉孔,依照哪些特徵來做顏值的判斷嗎?
●心理學也來參一腳:觀察法和實驗法
為了要示範如何透過心理學的研究法來了解"類人"的AI之決策標準與傾向,
黃教授使用了具有500位亞洲女性臉孔的SCUT-FBP顏值資料庫來訓練一「卷積神經網路」(Convolutional Neural Network),使這個類神經網路能學習在看到一張輸入照片(x)後能夠輸出一個近似人類評審所給的顏值分數(y)。經過一段時間的網路訓練後,AI和人類評分的一致性可以來到皮爾森相關係數(Pearson correlation coefficient)為r = 0.82 ± 0.03的水準。換句話說,這個AI評審和人類評審雖有很高的一致性,但兩者的評價並非總是相同(即r = 1.0)。
有了圖片素材(x)和人為評審分數(y),黃教授想要用觀察法回答進一步回答:人/機器為何會偏好一個人?心理研究法中的觀察法指的是在環境刺激不可受研究者控制時,研究者觀察人類行為如何根據刺激(x)做出反應(y),並對所記錄的結果進行分析,進而推演出人類心理活動中的規律。簡單來說,就是將AI視為一個正在牙牙學語的兒童,丟給他毛筆、滑鼠、鍋鏟等物品,觀察兒童的選擇並推論其喜好。這種方法的缺點在於只能根據結論得到相關性的解釋,而非因果推論。
具體來說,黃教授將一大批的圖片輸入給訓練好的AI評審來得到對應的顏值分數(y),並將這些圖片按照其顏值分數從小到大來做排序。接著,他將高分組和低分組的整體特徵進行平均,得到高分組和低分組的代表性臉孔。仔細檢查高分組和低分組臉孔差異,黃教授發現:比起低分組,高分組具有臉較細長、眼睛較大、鼻樑較長、嘴角上揚等特徵。此外,若再將資料庫中的最高分和最低分的臉孔圖拉出比較,可觀察到AI在給出低分時是將注意力集中於大鼻孔和黑眼袋等部位,而在給出最高分時(照片正好是中國藝人章子怡)則是將注意力集中於臉部中較白皙的部分。因此,根據觀察便得到了AI偏好皮膚較白皙臉孔的假說。
依據過去人際吸引的文獻與觀察法的結果,黃教授進一步利用實驗法來測試兩個假說:一是臉愈對稱愈討喜,二是臉愈白分數愈高。心理研究法中的實驗法指的是在實驗刺激可受研究者控制時,研究者觀察人類行為如何根據刺激(x)做出反應(y),並藉由實驗的結果推論因果關係。相較於先前的觀察法是將臉孔圖片按照顏值分數(y)來做排序以探索高低分的臉孔特徵差異,這裡的實驗法是將臉孔圖片按照對稱性或白的程度等臉孔特徵(x)來做排序以驗證特定的臉孔特徵是否真會影響顏值分數。
上述的兩個假說總共透過三個實驗來驗證。第一個關於臉對稱性的實驗目的是要確認這樣對AI評審的"模擬實驗法"是否能複製過去對人類評審的真實實驗結果。黃教授發現,一張臉的對稱性與由AI評審而來的顏值分數有 r = 0.35 的正相關,這和過去透過真實實驗所發現的 r = 0.33 有很高的一致性。然而,整體來說這個AI評審比人類評審給分更為苛刻,例如同樣是評斷中國女星范冰冰,人類評審的平均評分將近4.5分(滿分為5分),但AI評審則是吝嗇地給出將近3.5的分數。至於「一白遮三醜」的假說則需要兩個實驗來驗證,因為有一種白是與打光差異有關的亮白(即HSV色彩空間中的高明度V),而另一種白則是與臉色紅潤差異有關的慘白(即HSV色彩空間中的低飽和度S)。最後,兩個實驗的結果發現:明度(value)愈大的臉得分愈高( r = 0.38)但飽和度(saturation)則不會影響顏值分數。
在摸清楚AI的底細後,黃教授秉持著「世界上沒有醜男人,只有懶男人」的信念,將自己的圖片修改後再次讓AI評審來評分。若只將臉調整成對稱,分數只得到微幅進步,從2.34分來到2.47分。然而,若將臉部抹白修飾地像麥當勞叔叔,只留下原本的雙眼、鼻子和嘴巴,最後竟然得到3.53的高分。對於AI評審來說,這是個連范冰冰都比不上的極致美顏!藉由這個範例,我們可以看到AI評審與人類評審的審美標準不盡相同,但若能了解AI評審的決策模式就可以任意地操弄評判結果來反敗為勝。
●真的能夠了解AI的想法嗎?
一位與會者在演講結束後提問:「這種用結果去推論的方式,真的能知道AI做決策的邏輯嗎?」這是個有意思的問題,經濟學的世界中,理性經濟人衡量各種行為所對應的滿足程度,結合主觀的發生機率,對結果做出選擇;心理學的世界中,學者更近一步加入情感、記憶、思維等等條件,試圖描述個體具體的決策過程。黃教授提到,本演講主要是利用行為學派的方法,根據外顯的行為來解釋AI的決策標準與傾向。這種行為研究法的好處在於對各種機器學習系統都一體適用。不過,的確也有類似腦科學研究的方法可以直接觀察與紀錄內隱的類神經網路活動來幫助了解其認知或決策歷程。若對這些方法的細節有興趣可以進一步去參考黃教授的論文:
黃從仁(2019)。理解使用監督式學習而潛在有偏誤的人工代理者:認知心理學與認知神經科學的觀點。中華心理學刊,61卷3期,97-208頁。http://doi.org/10.6129/CJP.201909_61(3).0002