這個假影片不夠真──只有AI能打敗AI
編譯/賴佳昀
眼見不再為憑,有圖也沒真相?
Deepfake是種利用深度學習(Deep learning)來偽造影像的技術,因爲一位網友將成人影片中女主角的臉置換成Gal Gadot(電影《神力女超人》的女主角)而惡名昭彰。隨後,偽造歐巴馬的演講影片更是挑起大眾的敏感神經。
儘管目前Deepfake偽造的影像仍有許多缺陷,人類要察覺並非難事,但根據資安公司DeepTrace Labs在2019年10月的報告(迄今最全面的網路數據調查),網路上Deepfake偽造影像快速增加,在過去的七個月內增加了15,000起。這個數字,某種程度上歸因於Deepfake技術的取得容易且操作簡單,相關應用程式甚至在手機上就可以下載使用,輕易就能讓政治人物或影視藝人說出不曾說過的話或出現在不曾參與過的場合,助長錯誤訊息的製造與傳播。
以其人之道,還至其人之身
「Deepfakes目前還不是一個很嚴重的問題」Facebook首席技術長Mike Schroepfer說道,「但我們從過去經驗學到的教訓,我們得未雨綢繆!我寧願作最壞的打算,而不要將來措手不及。」Facebook決定以毒攻毒,用AI來回擊AI產生的假圖!他們釋出有史以來最大的Deepfake資料庫,希望以此來訓練其他AI找出被動過手腳的影片。這個資料庫動用了3,426名演員,並以Deepfake進行一系列變造,收集了超過十萬支的影片。
除了資料庫,Facebook同時也舉辦了Deepfake偵測競賽(Deepfake Detection Challenge)。第一屆的競賽便吸引了2,000多名參賽者,並利用Facebook提供的資料庫開發出約35,000個模型。
多數參賽者不意外地使用了Google去年新開發、一種叫做EfficientNets的卷積神經網路(Convolutional neural network,CNN),藉由尋找Deepfake影像中的數位指紋來辨別是否經過變造。CNN擅長影像的分析,很適合用來偵測特定物件或人臉。透過微調網路中的一些參數,便可以提高演算法的準確性,EfficientNets便屬於這一類人工神經網路。只是事情遠遠沒有那麼簡單:妝髮、後製在人物臉上的文字或圖案、翻轉、調整播放速度、解析度,一些看似微不足道的小變化都能輕易迷惑模型。競賽結果最佳的前五名參賽者都是轉而學習人類辨識Deepfake的方法,看看影片裡面有哪些地方看起來「怪怪的」:再怎麼精緻的Deepfake在影格轉換之間也會有些許閃爍,而人類非常擅長去察覺這些不協調的地方,尤其是有臉出現的鏡頭。
得到第一名的Selim Seferbekov是在地圖服務商Mapbox工作的工程師,他的模型可達到65%的準確度,只是Facebook並不打算使用任何一個在競賽中得獎的模型。準確度不足是其一,有些模型在偵測訓練影片的表現可達80%準確度,但面對新的、未曾見過的影片時則表現欠佳。況且道高一尺魔高一丈,當Deepfake依據這些缺陷更新、升級後,這些模型便毫無用武之地。相反的,Facebook認為可以從另一個角度下手──注意影片中的背景與拍攝場合是否符合時間或地理上的常識、搜尋看看類似的影像是否有更早的來源或出處。
科技讓信任可以持續下去
參與Facebook Deepfake資料庫建置的人權組織WITNESS,同時也是「人工智慧夥伴聯盟」(Partnership on AI)的成員之一。其總監Sam Gregory也認同Schroepfer未雨綢繆的建議,在Deepfake造成不可抹滅的負面影響之前,鼓勵社群媒體開始投注心力,防範於未然。
當今的攝影技術如此發達,任何人都能夠製作影片上傳,彈指間分享至茫茫網路中,「信任」反而更顯珍貴──只要Deepfake在每個人的心中播下一點懷疑的種子,那麼不管影片事實上是真是假,信任都難以挽回。我們必須面對的現實是,有一天Deepfake會進展到連人類都難辨真假,AI成為我們不得不倚靠的唯一工具。
編譯來源
W. Heaven, “Facebook just released a database of 100,000 deepfakes to teach AI how to spot them“, MIT Technology Review, 2020.
參考資料
W. Knight, “This AI lets you deepfake your voice to speak like Barack Obama“, MIT Technology Review, 2019.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)