新聞、謊言、假影片(2/4)

2019 年 09 月 04 日2022 年 01 月 04 日 intern AI生成, GAN, 假新聞, 美國政治

分享至

撰文／Brendan Borrell｜譯者／鍾樹人
轉載自《科學人》2018年11月第201期

電腦虛構場景

假影片的發展可追溯到1960年代，人們第一次想到可以利用電腦製作影像。1980 年代，這些特效成為主流，影迷看著這項技術與時俱進，從科幻電影到1994年「阿甘正傳」（Forrest Gump）主角阿甘跟美國總統甘迺迪握了手，2016 年「星際大戰外傳：俠盜一號」（Rogue One）則是讓已過世的演員庫興（Peter Cushing）和費雪（Carrie Fisher）身影重現。南加州大學的資訊科學助理教授黎顥（Hao Li）是擴增實境（AR）新創公司Pinscreen執行長，他表示，這項技術的目標一直是「創造可以上演任何故事的數位世界。我們如何能創造看似真實的東西，但實際上都是虛擬的？」

早期，這些圖像大多出自藝術家，他們使用電腦建立3D模型，然後手工繪製紋路與其他細節；這個過程冗長，無法擴大規模。大約20 年前，一些電腦視覺研究人員開始以不同方式思考圖像：與其花時間在個別模型上，何不教電腦根據資料建立模型？1997 年，美國區間研發公司（Interval Research Corporation）的科學家開發出「影片重寫」（Video Rewrite）軟體，能把既有影片分割成片段，然後重新編排。研究人員製作了一小段影片，內容是甘迺迪說：「我從未跟阿甘見過面。」不久之後，德國馬克士普朗克生物模控研究所的科學家教導電腦從200張人臉的3D掃描資料集裡抓取特徵，然後製作新的臉孔影像。

近來隨著一種名為深度學習（deep learning）的AI進展，電腦視覺、資料與自動化之間最大的突破應該是在2012 年。1990 年代晚期的研究是使用靜態資料，而且並未改善；深度學習則不同，不但可調整功能，而且會漸入佳境。德國馬克士普朗克科學史研究所的博士後研究員李曉昌（Xiaochang Li，音譯）表示，這項技術把臉孔影像這類物件簡化成位元資料，「這時工程師會說，我們不再依據某物建立模型。我們對某物一無所知，只是運算資料來了解模式、建立模型。」

深度學習使用一道道簡單的數學方程式，其數學模型稱為類神經網路（neural network），深度學習隨著時間精通任務。例如資訊科學家可以教深度學習工具辨識人臉，方法是輸入成千上萬張影像，而且逐次說明「這是一張臉」或「這不是一張臉」。之後，當這種工具接收到新的人臉影像，就能辨識出構成人臉特徵的模式，然後（從統計上）回應「這也是一張臉」。

接續推出的新技術能夠虛構出看起來像真人臉孔的影像，其深度學習工具就是所謂的生成網路（generativenetwork）。運用的是相同邏輯：資訊科學家以成千上萬張影像來訓練生成網路，但生成網路是根據從範例中蒐集的模式來製作新臉孔影像。現在有些公司使用相同的策略來處理音檔。今年稍早，Google發表Duplex，它是基於WaveNet軟體的AI助理；Duplex能撥打電話，聽起來像真人說話，還會加上語氣停頓，例如「呃」、「嗯」。將來，製作政客的假影片或許就不需要皮爾這類演員。去年4月時，加拿大新創公司Lyrebird發表了音檔範例，聽起來就像歐巴馬、川普、希拉蕊在說話，令人不寒而慄。

但生成網路需要巨量資料集進行訓練，這可能耗費大量人力。改善虛構內容的下一步是教AI訓練自己。2014 年，加拿大蒙特婁大學的研究人員以生成對抗網路（generative adversarial network, GAN）做到這一點，方法是讓兩個類神經網路進行對抗。其一是生成網路，負責製作假影像，另一是鑑別網路，學習辨別影像的真偽。在幾乎沒人監督的情況下，GAN透過對抗方式訓練彼此；鑑別網路辨別生成網路所製作越來越逼真的假影像，而生成網路不斷想騙過鑑別網路。GAN可以製作任何數位內容。加州大學柏克萊分校的科學家發展出一種GAN，可以把馬的影像變成斑馬影像，或是把莫內這類印象派藝術家的畫作變成如相片般真實的景色。

今年5月，德國馬克士普朗克資訊學研究所的研究人員和同事發表了「深度影片」（deep video），也是使用某種GAN。深度影片能讓演員控制錄製影片裡其他人的嘴、眼和臉部動作，目前只能在肖像姿態（也就是一個人直視攝影機）下運作；如果演員頭部擺動的幅度太大，影片會有明顯的瑕疵，例如人臉影像周圍出現模糊的像素。

GAN還無法在影片中建構複雜的場景，一如影片所呈現的真實場景。有時，GAN會在影像中虛構出奇怪的東西，例如人的額頭有眼珠。不過今年2月，輝達（NVIDIA）公司的研究人員找到方法，讓GAN能製作出高解析度的臉孔影像；他們先以解析度相對較小的相片訓練GAN，然後由GAN逐步提高解析度。南加州大學的黎顥團隊已經使用GAN製作出逼真的皮膚、牙齒和嘴巴影像，這些都是數位方法難以重建的部位。(待續)

延伸閱讀：真偽莫辨的人像產生器；AI影像真假難辨；超逼真！AI自動影片生成

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 92 times, 1 visits today)

分享至

views