超逼真！AI自動影片生成

2019 年 07 月 02 日2022 年 01 月 04 日 intern DeepFake, GAN, 光流法, 對抗式生成網路, 影片合成

分享至

撰文／林采萱

由色塊到影像

人是視覺導向的生物。我們喜歡自然、喜歡美的事物，也因此我們想盡辦法讓影像變得更美好。圖片合成早已不是問題，尤其Adobe系列軟體更擴展圖片編修及各種合成的應用，人人都有能力讓自己變得更美。然而，影像的世界不僅止於圖片。影片剪輯，甚至合成的難度，是圖片合成技術無法比擬的，尤其動畫的開發更需耗費數年。不過現在救星出現了！

一般來說，一秒要有30張連續圖片快速播放，才能在人眼中看起來是順暢的影像。所以對於傳統手繪動畫來說，一秒便須繪製至少30張圖。若要完成片長2小時的電影，則需要上萬張，非常耗費人力與時間。直到電腦動畫出現後，以向量圖形縮減作畫時間。可是隨著電腦遊戲、虛擬實境的出現，電腦動畫的製作時間仍然太長，技術進展幅度無法滿足需求。例如，去年底（2018）甫開賣即突破多項銷售紀錄的電玩遊戲《碧血狂殺2》（Red Dead Redemption II），遊戲中動畫場景的創建便是一千名動畫製作人員耗費逾8年的時間才完成。

NDIVIA在加拿大蒙特婁舉行的人工智慧會議NeurIPS上所發表的Vid2Vid，是圖片到圖片合成技術的進階版本，可依據簡單的影像輸入，輸出逼真、精緻的影片，且成果優於目前其他方法：僅輸入由色塊構成的影像，經過神經網絡運算後，電腦便可合成出長30秒、畫質2K解析度的逼真街景影片；透過人為參數調整，更可改變街景，歐風建築或現代建築背景，任君選擇。這項NVIDIA新開發的影片合成技術，將可大幅縮短影像渲染時間，甚至自動合成影片，大幅降低動畫及特效的製作成本。

左上為由色塊構成的輸入影片，右上為pix2pixHD生成之影像，左下為COVST生成之影像，右下為本文所提方法生成之影像，按此可觀看影片。

GAN

然而要生成如此真實的影片，除了要處理場景與場景間的融合問題之外，還要讓每一幀圖像有連續關係、考量影像的時間變化。為了處理複雜的影片變換，團隊使用對抗式生成網絡（Generative Adversarial Network，GAN）框架。自多年前由Google提出後，GAN已成為近期機器學習中最新穎且進展最快速的非監督式演算法，應用範圍也更廣泛。

這個方法主要利用生成器（Generator）與判別器（Discriminator）間的相互競爭，誘使彼此進步：前者負責生成影像或音頻，後者扮演監督、辨偽者的角色；生成器透過不斷優化來欺瞞判別器，判別器則想盡辦法找出生成器的破綻，直到最終輸出人眼真假難辨的影像。

儘管如此，GAN在影片生成上，卻時常有影像不連貫的問題，每一幀格間常常會出現不自然地抖動。而Vid2Vid這個方法，是以先前發表的pix2pixHD技術為基礎，再加入時序限制、光流法（optic flow）。且其特殊之處在於使用「條件圖片判別器」（Conditional image discriminator）以及「條件影片判別器」（Conditional video discriminator）共兩種判別器，導正「序列生成器」（Sequential generator）的生成結果，確保影像的解析度與連貫性。

光流法

為了簡化影格與影格間的相容問題，研究員採用馬可夫模型（Markov Model）生成每一幀影格，但其中包含大量無用的資訊，徒增計算時間。故透過檢測圖像像素強度（值）的變化，來推斷物體移動速度及方向，有效掌握圖像間的轉換關係，此謂「光流法」。

通常影片主體的變動較大，而背景則幾乎保持一致，兩者光流走向不同。因此前景、後景通常會分開建模，來加快收斂速度。以街景圖為例：行人、車輛等前景的變動幅度較大，光流計算難度較高；道路、樹木等背景則通常沒有什麼改變，所以光流計算較準確。即使如此，GAN在較複雜的場景，例如前述的街景影片中，仍會出現道路白線突然消失等細節上的問題。

三組合成前後的跳舞圖片。每一組圖的左圖為原始跳舞影片，中間小圖為提取出來的跳舞姿勢，右圖為合成後的跳舞影片，按此可觀看影片。

除街景合成外，研究團隊也嘗試利用簡單輪廓合成表情、動作平滑且自然的談話或舞蹈影像，除了肢體動作栩栩如生外，連光影的晃動也都毫無不協和之處，也因此在公開時引起軒然大波。

Vid2Vid無疑是新一代影像合成與處理技術的革新，除動畫及特效應用外，料也將應用於自駕車的訓練之中。

參考資料

T.C. Wang, M.Y. Liu, A. Tao, J. Kautz, and B. Catanzaro, “Video-to-Video Synthesis“, arXiv, 2018.
T.C. Wang, M.Y. Liu, A. Tao, J. Kautz, and B. Catanzaro, “High-resolution image synthesis and semantic manipulation with conditional gans“, arXiv, 2018.
Will Knight. “AI software can dream up an entire digital world from a simple sketch“. MIT Technology Review, 2018.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 307 times, 1 visits today)

分享至

views