由2D到3D:全像式圖片生成網路HoloGAN

由2D到3D:全像式圖片生成網路HoloGAN

編譯/賴佳昀

掌控所合成的影像

自2014年Ian Goodfellow提出生成對抗網路(Generative Adversarial Network,GAN)後,大量的人力與資源相繼投入相關研究,也衍伸出許多變形。此類非監督式學習的機器學習模型正如其名,「生成」與「對抗」針鋒相對,一方不斷產生仿造的影像(生成器),另一方則不斷在雞蛋裡挑骨頭(判別器),最後給出一張惟妙惟肖的圖像。儘管GAN可以生成高解析度、高品質的影像,但由於無法控制所生成的內容,它的應用依舊受到了限制。

舉例來說,我們可以用GAN憑空造出一張美女的臉,卻無法指定是黑髮鳳眼瓜子臉,或是金髮碧眼鵝蛋臉。如果想要控制模型的輸出結果,便需在訓練時增加標籤(label),像是告訴模型這位美女有馬尾、雙眼皮、酒窩、棕髮等條件,這種修改過後的GAN,稱為「條件GAN」(conditional GAN)。若要再進一步生成三維物件的話,除了使用大量標記過的數據來訓練模型(但所需的人力不容小覷)的選項外,也可提供三維影像的「標準答案」(ground truth data)供模型參考,但後者往往難以取得。

英國巴斯大學的一個研究團隊便是以此為出發點,提出新的演算法HoloGAN,直接由無標記、背景複雜的二維圖片中擷取三維特徵,藉此提高對合成影像的控制,生成更加多變的圖像。

傳統上,我們會使用立體像素(voxels)或是網格(meshes),來描述一個三維空間中的物件;這對剛性物體,如桌子、水盆、窗戶等十分好用,但對如人體、貓、蜘蛛等非剛性物件而言,卻有諸多限制(例如需要更多的記憶體)。

圖一、條件GAN和HoloGAN間運作架構的區別。(來源:T. Nguyen-Phuoc et al., 2019.)

HoloGAN(如上圖右)的運作與傳統條件GAN(上圖左)不同,後者需要額外取得物件的旋轉角度與姿勢等資料(θ),但HoloGAN卻可以直接利用習得的三維特徵,將物件轉至特定角度或姿勢,最終投映為二維圖片輸出。

特徵分離

HoloGAN之所以能這麼做,與「特徵糾纏」(feature entanglement)這項問題有關。過去大多數的GAN研究,著重於增加演算法的穩定性以及提升生成圖片的真實感,而忽略了模型無法區分如姿勢、形狀或外觀等對人類而言顯而易見的分離特徵。

一些GAN模型,例如InfoGAN,是利用「損失函數」(loss function,可以視為模型給出的預測結果和「標準答案」之間的差距)來區分特徵。然而這種方法無法確定模型會學到什麼,也無法控制學到的東西是否有意義;也就是說,分離出來的特徵是代表單車?花盆?床?眉毛?還是只是一個顏色相近的色塊?

圖二對比了InfoGAN以及HoloGAN所產生的圖片,由於使用者無法控制InfoGAN會學到什麼,HoloGAN顯得更具優勢:不僅在圖片水平旋轉的自由度較高,同時還保持物件原有的質地。

圖二、InfoGAN和HoloGAN生成圖片間的區別。(來源:T. Nguyen-Phuoc et al., 2019.)

複雜背景

另一方面,雜亂的背景,也是以往GAN模型常遇到的瓶頸。「視覺物件網路」(Visual Object Networks,VONs)是目前最頂尖的三維圖形生成模型,由谷歌以及MIT合作提出,以形狀、視角以及紋路為三要素,去生成高自由度的圖片。舉例來說,用VONs生成的一張車子圖片,可以切換視角(前、中、後)、改變形狀(SUV或是小March),還可以調整紋路(消光黑、豔麗紅、青草綠)。儘管如此,這個模型卻得在單調的空白背景下運作,相當程度地限制了VONs的應用範圍。

HoloGAN由於不需要預先知道三維形狀,因而也能套用於有複雜背景、多個物件的圖片。圖三比較了使用VON及HoloGAN生成的三維圖形。如上所提,VON只能運用在空白背景圖片,並且針對特定角度,所生成的圖片品質低落。

圖三、VON和HoloGAN之間的區別。VON對於特定角度,如前視角(紅色框)與後視角(藍色框),所生成的圖片品質低落。(來源:T. Nguyen-Phuoc et al., 2019.)

隨著圖片生成技術越發成熟,如今除了能穩定生成高解析度、以假亂真的圖片外,對所生成圖片的掌控程度與方式也不斷進步。除了持續改進GAN架構的各個細節外,比較不同模型間的優劣勢,截長補短,也為這個領域帶來長足的進展。

延伸閱讀:真偽莫辨的人像產生器〉、〈超逼真!AI自動影片生成〉、〈不會跳舞嗎?AI讓你動起來〉、〈從一張2D影像直接建構3D資訊

 

編譯來源

T. Nguyen-Phuoc, C. Li, L. Theis, C. Richardt, and Y.-L. Yang, “HoloGAN: Unsupervised learning of 3D representations from natural images,” arXiv preprint arXiv:1904.01326, 2019.

參考資料

  1. J.-Y. Zhu et al., “Visual object networks: image generation with disentangled 3D representations,” in Advances in Neural Information Processing Systems, 2018, pp. 118-129.
  2. X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel, “Infogan: Interpretable representation learning by information maximizing generative adversarial nets,” in Advances in neural information processing systems, 2016, pp. 2172-2180.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

views