由2D到3D：全像式圖片生成網路HoloGAN

2019 年 11 月 28 日2022 年 01 月 03 日 intern GAN, 三維影像, 合成影像, 視角

分享至

編譯／賴佳昀

掌控所合成的影像

自2014年Ian Goodfellow提出生成對抗網路（Generative Adversarial Network，GAN）後，大量的人力與資源相繼投入相關研究，也衍伸出許多變形。此類非監督式學習的機器學習模型正如其名，「生成」與「對抗」針鋒相對，一方不斷產生仿造的影像（生成器），另一方則不斷在雞蛋裡挑骨頭（判別器），最後給出一張惟妙惟肖的圖像。儘管GAN可以生成高解析度、高品質的影像，但由於無法控制所生成的內容，它的應用依舊受到了限制。

舉例來說，我們可以用GAN憑空造出一張美女的臉，卻無法指定是黑髮鳳眼瓜子臉，或是金髮碧眼鵝蛋臉。如果想要控制模型的輸出結果，便需在訓練時增加標籤（label），像是告訴模型這位美女有馬尾、雙眼皮、酒窩、棕髮等條件，這種修改過後的GAN，稱為「條件GAN」（conditional GAN）。若要再進一步生成三維物件的話，除了使用大量標記過的數據來訓練模型（但所需的人力不容小覷）的選項外，也可提供三維影像的「標準答案」（ground truth data）供模型參考，但後者往往難以取得。

英國巴斯大學的一個研究團隊便是以此為出發點，提出新的演算法HoloGAN，直接由無標記、背景複雜的二維圖片中擷取三維特徵，藉此提高對合成影像的控制，生成更加多變的圖像。

傳統上，我們會使用立體像素（voxels）或是網格（meshes），來描述一個三維空間中的物件；這對剛性物體，如桌子、水盆、窗戶等十分好用，但對如人體、貓、蜘蛛等非剛性物件而言，卻有諸多限制（例如需要更多的記憶體）。

圖一、條件GAN和HoloGAN間運作架構的區別。（來源：T. Nguyen-Phuoc et al., 2019.）

HoloGAN（如上圖右）的運作與傳統條件GAN（上圖左）不同，後者需要額外取得物件的旋轉角度與姿勢等資料（θ），但HoloGAN卻可以直接利用習得的三維特徵，將物件轉至特定角度或姿勢，最終投映為二維圖片輸出。

特徵分離

HoloGAN之所以能這麼做，與「特徵糾纏」（feature entanglement）這項問題有關。過去大多數的GAN研究，著重於增加演算法的穩定性以及提升生成圖片的真實感，而忽略了模型無法區分如姿勢、形狀或外觀等對人類而言顯而易見的分離特徵。

一些GAN模型，例如InfoGAN，是利用「損失函數」（loss function，可以視為模型給出的預測結果和「標準答案」之間的差距）來區分特徵。然而這種方法無法確定模型會學到什麼，也無法控制學到的東西是否有意義；也就是說，分離出來的特徵是代表單車？花盆？床？眉毛？還是只是一個顏色相近的色塊？

圖二對比了InfoGAN以及HoloGAN所產生的圖片，由於使用者無法控制InfoGAN會學到什麼，HoloGAN顯得更具優勢：不僅在圖片水平旋轉的自由度較高，同時還保持物件原有的質地。

圖二、InfoGAN和HoloGAN生成圖片間的區別。（來源：T. Nguyen-Phuoc et al., 2019.）

複雜背景

另一方面，雜亂的背景，也是以往GAN模型常遇到的瓶頸。「視覺物件網路」（Visual Object Networks，VONs）是目前最頂尖的三維圖形生成模型，由谷歌以及MIT合作提出，以形狀、視角以及紋路為三要素，去生成高自由度的圖片。舉例來說，用VONs生成的一張車子圖片，可以切換視角（前、中、後）、改變形狀（SUV或是小March），還可以調整紋路（消光黑、豔麗紅、青草綠）。儘管如此，這個模型卻得在單調的空白背景下運作，相當程度地限制了VONs的應用範圍。

HoloGAN由於不需要預先知道三維形狀，因而也能套用於有複雜背景、多個物件的圖片。圖三比較了使用VON及HoloGAN生成的三維圖形。如上所提，VON只能運用在空白背景圖片，並且針對特定角度，所生成的圖片品質低落。

圖三、VON和HoloGAN之間的區別。VON對於特定角度，如前視角（紅色框）與後視角（藍色框），所生成的圖片品質低落。（來源：T. Nguyen-Phuoc et al., 2019.）

隨著圖片生成技術越發成熟，如今除了能穩定生成高解析度、以假亂真的圖片外，對所生成圖片的掌控程度與方式也不斷進步。除了持續改進GAN架構的各個細節外，比較不同模型間的優劣勢，截長補短，也為這個領域帶來長足的進展。

延伸閱讀：〈真偽莫辨的人像產生器〉、〈超逼真！AI自動影片生成〉、〈不會跳舞嗎？AI讓你動起來〉、〈從一張2D影像直接建構3D資訊〉

編譯來源

T. Nguyen-Phuoc, C. Li, L. Theis, C. Richardt, and Y.-L. Yang, “HoloGAN: Unsupervised learning of 3D representations from natural images,” arXiv preprint arXiv:1904.01326, 2019.

參考資料

J.-Y. Zhu et al., “Visual object networks: image generation with disentangled 3D representations,” in Advances in Neural Information Processing Systems, 2018, pp. 118-129.
X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel, “Infogan: Interpretable representation learning by information maximizing generative adversarial nets,” in Advances in neural information processing systems, 2016, pp. 2172-2180.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

(Visited 197 times, 1 visits today)

分享至

views