人工智慧可能改寫電影史嗎？史上第一批純由文字產生的短片

2018 年 05 月 15 日2018 年 08 月 29 日 CASE PRESS AI, 創作, 文字, 混合生成對抗網路, 變分自編碼器, 電影, 風格

分享至

編譯｜陳明佑

單純由文字生成電影是可能的嗎？數個月前美國杜克大學的研究團隊在AAAI發表了一個新的機器學習架構[i]：混合生成對抗網路（Generative Adversarial Network, GAN）與變分自編碼器（Variational Autoencoder, VAE）兩種技術，能夠從文字描述中生成全新的短片。

在文字方面，人工智慧已能夠編譯新聞，[ii]甚至寫詩[iii]；在音樂方面，人工智慧學會了編曲，更能創作旋律[iv]；在圖像方面，人工智慧更具備多元才華，能將任何圖像轉換成任何一位畫家的風格。於是，人工智慧要挑戰的下一個里程碑，正是電影。產生影片的困境在於，影片既和圖片一樣需要好的畫質，但更進一步還需要注意到畫面的連續性，更需要區別畫面中的靜物與移動中的物件，杜克大學的研究團隊就指出了，合成圖像的方法不能直接適用於合成影像。

關於文字與影像，以往的神經網路模型多半僅針對由影片產生出對應的文字註解，而文字生成影片因為門檻相對更高，因此很少被研究者關注。另外，由於生成影片難度極高，過去成功生成複雜圖像的生成式模型（generative model）因而倍受期許，成為其中的關鍵角色。

●生成式模型：變分自編碼器與生成對抗網路

生成式模型的目標是，在只擁有部份數據的前提下，儘可能學習到產生這組數據的複雜原始函數。這是什麼意思呢？簡單來說，就是要從能觀測到的有限樣本中學習到隱藏其中的模式。有了這個模式，我們將能創造出類似現有樣本的新樣本。舉例而言，如果我們在生成式模型中丟進許多動漫角色的畫像，一個成功的模型應該要能夠獨立創造出新的動漫角色。

不妨就把生成式模型想像成是夢境。在現實生活中，我們總是只擁有在日常生活中觀察到的少量經驗（對應於現有的樣本），卻要面對一個高度複雜的世界（對應於樣本背後隱藏的函數），隨時可能遇到先前沒有處理過的生活情境以至於驚慌失措。那麼，怎麼樣才能取得足夠的經驗呢？這時候夢境就扮演了從我們的經驗中生成類似於現實經驗的「新的經驗」的角色。夢境替人們製造了許多相似於現實，又不同於真實發生事件的經驗，讓人們得以在夢中模擬各種生活，預先演練，也因此許多夢境理論都認為，模擬現實是夢境最重要的功能。

在生成式模型中，有兩類模型一直獲得最多的關注，它們分別是「生成對抗網路」與「變分自編碼器」。生成對抗網路運用對抗的概念來讓整個網路更好地學習，其中，一個網路負責從隨機信息中生成樣本，另一個網路負責辨識這個樣本的真實程度。機器學習研究者發現，如果交替訓練這兩個網路，結果是，負責生成的網路和負責判別的網路都會變得相當強大，就像仿冒畫家和鑑定家會砥礪彼此的技能一樣。如此一來，最後我們可以用其中的生成網路來生成我們想要的新的樣本。

而另一種生成模型──變分自編碼器，則是由編碼器與解碼器兩者合作的結果。編碼器負責將輸入的數據編碼為較簡單的訊息，解碼器負責將訊息儘可能還原回原來的數據，經過訓練以後，最終的解碼器將能從任意簡單訊息中生成出一個精細的樣本。讓我們把這個訓練程序想像成作者和讀者交流的過程，每個作者都會將想要表達的複雜概念放進相對簡單的文字序列中，一個讀者則試圖從文字序列中儘可能找回作者原先企圖表達的概念，久而久之，讀過大量文本之後，讀者就會獲得能從任何文字序列中還原出複雜概念的能力。變分自編碼器訓練的結果就是能從任意簡單訊息中生成一個我們想要的樣本。

●一種神經網路不夠，那就多加幾種

然而，前述兩類模型都有各自的缺點，生成對抗網路雖然生成樣本的畫質高，但卻會因為生成時的自由度過大，容易遭遇模式崩潰（mode of collapse）[v]，導致生成的樣本不再能反映原先想要生成的函數，而變分自編碼器雖然相對穩定，卻又無法生成出極佳畫質。一種神經網路不夠，杜克大學研究團隊研究者於是決定混合兩種模型。

文字生成短片最大的挑戰在於，如果每個畫面分開生成，畫面之間的動作就會失去連貫性;相反地，如果要求每個畫面之間的動作連貫，往往又難以讓畫面符合文字描述。為解決這些問題，杜克大學團隊在模型中增加一個關鍵的步驟－－概要生成（gist generation）。先由相對穩定的變分自編碼器生成畫面概要，再由生成品質高的生成對抗網路生成影片。如此一來，兩種神經網路模型都能發揮其優點，穩定的概要生成讓生成的畫面能夠吻合文字描述，細緻的影片生成則確保了生成影片的品質。

模型運作過程如下：先將文字輸入概要產生器，讓其產生畫面的概略描述（背景色彩、物件位置），這可以確保之後的畫面都能大致符合文字描述。接著，概要和文字敘述會一起再被輸入影片生成器中，產生完整的影片。最後，產生的影片再接上影片判別器。注意在這裡的影片生成器和影片判別器，正好就屬於前面說明過的生成對抗網路的關係。於是，經過訓練後，就可以確保生成的影片既能遵循文字要求，又擁有足夠良好的畫質。

然而，即使這樣的研究確實為機器學習領域帶來極大進展，目前距離具體的應用似乎還很遙遠，現階段能夠生成的影像類別極為有限，影片規模也不大，僅為48x48像素，32幀的小短片。

不過電影史上最早的電影也不長於兩秒，再考慮到深度學習這幾年的飛速進展，我們或許可以更為樂觀看待這種神經網路後續的進步。到了那一天，或許我們會發現到這些小小的短片，正是開創人工智慧電影史的拓荒先聲，另一次標記了全新時代的《朗得海花園場景[vi]》。如果這個架構持續發展，或許某天那些如《魔戒》、《哈利波特》般架構龐大的奇幻魔法故事，將不再需要一個團隊曠日費時的製作，就能快速轉為大銀幕上撼動人心的場面，我們也不再需要苦等下一季《冰與火之歌》。

註解：

[i] 原始論文：https://arxiv.org/abs/1710.00421

[ii] 人工智慧編寫新聞

[iii] 人工智慧寫詩

[iv] 人工智慧作曲

[v] 一般來說，GAN需要能生成出原始分佈函數中存在的各種模式，但在模式崩潰發生後，GAN產生的樣本會限縮在單一模式，使得它只能生產一堆非常相似的樣本，而不能反映整個原始分佈。

[vi] 《朗得海花園場景》已知最早的電影，攝於1888年，影片幀數僅24幀。參見：http://www.imdb.com/title/tt0392728/