【探索20-5】電腦視覺:一場做了五十年的暑假作業
講師|臺灣大學資工系教授 莊永裕
彙整撰文|連品薰
1969年圖靈獎的得主,人工智慧之父Marvin Minsky,在MIT任教期間曾經招募學生進行一場暑期的研究計畫,功課是「將攝影機連上電腦,讓電腦描述所看到的東西」。這個預計在一個暑假、由一群大學生就能完成的暑假作業,如今卻成了數以萬計的科學家耗時五十年都無法企及的目標。這就是電腦視覺給我們的歷史難題:我們從來沒有想過要怎麼教一個嬰兒如何去「看」,他就天生會了,但現在又該如何去教會一台電腦呢?
●早期影像處理:設計卷積核心
一張影像可以視為一個二維函數f(x,y),在每一個位置(x,y)上都對應到其亮度值。在電腦裡,數位影像可以視為一個二維的陣列,陣列裡的每個方格都對應到一個亮度值。彩色的影像則是紅綠藍三張亮度圖的疊加。但人類並非光是靠著能量的低階資訊就能進行高階的認知判斷,由低階的亮度資訊到高階的語意之間的「語意鴻溝」(semantic gap)便是電腦視覺需要跨越的困難。
在1960年代,科學家尚未有能力讓電腦「認出」這個世界,但他們開始嘗試以濾波器,又稱為卷積(convolution)的方法進行影像處理,包含將圖片模糊化、將邊緣標示出來等。每一種濾鏡都是一個較小的陣列,稱為卷積核心,和輸入影像的陣列作加權總合後,就能對原圖做亮度上的變化。工程師藉由設計不同的卷積,能萃取圖片不同的屬性,來達到不同的目的。
●影像辨識:這是貓咪嗎?
當電腦在圍棋上打敗人類,全世界都為之聳動,但你可知道相較於「認出一隻貓咪」,這對電腦來說可能只是輕而易舉?差異在於資料量。一場圍棋的可能性,大約等於二的六零四次方,但光是一隻貓的圖片可能就有二的八百萬次方種可能性。除此之外,語意鴻溝、視角/亮度/姿態的變異、複雜背景以及貓的組內變異都是電腦視覺同時面臨的挑戰。
為了跨越語意鴻溝,傳統的影像辨識靠的是手工的「特徵擷取」,工程師必須找出最能辨別一物的特徵(例如一顆蘋果的可能特徵是它的顏色、重量、體積等),將圖片轉換成一個高維向量,再讓可訓練分類器在高維特徵空間中找出類別間的分野,並以此識別物件。但是特徵有百百種,不同的類別通常具有不同的有效特徵,因此人工打造的特徵很難是最有效的特徵。
傳統電腦視覺跨出一大步的成功案例或許是「人臉辨識」技術。相較於辨識,「偵測」問的是「臉在哪裡?」位置的因素使得問題被複雜化,但這次科學家只需要識別單一的類別。在這個案例上,科學家首先規定了只用四種長方形的濾波器取得特徵,但即使對於24x24大小的影像,考慮到不同的大小以及位置就讓濾波器的可能性多達160,000種。但這次科學家不再手工嘗試找出最好的特徵,而是利用資料導向(data-driven)、自動設計的方式讓電腦幫忙找出最合適的特徵,使它判斷訓練資料的錯誤率可以達到最低。
●深度學習與神經網路
神經網路模擬神經元的功能,將輸入的刺激(資料)進行加權運算並輸出成一個資料,而多層的神經網路就是深度學習的原理。多層的神經就像是多層的濾波器,而深度學習一樣利用資料導向的方式,自動依位置的重要程度賦予各自不同的加權數藉以設計出不同的有效特徵。神經網路便是藉由卷積層的疊合,將低階的特徵一層一層整合成高階的特徵以回答核心的語意問題。
這樣前衛的技術其實早在1993年就被Yann LeCun提出,並應用在手寫和印刷數字的辨識,但一直要到2012年深度學習才在電腦視覺學界裡產生巨大的影響。其中的關鍵仍然是資料量。深度學習和傳統手工做法最大的不同就來自於巨量的資料訓練,特徵擷取跟分類器在此被統合起來,我們只要能夠給予足夠的資料跟答案,電腦就會自動找出最佳作法。在2010年,李飛飛與鄧嘉將其共同創立的ImageNet影像資料庫提供了共120萬張訓練影像、1,000個類別給全世界的科學家來挑戰電腦視覺的難題。2012年時卷積神經網路被引入,一舉將錯誤率從前一年的25.8%降低到16.4%。而到了2015年時總共152層的神經網路已經可以把錯誤率降到3.6%,低於人類的5%平均錯誤率,象徵著電腦在圖片識別能力上已經超越了人類。
●AI在電腦視覺上的革命
深度學習這種人工智慧的技術被引入後,快速地使電腦視覺在兩三年內有了突破性的發展,基於深度學習的辨識、偵測與分割等影像處理技術一一被研發出來,電腦甚至能在影像生成上通過圖靈測試,你根本分辨不出來哪些影像是電腦創造的!這波革命性的轉變引起了產業上極大的關注,依據2018年北京人工智慧產業發展白皮書,電腦視覺在人工智慧創業公司的數量與投資額都佔據榜首。而在人臉辨識技術上,中國更因其公安需求投資了大量資源在相關技術研發與學術研究。
莊永裕教授對於「人工智慧將如何改變人類生活」的想法是樂觀的,他認為當電腦可以取代許多勞動性的工作,人們便能更有餘裕去從事更多創造性的事務。從歷史的發展來看,科技的演變不斷的在淘汰許多行業,但人類社會也並沒有因此遭遇重大危機。而對於「人工智慧是否會威脅人類生存」這個經常被科幻電影引用的題材,莊永裕教授則表示過去的技術只讓電腦在運算和記憶層次超越人類,而這波的革命是使電腦在感知能力上大幅提升,但更高層次的認知、創造力以及智慧能力都是現今科技仍做不到的,因此我們還不用擔心在這個階段機器人會有消滅人類的「想法」。最後被問到對於下一波AI革命的走向預測,老師也開玩笑的說,如果他能夠知道就好了!
--
本文整理自:107/12/1 由莊永裕老師在臺大思亮館國際會議廳所主講之「矽眼-電腦視覺初探」演講內容。