人工智慧在影像處理與電腦視覺之應用

分享至

人工智慧在影像處理與電腦視覺之應用

講者/莊永裕(台大資工系教授兼主任)│彙整/《科學人》編輯團隊
轉載自2018.03.11〈科創講堂.AI人工智慧〉

如何看見世界

什麼叫做智慧?有人說是耳聰目明,在電腦視覺的領域,莊永裕說:「我們希望電腦能夠『目明』,可以跟人類一樣看到世界、理解世界。」

人類是如何看到世界的呢?人類有一雙眼睛去感知世界,當外界的光進入眼睛後,就由神經元傳送訊號到大腦,最後由大腦負責詮釋場景。科學家也模仿了這個架構,用攝影機取代眼睛,用演算法和電腦取代人腦,希望機器因此能看到世界,但還是很困難,因為機器看到的是一堆數字。

然而自從有了人工智慧之後,電腦視覺就有了重大突破。大致可以從兩個面向著手:從替代的眼睛著手,也就是要提高攝影機的能力,這方面的研究屬於「計算攝影學」;從替代的大腦著手,就要學會辨識、分析,進而做出決策,這屬於「電腦視覺」的範圍。

把不完美變得完美

所謂的攝影就是光經透鏡折射後,在底片上成像。傳統用的是化學底片,數位相機則把底片換成感光元件,兩者在成像上,都遵循物理學定律。不過由於攝影機有各種限制(別是手機相機),記錄到的影像是不完美的,為了克服這個不完美,就必須透過運算晶片,把影像訊號轉換成符合期待的照片。所以數位相機所得到的影像,莊永裕說:「很多地方都是硬體猜出來的。」這就是他在研究的「計算攝影學」,可以去雜訊、提高解析度,增進影像的品質。

除了相機本身,攝影者也可能造成不完美,例如手震;或是場景不符合人類的預期,像是陰天等。不過,不完美的影像可以透過深度學習變得完美。

以監督式學習為例。例如我們可以找人修上萬張照片,把未修的照片做為「輸入」,把修好的照片做為「輸出」,讓機器去學習,機器便可以學會如何修照片。若是用對抗式學習就更容易了,收集幾百張你覺得「好」的照片,讓鑑別者找出好照片的條件,讓生成者把不好的照片修得完美,去符合那些好的條件。

這樣的技術有很多應用。除了讓影像、影片變得更鮮豔漂亮,還可以用來修補有缺漏的圖片,也可以把圖片改變成畢卡索、梵谷、莫內的風格,甚至可以無中生有,產生真假難辨的人臉照片。

機器看得見了

機器能夠處理影像,不代表它能夠辨識影像。比如給一張貓的照片,它不見得知道是貓。在深度學習技術出現之前,莊永裕表示:「電腦視覺發展了50年都無法有突破性的進展。」運用深度學習之後,機器知道如何分析、辨識影像,然後做出進一步的決策,這才有了視覺。

機器有了視覺就能做很多事,例如自動車駕駛,機器能辨別人、車或其他物體,決定是否煞車或轉換方向;或是無人商店,機器能辨識人臉、商品,知道什麼人拿了什麼商品、放回什麼商品,最後結帳。

莊永裕認為,人工智慧的目的是幫助人類空出更多時間,從事更有創造力的活動。如果把人工智慧的發展分成五個層次:計算及記憶、感知、認知、創造力、智慧,今日的人工智慧大致都還停留在影像辨識、語音辨識等感知階段,如何朝上一個層次邁進,也是科學家未來努力的目標。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 82 times, 1 visits today)

分享至
views