人工智慧在影像處理與電腦視覺之應用

2018 年 10 月 05 日2022 年 01 月 05 日 intern 圖像辨識, 電腦視覺

分享至

講者／莊永裕（台大資工系教授兼主任）│彙整／《科學人》編輯團隊
轉載自2018.03.11〈科創講堂．AI人工智慧〉

如何看見世界

什麼叫做智慧？有人說是耳聰目明，在電腦視覺的領域，莊永裕說：「我們希望電腦能夠『目明』，可以跟人類一樣看到世界、理解世界。」

人類是如何看到世界的呢？人類有一雙眼睛去感知世界，當外界的光進入眼睛後，就由神經元傳送訊號到大腦，最後由大腦負責詮釋場景。科學家也模仿了這個架構，用攝影機取代眼睛，用演算法和電腦取代人腦，希望機器因此能看到世界，但還是很困難，因為機器看到的是一堆數字。

然而自從有了人工智慧之後，電腦視覺就有了重大突破。大致可以從兩個面向著手：從替代的眼睛著手，也就是要提高攝影機的能力，這方面的研究屬於「計算攝影學」；從替代的大腦著手，就要學會辨識、分析，進而做出決策，這屬於「電腦視覺」的範圍。

把不完美變得完美

所謂的攝影就是光經透鏡折射後，在底片上成像。傳統用的是化學底片，數位相機則把底片換成感光元件，兩者在成像上，都遵循物理學定律。不過由於攝影機有各種限制（別是手機相機），記錄到的影像是不完美的，為了克服這個不完美，就必須透過運算晶片，把影像訊號轉換成符合期待的照片。所以數位相機所得到的影像，莊永裕說：「很多地方都是硬體猜出來的。」這就是他在研究的「計算攝影學」，可以去雜訊、提高解析度，增進影像的品質。

除了相機本身，攝影者也可能造成不完美，例如手震；或是場景不符合人類的預期，像是陰天等。不過，不完美的影像可以透過深度學習變得完美。

以監督式學習為例。例如我們可以找人修上萬張照片，把未修的照片做為「輸入」，把修好的照片做為「輸出」，讓機器去學習，機器便可以學會如何修照片。若是用對抗式學習就更容易了，收集幾百張你覺得「好」的照片，讓鑑別者找出好照片的條件，讓生成者把不好的照片修得完美，去符合那些好的條件。

這樣的技術有很多應用。除了讓影像、影片變得更鮮豔漂亮，還可以用來修補有缺漏的圖片，也可以把圖片改變成畢卡索、梵谷、莫內的風格，甚至可以無中生有，產生真假難辨的人臉照片。

機器看得見了

機器能夠處理影像，不代表它能夠辨識影像。比如給一張貓的照片，它不見得知道是貓。在深度學習技術出現之前，莊永裕表示：「電腦視覺發展了50年都無法有突破性的進展。」運用深度學習之後，機器知道如何分析、辨識影像，然後做出進一步的決策，這才有了視覺。

機器有了視覺就能做很多事，例如自動車駕駛，機器能辨別人、車或其他物體，決定是否煞車或轉換方向；或是無人商店，機器能辨識人臉、商品，知道什麼人拿了什麼商品、放回什麼商品，最後結帳。

莊永裕認為，人工智慧的目的是幫助人類空出更多時間，從事更有創造力的活動。如果把人工智慧的發展分成五個層次：計算及記憶、感知、認知、創造力、智慧，今日的人工智慧大致都還停留在影像辨識、語音辨識等感知階段，如何朝上一個層次邁進，也是科學家未來努力的目標。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 224 times, 1 visits today)

分享至

views