人臉辨識的困難與突破(上)
機器可有人類的視覺能力嗎?以單張影像,機器想要和人類的精確視覺相提並論或許還早。但機器的快速與大量能力,已經遠遠超越人類了。在茫茫的網路相片海中,機器可以幫你找到您的親人,只要您給它適當的特徵!
撰文/楊家輝(國立成功大學電腦通信工程研究所特聘教授)、黃世明、吳思樺
轉載自《科學月刊》2013年2月第518期
早期有關機器智慧應從人工智慧發展開始,英國的數學家圖林(Turing)於1950 年提出如何判斷機器有無智慧,這就是有名的圖林測驗。如果機器能通過一個人類質詢者的詢問,讓他信以為這個機器是一個真正的人,那麼這個機器就可以算是有智慧了。約翰麥卡西(John McCarthy)在1956 年提出人工智慧概念,「人工智慧」,也就是「人類賦予機器智慧」,其重點是要如何設計實用且能自行解決問題的機器,並具有自我學習的能力。就像人類一樣,在犯錯中學習,不斷記取教訓,直到不再犯錯。所以,人工智慧的精髓也是在錯誤中學習,直到機器沒有錯誤發生或降低錯誤發生的機率。「人工智慧」的發展曾經遭遇瓶頸,所以,最近又以「機器學習」再度出發。機器學習為人類給予機器一些判斷的準則及告知調整準則參數的方法,以達到智慧的判斷。
為了證明機器可以有人類的智慧表現,最直接的方式就是比賽。John McCarthy 舉辦電腦西洋棋大賽,讓機器跟人類高手一決勝負。IBM 也在1997 年提出深藍計畫,也就是有一部名為「深藍」的電腦和當時的世界西洋棋王比賽。「深藍」可以模擬及思考人類下棋的模式,最後打敗了西洋棋王。不僅如此,IBM 最近又一新作「華生」電腦,「華生」可以聽懂自然語言也可以回答任何問題。而且「華生」在美國益智電視節目Jeopardy 中,戰勝二位益智冠軍。
在生活上也有許多應用,2012 年台灣機場開始建置自動查驗通關系統(eGate),旅客只要先在機場申請註冊並按指紋及人臉拍照,就可以不需人力自動通關。如果旅客要出境,在出境的第一道關卡為將護照放在讀卡機上進行身分掃瞄辨識;第二道關卡則是生物特徵辨識,由電腦自動計算比對臉部特徵及眼球特徵相似度,只有符合才可通關。若臉部辨識失敗,則會再以指紋辨識做進一步確認。接下來,本文將深入探討機器學習於人臉辨識的技術與發展。
●何謂人臉辨識
人臉辨識在不同應用上有不同性質的分類,如圖一所示,可分為以下幾類:
人臉偵測(Face Detection):從影像中找出人臉位置是很重要的一項工作,因為要正確辨識人臉資訊之前,必須先有效且精準的定位出人臉在複雜環境背景下的位置。若不能先精準的進行人臉偵測,辨識率再高的系統將無法正常運作。
人臉識別(Face Identification):從一群已知的使用者中,根據偵測到的人臉資訊選擇一位最像的人,這種情況是一種N對一的問題。人臉識別可以進一步的再分成兩類,一種為開放集的人臉識別,一種為密閉集的人臉識別,前者使用者的範圍是沒有限制的,可以為任何人,後者使用者的範圍則限定為已知的一群人。舉例來說,人臉識別可以應用在照片分類上,或是將監視器拍到的畫面來抓小偷等等。
人臉驗證( Face Verification Authentication):根據人臉資訊與其所宣稱的身份,來驗證使用者是否真如其人,這是二選一的問題。舉例來說,人臉驗證可以應用在門禁系統的身份確認或最近在智慧型手機上有別於傳統設置PIN碼的人臉解鎖方式。
性別辨認(Gender Estimation):根據人臉資訊來判斷男性或女性使用者。這個問題其實不簡單,雖然只有兩種結果,但是,每個類別的分佈都很廣。在應用上,舉例來說,學生宿舍的門禁系統或是統計某幾天在一家商店的女性/ 男性顧客人數等等,都屬於性別辨識的應用範圍。
年齡估測(Age Estimation):根據人臉資訊來估測使用者的年齡。年齡的估測不是一個容易從人臉外觀就可判斷的問題。因為每個人的人臉外觀會因為很多因素而有不同的變化,會因為環境、種族等因素而不同。而且每個類別的分佈也很廣,尤其不容易收集資料。舉例來說,估測使用者的年齡可以應用在提供節目分級服務上。
表情辨識(Facial Expression Recognition):根據人臉資訊來辨識使用者的情緒表現。其中表情可大致分為生氣、厭惡、害怕、高興、悲傷、驚訝等六種情緒表現。在應用上,舉例來說,現在的高科技相機可以依據使用者的情緒來進行動作,例如當使用者微笑時,相機就會自動拍照。
●人臉辨識的困難
人臉辨識系統所需的人臉資訊可能是從相機拍下的照片,也可能是攝影機,亦或是隨處可見的監視器所拍攝到的視訊影像。所以在人臉辨識會受到周圍環境的極大影響,另外,可能也會因人為影響,而造成辨識上的困難,進而影響人臉辨識的準確性。以下介紹幾種較為常見的影響因素,如圖二所示。
燈光或亮度變化:燈光或亮度的影響是人臉辨識在日常生活中一定會遭遇到的環境因素。白天和晚上的亮度不同、室內與室外的燈光變化、不同場所有不同燈光佈置等等,這些因素都會造成拍攝裝置所取得的人臉影像資訊每次都有不同的燈光或亮度變化。一般來說,太亮或太暗都會造成人臉影像資訊有所失真,使得取得影像與原始人臉有所差異,而導致人臉辨識系統發生誤判。
表情變化:表情變化也是在人臉辨識問題上非常重要的議題,因為人類是有感情的動物,無論何時何地都一定會有情緒的表現。所以,就同一個人而言,拍攝裝置所取得的人臉影像資訊每次都會有不同的人臉表情資訊。甚至在說話的時候,同一個人也會有不同的人臉影像資訊。也有可能會特意做出鬼臉,因而造成人臉五官資訊有極誇張的變形,因此,更增加了人臉辨識的困難。
姿勢變化:人臉辨識一般是以正臉影像資訊較容易辨識,因為正臉影像包含清楚的五官資訊,這樣比較容易區別人與人之間的不同。但是,要取得正臉影像資訊是不太容易的。可能是拍攝裝置架設位置因素,也可能是使用者故意閃避拍攝裝置,導致無法取得使用者的正臉影像資訊。因此,只能取得有角度變化的人臉影像資訊,或甚至更糟糕的人臉影像資訊,如此將造成人臉辨識的困難。
年齡變化:「女大十八變」剛好可以用來說明年齡變化對人臉影像資訊所造成的影響。所以,可能現在走在路上,你已經認不出他是當年的如花了。不僅如此,生活環境以及生活型態也會對人臉影像資訊造成影響。例如,如果經常從事戶外活動的人,一般皮膚會比較黑,或者有保養皮膚習慣的人或天生白肉底的人,皮膚會相對比較白。這些在歲月或人為影響在人臉上留下的痕跡,也增加了人臉辨識困難之處。
遮掩或遮蔽問題:日常生活中穿戴配件是很常見的,例如,為了防止陽光刺眼,會戴太陽眼鏡;為了防止吸入髒空氣,會戴口罩;因為天氣太冷為了保暖,會戴圍巾。人臉五官資訊會因為穿戴這些配件而被遮蔽,如戴眼鏡時眼睛被遮住、戴口罩時嘴巴被遮住,因此,這些因遮蔽而造成人臉五官資訊的缺少將對人臉辨識系統造成影響。不僅如此,有時我們也會有直接用手遮掩口鼻或是眼睛的動作。這些不完整的人臉影像資訊,也是人臉辨識系統要面臨的困難。
化妝或整形問題:愛美是人的天性,我們會把自己打扮的漂漂亮亮,可以讓別人感覺自己變漂亮而且有精神,也可增加自信心。不僅如此,在某些場合,打扮自己是出於禮儀。另外,整形的風氣也愈來愈盛行,愈來愈多人利用整形來讓自己變美。所以,化妝與整形會改變外表,而造成人臉影像資訊的多樣性,也將影響人臉辨識系統的效能。
低解析度影像問題:現在大街小巷或一些賣場都到處可見監視器,但是,這些監視器也許因為距離的關係導致所拍攝到的人臉影像解析度都很小。因此,使用如此少資訊的人臉影像而要得到準確的辨識率是非常困難的,因為這些低解析度影像中缺少人臉辨識所需的重要資訊。(待續)
(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)