由人工智慧到人需智慧

分享至

由人工智慧到人需智慧

撰文/林軒田(台大資訊工程學系教授、 Appier 沛星互動科技首席資料科學顧問)
經雜誌編修之版本刊登於《科學人》2019年6月第208期

「人工」智慧在中文中似乎不是個特別討喜的名詞,聽到這個詞的第一印象,可能是某種反自然的機械怪獸──即使當代人工智慧與這些電影幻想毫無關係,或可能像是某種化學合成的食品添加物──雖然科學告訴我們適當地使用這些添加物其實對我們的健康是有益的。在歷史上的兩次寒冬之後,當代人工智慧伴隨著巨量資料的成長、高速硬體運算的發展、以及機器學習技術的成熟與深化,帶起了一波新興的應用革命,讓人工智慧不再是科幻小說中的想像,也不再是教科書中的紙上談兵,而能隨著數位科技的發展,解決使用者與企業切身的需求。或者,更明確的說,當代人工智慧,其實就是「人需」智慧。

在人需智慧的想像下,我們會發現人們所優先需要的,也許不是全知全能的人工智慧:我們不需要可以回答「先有雞還是先有蛋」這種腦筋急轉彎問題的家用語音對話系統,但我們需要它能正確地告訴我們今天的天氣如何;我們會發現人們所優先需要的,也許不是永不失誤的人工智慧:在機場服務的自動通關系統,可能因為錯誤臉部辨識,讓我們無法順利通關,但只要配合適當的流程協助及風險控管,這個系統還是可以為大多數的人提供便捷的服務;我們會發現人們所優先需要的,也許不是絕對精準的人工智慧:在我常去的電子商務網站上的商品推薦系統也許永遠都沒辦法知道我最想買的下一樣東西是什麼(大部份的時候,我自己都不知道),但只要能達到「雖不中亦不遠矣」,它還是能協助大部份的使用者擁有更好的購物體驗,進而幫助電子商務公司提昇獲利。

舉例來說,在我的「智慧」型手機上,我覺得最聰明的一隻應用程式服務,是一個選擇紅葡萄酒的輔助系統,只要拿鏡頭向著酒標一照,它就會辨識出這隻酒的相關背景,並列出平均的價位與使用者評分給我參考。這個系統離全知全能十分遙遠,只要從紅酒換成清酒,系統就沒辦法給我任何建議了;這個系統也不是永不失誤,總有那麼一兩次,它在某些資訊不大明確的酒標上沒辦法正確的辨識;這個系統更非絕對精準,至少到目前為止,它沒辦法準確地告訴我哪瓶葡萄酒會比較滿足我今晚的心情。但當我站在超市的酒架前面,苦惱著不知道如何選酒的時候,這個輔助系統總能讓我覺得「啊!它真聰明,它真好用」。其實到頭來,對於使用者來說,我們不在乎這個系統像不像個真正的紅酒專家,我們也不在乎這個系統裡到底有多深多困難的技術,我們只在乎這個系統好不好用,「好用的就是智慧」。

雖然當代人工智慧就是人需智慧,但「人需」這個切入點,倒不是當代才發展出來的。其實早在四零年代,人工智慧與電腦科學的祖師爺圖靈所開發出來的德軍密碼解碼器(電影「模仿遊戲」中的故事主軸),就已「智慧」地解決了當時(戰爭)的「人需」。從那之後,人工智慧的技術持續地發展,試圖滿足各式不同的人需。但發展並不是一帆風順的,舉例來說,圖靈當時破解密碼所用的技術,是試圖在各種不同密碼組合中搜尋出關鍵的組合,這樣的技術在八零年代受到嚴重的質疑,因為人們認為以當時的技術,充其量只能在一些小規模的「玩具」問題上得到成果,無法負荷現實世界中人們所需要的複雜決策組合。當技術與人需產生落差的時候,就造成了歷史上人工智慧的所謂「寒冬」,因為人需無法被滿足,而讓人們對技術失去了信心,進而讓這些技術得不到充足的資源繼續衝刺。

以歷史為鏡,當代人工智慧與先前最大的不同,除了技術上的大幅進化,而能駕馭巨量資料帶來的力量外,人們也學會了給予人工智慧合理而適度的期待,由「可行」的人需開始,而非一步登天地想要讓電腦挑戰所有的人需。將研究與開發聚焦在這些可行的人需的時候,就會冒出越來越多的成功案例,形成信心的正循環,讓技術能得到更多的資源,再一步一步地面對新的技術挑戰。

舉例來說,我在寫作這篇文章的當下,也同時聽著某個數位音樂串流的服務,它能夠以我喜歡的歌曲為基礎,自動地生成一個專屬於我的「數位電台」,連續地將我可能會喜歡的歌曲推送播放出來。如果您有讀過我在 2012 年時在《科學人》所寫的〈從資料之海撈出冠軍杯〉一文,那麼您可能會憶起:當年我們台灣大學的隊伍獲得世界冠軍的比賽題目,正是要準確地預測使用者是否會喜歡某首歌曲。不過要生成一個符合人需的「數位電台」,預測使用者的喜好,只是第一步較為「可行」的技術,而一個好的電台,可能還得確保歌曲的曲風有一定的連續性,不會一下子就從「派對動物」跳到「知足」—即使這兩首都是五月天的創作,我也都非常喜歡;又或者得搞清楚同樣「最近比較煩」這首歌,在不同歌手不同專輯中多次重覆出現—如果在電台裡連續地播出這「幾」首我所喜歡的歌,大概算不上什麼符合人需的使用者體驗。對歌曲曲風的智慧分析、對重覆歌曲的自動偵測,都是人需智慧中所謂「新的技術挑戰」很好的例子。

而在這幾年人需智慧的新技術挑戰中,我覺得有三個發展方向,是非常值得關注的。第一是關於常識與創造力的技術。「常識」與「創造力」,是兩項往往被人類引以自豪,認為自己獨有的技能。對於電腦來說,這兩項技能的確都有一定的難度,「常識」的難度,在於它的難以表述,亦難以計算;「創造力」的難度,則在於它難以控制,亦難以衡量優劣。但在許多的應用中,人類會期待電腦具有一定的常識與創造力;或者具體來說,如果電腦沒有足夠的常識,可能會被人類「看不起」,而有了常識之後,若能進一步地顯現出創造力,那更能讓電腦贏得人們的尊敬。

2018 年的時候,我們在Appier沛星互動科技的人工智慧團隊,與時任清華大學的孫民教授(現任Appier沛星互動科技的首席人工智慧科學家)合作,開發了一項充滿常識與創造力的技術。我們試圖教會電腦,什麼是美的穿搭,而又如何設計出美的穿搭。我們讓電腦分析網路上大量的穿搭建議圖片,把其中跟「美麗」有關的因子萃取出來,從中自動歸納出各種不同的服裝在「美麗因子空間」的吻合度,透過我們所設計的歸納模型與大眾所提供的穿搭建議圖片,機器學到了「美麗」這個「只可意會,不可言傳」的常識;而我們更進一步的將這個模型,與一項名為「生成對抗」的新技術結合起來,賦予了機器在美學上的創造力。在生成對抗的技術中,我們設計了一個「生成者」,它可以看遍各式各樣的服裝後,學會自動設計服裝的技能,快速地發想各式的新裝,好像一位「點子王」一樣;而剛才那個懂得「美麗」的模型,則成為一個「批判者」,可以用來決定「生成者」天馬行空的想像是否與大眾美學相去過遠,給出「好點子」與「壞點子」的回饋。「批判者」的回饋會幫助「生成者」創造出越來越符合大眾美學的穿搭,而終能實現一個創造力與常識兼具的服裝設計師輔助系統。

這項技術的開發中間其實面臨了許多挑戰。一開始的時候,我們試圖把「影像翻譯」的技術用在這個問題上,這樣的技術試著讓機器學習某個一對一的「相似關係」,例如用許多同色的包包與鞋子的組合,來讓機器學會「顏色」上的相似關係,學會了之後,就可以運用這個關係以及生成的技術把一張白色包包的照片「翻譯」成白色鞋子的照片,類似的技術也可以用來把我們的臉「翻譯」成我們十年後的模樣。但影像翻譯的技術用在「美麗」這個問題上的效果非常不好,生成出來的圖片看起來一點也不搭配,深入分析原因後,我們發現「美麗搭配」其實是個一對多的關係,同一個包包可能可以搭配很多件質感不盡相同的衣服。如果用一對一關係來描述,最後機器會被迫把這些衣服「混」成一件來看,造出一件混有各種質感的衣服,看起來像個「四不像」,自然一點也不搭配。西諺有云:「駱駝是委員會所創造的馬」,非常貼切地描述了這種狀況。發現了這個問題之後,我們設計了全新的歸納並定義「美麗因子空間」的方式,容許用一對多的關係,來描述各組不同的美麗搭配,最終才能讓電腦創造出合宜的穿搭。

第二個發展方向,是關於互動性的技術。符合人需的智慧,應當要「與人共舞」,讓電腦能和人類溝通無礙,正如我們與其他人類溝通一樣。2018 年的時候,我在台大資訊系的計算學習實驗室與宏達電子的醫療事業部 DeepQ 團隊合作,開發了一項讓「電腦醫生」與人類患者互動的技術。我們試圖教會電腦醫生「問診」的邏輯,來快速地鎖定患者的症狀,問出關鍵的症狀問題,進而達到準確的診斷。在這項技術中,我們將增強式學習的模型(這也是 AlphaGo 電腦圍棋系統的重要模型之一)延伸,讓電腦醫生反覆練習各種不同的問診方式,並對這些方式所問到的症狀及最後的診斷準確性給予回饋,來讓電腦最後能增強到僅需數個關鍵問題即可準確的診斷患者的疾病。這樣能與人互動的技術,讓電腦能贏得人們的喜愛,更貼進人們的需求。

第三個發展方向,則是關於可解釋性的技術。人類對於不了解的事物,往往會有所恐懼,這時若有著合理的解釋,協助人們了解背後的道理,便可以大大地提昇人們的接受度。舉例來說,我們也許不了解汽車內的每項細節,但路上的駕駛們大致都了解車子的機械如何運作,而車子的安全系統又如何保護我們,才讓這些駕駛們能安心的使用汽車。同樣的,當機器已能學會「美麗」的時候,它能否跟我們解釋哪部份是它看到美麗之處?又當機器已能學會「問診」的時候,它能否跟我們解釋它問這個問題的原因?這些讓人工智慧變得更具解釋的技術,將進一步讓電腦能贏得人們的信任,更願意將需求交給電腦來協助解決。

這一波的人工智慧革命,我們看到可行的人類需求,一步一步地被當代以巨量資料和機器學習為基礎的技術滿足,而常識與創造力、互動性與可解釋性的技術,將持續地讓電腦贏得人們的尊敬、喜愛和信任。「科技始終來自於人性」,我相信人工/人需智慧將持續地滿足更多的人類需求,就像自來水、電力和網際網路一樣,真正成為我們生活中不可或缺的一部份。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 128 times, 1 visits today)

分享至
views