人工智慧重新定義人和資訊連結的方式
講者/馬維英(字節跳動公司副總裁兼人工智能實驗室負責人)|彙整/蘇建翰
整理自2018.12.16〈CASE探索系列講座第20期.人工智能賦能全球創作與交流平台〉
第四次工業革命
近幾年來以人工智慧為代表的第四次工業革命一直是科技界熱門的話題。現在的機器人可以進行精細的製造作業,某種程度上已經替代了部分傳統上必須經過人類加工的過程;AI在重複的、大範圍蒐集分析資料上也有更好的表現,因此機器會取代掉部分的人工是未來的趨勢。
在產業面上,相較於傳統製造業每多製造一個產品,必定需要投入一定的成本,科技公司如果掌握了數據、技術、人才技術,運作上是零邊際成本的,例如搜尋引擎就是一個很好的例子,開發出一個搜尋引擎之後,用戶的增加基本上不會帶來成本上的負擔,這種模式使得高科技產業的發展更有優勢,也代表AI的出現將會改寫我們的經濟秩序,讓社會進入一個新的時代。
這次AI嘉年華邀請到了曾在微軟亞洲研究院服務十六年,目前擔任字節跳動公司副總裁與人工智能實驗室負責人的馬維英博士來為我們主講〈人工智能賦能全球創作與交流平台〉,聊聊AI技術的發展和趨勢以及如何透過AI來連接人和資訊。
AI革命同時也是軟體的革命
過去三十年的創新乃至現在的AI得以發展,首先要歸功於這段時間在資料上的數位化,當我們開始用數位而非類比的方式來表達這個世界,電腦就能開始幫上我們的忙。比如說以前大家都用底片拍照,拍完的照片就只能沖洗出來保存,後來數位相機出現了,我們開始能夠用數據來儲存這些影像,拍照結果不滿意想要修圖也變得可行。
現在我們已經不能滿足於僅僅儲存紀錄資訊,也希望電腦能更進一步的去理解這些數位化資訊的意涵,有了數位化後的大數據,再伴隨著處理器計算能力提升而來的大計算,讓近十年AI的發展可說是在一個正循環之上。AI成為幫助我們去邁向下一個階段的重要手段,在數位記錄以外,進一步去理解以及表達,最後邁向一個可以智慧生活、智慧工作的世界。
AI革命同時也是軟體的革命,相較於傳統的軟體必須由工程師一行行撰寫,現在的軟體逐漸轉為一個個的模型,我們只需要去定義的是這些模型的輸入與輸出,再讓機器自己去學習輸入與輸出之間轉換的方程式,這些方程式要讓人類去分析太複雜了,但是機器可以自行去學習,調整參數,得到我們所想要的模型
打開深度學習的黑箱
對許多人來說機器學習就像一個黑箱,那這個黑箱裡面裝了什麼呢?最簡單的例子便是一個用於分類貓狗圖片的神經網路,神經網路由許多層,每一層皆為多個神經元的結構組成。雖然很難意識到,但是在看到貓/狗的短短一瞬間,我們的大腦就已經透過各種不同的因素,來判斷眼前的動物究竟是貓還是狗了,我們希望神經網路也能夠學習這種數位化表達的輸入與語意化表達的輸出之間的轉換。
每一個神經元在貓和狗得各種特徵組合起來的多維空間裡其實就是一道超平面,在空間中一刀分出兩個子空間。把所有的神經元綜合起來就是把空間分割成很多不同的子空間,每個區域都有自己的特色和編碼。而除了神經元切割空間以外,不同的層之間就是重新去映射空間中的位置,把零散的子空間進行不同方式的歸因統整。這些切割和統整的工作讓人類來做的話是非常困難的,畢竟我們很難找到所有能夠拿來幫助分類貓狗的特徵,這些特徵要怎麼用也是一大難題,因此要怎麼切怎麼割我們就讓機器負責去學好學滿,黑箱裡其實沒有其他,就住了一個努力學習的機器。
從分類的問題應該可以體會到,機器學習其實是一個非常通用、直接從數據去做表達的數學模型。以前要分類貓狗,要想辦法找貓狗各自具有的特徵向量,現在我們不再需要依賴特徵工程向量分析的工作了,直接透過輸入到輸出,端到端的方式去學習如何做轉換、編碼就好。這種端到端的方式有一個很特殊的性質,就是越多的數據學習出來的表達方式越好,準確度越高。因此,數據是發展AI,幫助模型最佳化的燃料,哪家公司掌握了數據,就掌握了優勢。
值得關注的技術
自然語言理解在人工智慧這個領域人是比較具有挑戰性的議題之一,難的地方在於自然語言包含很多的常識,這種東西是很難去表達出來,也有很多例外,隨著時間改變還會有過時的問題所以難以維護。比較能有所突破的方法多必須結合統計還有符號邏輯,講者在這邊舉了一個他在微軟研究院時期的作品為例,因為人類的語言中有主詞、名詞、受詞等觀念和字詞關係,因此針對這個問題,在那個模型裡他們首先建立知識圖譜,建立起了句子和電腦能夠理解的結構化表達之間的轉換方式。
針對未來AI技術的發展,講者也鼓勵在場的聽眾關注兩個議題,其中一個就是和自然語言有關的BERT(Bidirectional Encoder Representations from Transformers),這個模型以相對動態的方式去學習字詞的向量表達,是個令人驚豔的方式。另外一個值得關注的議題是AI晶片,講者特別舉出Tianqi Chen提出的TVM做為例子,相對於傳統的「system for machine learning」,利用人工去想辦法優化硬體系統讓機器學習運作更有效率,TVM反過來提出了「machine learning for system」的想法,透過機器學習去改善硬體,未來的晶片或許會朝向軟體定義的晶片發展,半導體產業對於台灣來說很重要,因此這是一個值得關注的方向。
人工智慧如何連接人和資訊
網路已經成為我們生活中不可或缺的部分,Google掌握了傳統搜尋引擎的龍頭地位,臉書則是社群媒體的領導者,現在手機讓我們擁有大量的碎片化時間,AI也正在快速發展,隨之而來也有新的發展契機。一如印刷術的發明讓書本成為知識的媒介,PC互聯網時代裡數位化資料庫讓搜尋引擎成為接觸資訊的入口,來到了移動互聯網時代,技術和訊息媒介的關係是什麼也必須要重新去思考的問題。
講者認為他所服務的公司—字節跳動—正是在移動互聯網、社交性媒體、個人化推薦的這股浪潮中找到了一個新的切入點。要想連接人與資訊,他們的目標不單單是像傳統入口網站一樣作為連接器,而是AI賦能下的創作平台。 在這個平台裡,每個人的手機都可以拍照、錄音錄影、寫作,就是最好的創作工具;此外,也希望能讓讀者跟作者可以交流,作者可以接收到讀者的反映;個人化的推薦內容也是目標之一,千人千面,就像個人專屬的報紙。如何朝這個目標前進,接下來就以兩個字節跳動推出熱門的產品做為例子。
個性化的搜尋引擎—以今日頭條為例
今日頭條基本上是個搜尋引擎,但是相較傳統利用協同過濾的方式,今日頭條建立了一個評分系統,為每個用戶和內容之間評分。透過用戶點擊、停留時間、評論、分享轉發、追蹤等等行為來測量用戶對推薦內容的滿意度之後,再透過機器學習去訓練,最後為每個用戶都提供專屬的、個人化的推薦排序。
在這個基礎之上,接下來,他們的下一個目標,一如愛因斯坦希望能夠透過一個統一的理論來解釋這個世界一樣,他們希望能夠發展出一個可以對各種不同形式的媒體,例如圖片、音樂、影片、文本等等,都能夠進行語意表達的模型,進而在應用上有更好的表現。
讓創作變得簡單—以抖音為例
抖音是一個讓大家能夠上傳十五秒以內的影片,用戶產生內容(user generated content,UGC)的影音平台,這個平台特別的地方在於,透過AI提供許多的創作協助,讓手機錄製影片的這個過程變得更加輕鬆有趣。例如在偵測人體動作技術下發展出來的尬舞機、切紅包變成為熱門的娛樂活動;基於圖像辨識、圖像生成技術下發展出來的變臉、變換背景或表情等等功能,也都讓創作變的更簡單。在AI的幫助之下,有了手機在手每個人都可以搖身一變成為創作者。
目前抖音已經達到兩億活躍用戶、每天有五千萬個短影片上傳的規模,擁有大量的數據,一如前文所提到的,這些都是發展AI最需要的燃料。然而,大量數據的到來也伴隨著一些挑戰,UGC的平台不可避免的就是內容都有可能被用戶上傳,因此內容審核、版權問題等等都是必須去解決的,此外要提供更好的服務,自動的為內容分類、預測流行程度等也都是需要考慮的方向。對於這些
問題,抖音用上了幾乎現行所有與電腦視覺相關的技術,再配合著審核員和AI的合作,讓內容的品質更優化。
傳統的搜尋引擎只扮演連結組織的工作,AI帶來了新的發展機會,除了一般我們認為AI具有優勢的處理、分析、挖掘巨量的數據等面向以外,現在也可以用來輔助創作、輔助消費。AI的發展為人和資訊的連結帶來許多延伸的價值,例如廣告、電商、教育、醫療、公益尋人,也能夠建立一個促進創作和交流的平台。這是一個仍有許多可以發展技術研究創新的領域,在AI的幫助之下,我們可以期待未來的世界,是一個智慧生活、智慧工作的世界。
(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)