大江東流擋不住:迎接人工智慧新時代
講者/陳銘憲(台大電機系教授)|彙整/葉珊瑀
整理自2018.10.20〈CASE探索系列講座第20期.鑒往知來:由茫茫過往數據中,淘出新知〉
資訊科學的典範轉移
從 1991 年全球資訊網(World Wide Web)談起資訊科學的發展,當時網路尚未非常普及,多屬工程師的使用,而後搜尋引擎發展,Google 成為龍頭。2006 亞馬遜推出雲端服務,2007 iPhone 誕生,人們得以在不同時空存取其他裝置的資料。社群網絡的發展,改變人們交友模式,接踵而來的是大量資料,大數據時代來臨,引領我們走向機器學習的新紀元。
「人工智慧的發展如大江東流擋不住,只有如何因應及善用,而非單純接不接受的議題。」陳教授形容這一連串的科技發展,均有其邏輯和脈絡可循。人們無法排拒它的到來,應以此改善人類的生活。CPU 的速度日益增快,價格日漸調降,每 12-18 月就有翻倍的成長,世稱摩爾定律,近日GPU使用可望在摩爾定律達極限後提供足夠的計算能力;網路頻寬以尾數加零進位的趨勢成長;儲存器容量上升而價格下降。這些發展意味計量能力成長且資訊量快速累積。然而人類感官的感知能力(視覺、聽覺)有限,接受應用的反應時間幾乎不變。隨著計算能力增加,電腦在人類可以接受的反應時間內,能提供更多應用服務。新應用服務主要朝個人化、智慧化發展。此即機器學習、資料分析可發揮之處。
1980 年代已有傳統邏輯論證、機器學習、專家系統等人工智慧,當時發展因其軟硬體條件及資料不足,進入寒冬期。現今 AI 以電腦程式配合大數據、高效能計算,以機器學習趨近人類智慧,在電腦視覺、自然語言處理等發展許多。AI 有 Strong AI 和 Weak AI 之分,前者指電腦同人類具有羨慕、激動、沮喪等情緒,後者指推理、記憶的能力,也是目前學界研究主力。
大數據時代來臨
大數據是「迅速累積的大量異質資料」,具有大量(volume)、累積快(velocity)、多樣(variety)的 3V 特質,藉此協助決策、洞察細節、以及流程優化。
Lori Lewis (2018) 以一分鐘為單位,估算網路時代的海量資訊:三百多萬的 Google 搜尋、四百多萬的 YouTube 瀏覽量⋯⋯驚人統計背後,是網路發展前難以想像的資料量。Mary Meeker (2018) 分析全球網路使用現況,2007 年網路使用者僅佔 24% 全球人口,如今已達 49%,現約為 36 億人,每人花在社群媒體的時間一天平均約 6 小時,超過一半是在行動裝置上。這樣的時代,創造了許多成功企業案例,如 Google、Facebook、uber 等,他們的共同點是「關鍵、創新、大數據」。
資料探勘:自茫茫數據尋找解答,從操作到應用
資料探勘步驟如下:取得資料後,須決定目標,否則空有數據而不知方向將無用武之地。接著清洗資料,剔除有問題的數據,處理遺漏值,再決定資料單位、選擇相關屬性、正式探勘、輸出格式、解讀結果。大數據看似強大,卻不是萬能仙丹。資料科學是根據資料所做的預測,若數據與研究議題無關,即使有海量的資料、高超的技術,也無從可解,切莫有此迷思。資料的品質也是重要的,若數量不夠,可能代表性不足,過度遷就既有數據。
資料探勘方法為一大學問,陳教授從幾種常見方法,帶領我們一窺資料探勘的藝術。它們可大致分為相關性、分類性、叢集性等等:相關性在消費行為上可研究哪些商品常常一起被採購,若從資料看出牛奶與麵包常常一起出現在眾多顧客的消費記錄中,下一次就可以考慮對購買牛奶的消費者推銷麵包;分類性以不同的屬性預測事件,例如使用 Decision Tree,從報稅者的各種屬性,分析何者與逃漏稅最為相關,找出最有預測力的屬性,建立模型。又或者用類神經網路,將所有資料編碼為0與1,從 input layer 輸入資料,經過 hidden layer,於 output layer 產出結果,讓電腦從結果正確與否,回頭修正模型中參數的權重。層數極多的類神經網路即為目前很受重視的深度學習(Deep Learning),然而也有不易解釋成果的缺點。叢集性讓資料散佈於一個多維度空間,判斷哪些資料類型相近。
在實務上,不同方法可能結合使用,以資料分析比較出異於往常的使用模式,如刷卡紀錄的異常偵測、網路侵入偵測。將相關性與社會網路結合,預設朋友間會互相影響,消費者購買某物後,將廣告投放給其朋友,可能提高其購買意願。
運用資料探勘的技巧,能夠使現有產業價值提升、創造新興產業。從分析潛在顧客、廣告投放、分析店址選擇,到即時競價(Real-time Bidding)、亞馬遜家庭小精靈⋯⋯資料探勘在商業上的結合不斷為世界擦出新的火花,透過科技讓我們看見生活的更多可能性。
新 AI 的崛起不會瞬眼即逝,而將持續發展。臺灣位於這個時代的轉捩點,有優良的工程師,而學界也有良好的AI研發能量,有軟硬體整合的能力,又有對新科技的高接受度與包容度。把握自身優勢,必能在新的科技發展中,找到切入點,建立競爭利基。
(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)