【人物專訪】自然語言處理的靈活應用家——專訪馬偉雲
●2019 AI嘉年華 馬偉雲老師:「機器能跟我們天南地北聊天嗎?」講座資訊
採訪、撰文|廖梓甯
聊天機器人,肯定是大家都不陌生的詞彙。你使用過嗎?不論用來訂房訂車票或是了解資訊,都是蠻好的幫手。然而,你有想過除了收集資訊外,聊天機器人也可以和你「正常聊天」,就像人與人的聊天互動,說南道北,分享生活趣事也可以彼此安慰。若有這樣的聊天機器人,我們就不會常常感到寂寞了吧?但,這真的可以實現嗎?讓我們來探索聊天機器人背後的重要機制—自然語言處理(Natural Language Processing)及該領域的翹楚—馬偉雲老師。
●與自然語言相遇
大學及碩士班唸資工的馬偉雲老師,原先是做語音辨識,著重在訊號處理方面,以數學模型結合程式,做音訊信號分析的研究。因緣際會之下,因著專題的緣故接觸到自然語言處理,開始著迷於文字及語言的奧秘。語言,作為人類溝通工具及思維外化的展現,象徵著人類智慧精華與文化背景的差別。語言不僅能夠直觀地分析,也可以隨時觀察並且有即時回饋便於分析的特性,這些特徵使得馬偉雲老師對自然語言處理著迷,甚至向中研院詞庫小組購買文字語料,希望以此建立語言模型提升語音辨識的效能。有趣的是, 馬偉雲老師碩士畢業後,即到中研院詞庫小組擔任研究助理,跟隨陳克健老師在自然語言處理中繼續專研,之後又赴美深造,在哥倫比亞大學攻讀博士,多年後的馬偉雲老師,不僅在自然語言處理中成為佼佼者,甚至學成歸國後,又回到中研院詞庫小組,擔任詞庫小組的主持人。
自然語言處理的方向與應用很多,使用的方法包括機器學習與語言結構分析等等。馬偉雲老師認為大多自然語言處理實驗室更著重於機器學習的數學模型建立,特別是深度學習各個平台的興起,使得數學模型的設計與實踐變得非常容易且快速,這也使得語言結構分析或是知識表達框架的研究投入相對來說就越來越少了。然而,在自然語言處理中,語言本身的分析及知識表達相當重要,對語言有一定的瞭解及熱忱,其實可以跟機器學習或深度學習相輔相成,在建立數學模型時,若將語言和知識的特性、內容與洞見(insight)考慮進來,不僅有學術突破的機會,在實際應用中也更能整合已經存在的專業知識(domain knowledge) 。
●中研院詞庫小組
博士畢業後的馬偉雲老師,回台接任詞庫小組的主持人,領導團隊發展出許多自然語言處理的資源與應用系統,包括中文語義分析工具如:中文斷詞暨實體辨識系統(CkipTagger)、中文剖析系統、CKIP CoreNLP;知識表達系統如:大廣義知網、康熙字典知識本體;應用系統如:輿情分析系統、聊天機器人(詞庫小妍)等等。每個研究計畫,馬偉雲老師不僅只是發表論文,而是將實際的應用程式開源或是對外展示,將理論化為實際可以使用的工具,造福許多企業、公家單位、以及一般大眾。以中文語義分析工具為例,中文句子為詞彙組成,人類能夠輕鬆的斷詞並且辨別語意,但是機器需要先將每個單詞拆解,辨識其語義,並且辨認出在整句話中所扮演的語法角色以及語義功能,才能重組出整個句子的意思。這些基礎的中文語義分析工具不僅在多個公家單位中使用,也成為許多學術研究者和企業研發的基本工具,讓自然語言處理的研究如虎添翼。
●詞庫小妍誕生
近兩年,馬偉雲老師也做了許多聊天機器人的專案,其中最讓馬老師興奮的莫過於在LINE發佈的「詞庫小妍」,可說是這些年來集大成的聊天機器人。詞庫小妍是一款不限領域、能夠陪你天南地北聊天的聊天機器人,基於學術目的,於2019年10月正式在LINE平台上對外開放,只要加入好友(官方帳號為@359mcmgs),就可以在自己的手機上跟小妍聊天。詞庫小妍包含了各種聊天模式可供切換且陸續新增中,目前有新聞嘴砲、文青女孩、與歌對話、人物輿情分析、美妝達人等對話模式。使用者可依照心情與不同模式的小妍聊天,小妍會依據不同模式中的設計來回答你或與你對話,紓解了許多寂寞,也讓我們查找資訊更加便捷。雖然無法與真人對話相比擬,但在神經網絡與語意分析結合的技術下,小妍的聊天技能已經超過許多市面上看到的聊天機器人了。
●自然語言處理的未來
語言的博大精深及隨時間變化的特性,使得自然語言處理研究範圍非常廣泛。當前馬偉雲老師著重在兩個前瞻的研究主題:知識與常識的結合以及自動標記訓練資料的技術。先從知識與常識的結合說起,對於機器來說,知識的理解與抓取比起常識是更容易的。例如:利用Google搜尋「劉德華的配偶」比起搜尋「劉德華會不會移動」更為容易也較會有明確的解答。「劉德華會不會移動」在電腦判別中需要先定義移動及劉德華,如何連結兩者,並成功判別需要常識與知識的一致性表達系統、也需要一套邏輯分析才能完成。因此,如何將常識引入是極為有趣且重要的一個議題。
另一個自然語言處理的問題是訓練的標記資料不足的問題。若想研究新領域的素材,往往需要人工去做資料的大量標記,才能利用機器學習做處理。如此會面臨兩種問題:一個是人力不足,另一個則是資料量不夠。因此如何在少量甚至沒有標記資料訓練的情形下,讓機器還能夠學習或者是自動標記堪用的訓練資料等都是非常重要的研究方向。
聊天機器人,不僅僅是我們現在所使用及能夠互動的簡單人機界面,要做得好必須考慮許多自然語言處理技術以及精細的語言分析才可能達成,目前我們仍有許多還在努力克服的地方,例如多輪對話中對同一話題的一致性。未來大家在使用聊天機器人時,不妨加以觀察並思索「聊天」這個行為究竟是怎麼回事,有哪些面向是可以具體改善的,這些思考或許會成為你日後研究的新契機也說不定。
●2019 AI嘉年華 馬偉雲老師:「機器能跟我們天南地北聊天嗎?」講座資訊