【人物專訪】回顧所來徑,挑戰即成就——專訪陳信希
●11/10 陳信希老師主講:「子非人,安知人之語?—談自然語言處理」點此報名!
採訪、撰文|葉宇軒
在人工智慧研究領域中,「自然語言處理」對一般人而言,可能是相對陌生的一塊,但這項技術專注於開發電腦處理人類語言(即所謂「自然」語言)的能力,是研發高等人工智慧時,不可或缺的關鍵技術。以下我們將請自然語言處理專家陳信希教授,與我們分享研究過程裡重要的思考與觀察所得。
●自然語言處理:橫跨電腦與人溝通的可能
「自然語言處理」是一門實現「電腦」與「人」彼此溝通的學問,主要的目標,在於讓電腦聽得懂、看得懂人類的語言文字。在人工智慧興起的時代,它是發展高等人工智慧的重要技術之一──畢竟電腦若無法理解人類的語言,或者無法將它得到的資訊吸收轉化,以一般人能夠理解的方式分享,我們連人機溝通都做不到,更遑論獲得個人化的精緻輔助。從自己的研究經驗出發,對於「人工智慧與真人互動之間的差異何在」這個或許存在聽眾心中的疑問,專攻自然語言處理的陳信希,提出了相當犀利的觀察。
「當人與人溝通的時候,雙方領會的意思不同,就會發生理解的歧義。」他說,讓機器能了解人類的語言,使電腦得以人類的語言,直接同使用者互動,是這個技術的終極目標:「我們可以發現,除了語言,在日常生活中人們也會透過不同的方式,如手勢和臉部表情,傳達或者輔助傳達訊息,就是為了讓對方的理解最佳化。而人機溝通技術,同樣會面臨歧義的考驗,我們的任務,就是不斷思考如何讓電腦理解到正確的意思。」
這顯然是一個漫長而困難的工作,會不會因此感到沮喪或孤獨呢?
對陳信希來說,克服種種障礙,逐步達到人機之間完全的理解,卻也正是樂趣所在。輿情分析(意見探勘)技術從無到有的長期發展,就是最好的例子。
●從零開始:「意見探勘」技術的蟄伏與盛放
在訪問過程中,陳信希一直是相當平實的講述者,沒有太多戲劇性的陳述,或跌宕起伏的語調。過去「自然語言處理」在台灣並不很受重視,僅有少數研究單位和公司投入發展,近年來人工智慧興起,自然語言處理技術和應用成為熱門領域之一。當我們問及當年該領域在台灣尚屬冷門學科時,他如何自處,又怎樣看待自己的研究成果,他提到自然語言處理的研究議題和應用相當廣泛,就舉其中一項「意見探勘技術」的發展為例,談起自己的學思歷程。
所謂意見探勘,就是透過統整與分析網路上零碎四散的大量意見,得到特定人群對某個議題或對象的看法,近年來被大量用於網路民調、政策意向探詢等方面,蔚為顯學。然而,多數人恐怕不知道兩件事:首先,這項「全新」出台的技術,其實學界早在2003年便著手研發了;其次,自然語言處理技術對此介入甚深。
「在自然語言處理技術裡,有一個應用叫做意見探勘,比較大眾的說法叫『輿情分析』,我們從2003年就開始做了。」陳信希說到,「人們很容易寫下某個產品、餐廳、住宿等等的使用心得,但當其他的消費者想要檢索的時候,就不是那麼容易。」在蒐集與統整意見方面,隨著雲端技術的開發,運算速度飛躍性的提高,漸漸已不成問題,他表示,反而是有效意見的篩選,才是輿情分析在應用上的最大難關。當我們要透過意見探勘技術,從大量資料裡抽取有用的資訊時,該怎麼知道意見真假?如何排除俗稱「葉佩雯(業配文)」的干擾性意見,從而提升分析的準確率?
為了讓我們了解其中的門道與挑戰,陳信希於是深入淺出地,向我們解釋起自然語言處理技術的演進。在這個技術發展的前期,研究人員採取「規則式」的辦法,嘗試整理出語言規則並輸入電腦,讓機器理解人類語言,但為了提升覆蓋率,學者接著開始發展「統計式」的模型,透過語言學家分析與標記大量語料,讓電腦通過統計的方式自動演算,生成語言使用規則。但即便如此,仍然無法有效處理語言長距離相關和詞彙關聯度等問題。
所幸在2013年左右,技術發展又有了新的突破:「語言分散式表現」模型,也就是如今正熱門的「深度學習」技術。由於詞彙的意義,總是依賴上下文來標定,學者們於是想到,可以利用龐大的語料資源進行自動演算,將各個「詞彙語意」之間的親疏關係,透過「向量」表示出來。以低維度稠密向量空間來呈現的話,即越是靠近的雙方,便具有越相近的意思。透過這個方法,自然語言處理技術有效突破了詞彙語法和語意表現的難題。
於是,我們可以清楚的看到,在這十五年間研究人員如何精益求精,逐漸克服人類某些特殊的語言表現(如字面意義正好與實際訊息顛倒的反諷),以及人類意見陳述的複雜性,就此讓意見探勘的技術應用更臻成熟、準確。
陳信希自信的表示,求學與治學的孤獨,從來不會令他心生沮喪。因為這一路走來,每一個碰上的難關,與克服挑戰的過程,已帶給了他一次又一次、無與倫比的成就感。