回顧所來徑，挑戰即成就—專訪陳信希

2019 年 02 月 22 日2022 年 01 月 04 日 intern 學思歷程, 陳信希

分享至

採訪／葉宇軒

自然語言處理：橫跨電腦與人溝通的可能

「自然語言處理」是一門實現「電腦」與「人」彼此溝通的學問，主要的目標，在於讓電腦聽得懂、看得懂人類的語言文字。在人工智慧興起的時代，它是發展高等人工智慧的重要技術之一──畢竟電腦若無法理解人類的語言，或者無法將它得到的資訊吸收轉化，以一般人能夠理解的方式分享，我們連人機溝通都做不到，更遑論獲得個人化的精緻輔助。從自己的研究經驗出發，對於「人工智慧與真人互動之間的差異何在」這個或許存在聽眾心中的疑問，專攻自然語言處理的陳信希，提出了相當犀利的觀察。

「當人與人溝通的時候，雙方領會的意思不同，就會發生理解的歧義。」他說，讓機器能了解人類的語言，使電腦得以人類的語言，直接同使用者互動，是這個技術的終極目標：「我們可以發現，除了語言，在日常生活中人們也會透過不同的方式，如手勢和臉部表情，傳達或者輔助傳達訊息，就是為了讓對方的理解最佳化。而人機溝通技術，同樣會面臨歧義的考驗，我們的任務，就是不斷思考如何讓電腦理解到正確的意思。」

這顯然是一個漫長而困難的工作，會不會因此感到沮喪或孤獨呢？

對陳信希來說，克服種種障礙，逐步達到人機之間完全的理解，卻也正是樂趣所在。輿情分析（意見探勘）技術從無到有的長期發展，就是最好的例子。

從零開始：「意見探勘」技術的蟄伏與盛放

在訪問過程中，陳信希一直是相當平實的講述者，沒有太多戲劇性的陳述，或跌宕起伏的語調。過去「自然語言處理」在台灣並不很受重視，僅有少數研究單位和公司投入發展，近年來人工智慧興起，自然語言處理技術和應用成為熱門領域之一。當我們問及當年該領域在台灣尚屬冷門學科時，他如何自處，又怎樣看待自己的研究成果，他提到自然語言處理的研究議題和應用相當廣泛，就舉其中一項「意見探勘技術」的發展為例，談起自己的學思歷程。

所謂意見探勘，就是透過統整與分析網路上零碎四散的大量意見，得到特定人群對某個議題或對象的看法，近年來被大量用於網路民調、政策意向探詢等方面，蔚為顯學。然而，多數人恐怕不知道兩件事：首先，這項「全新」出台的技術，其實學界早在2003年便著手研發了；其次，自然語言處理技術對此介入甚深。

「在自然語言處理技術裡，有一個應用叫做意見探勘，比較大眾的說法叫『輿情分析』，我們從2003年就開始做了。」陳信希說到，「人們很容易寫下某個產品、餐廳、住宿等等的使用心得，但當其他的消費者想要檢索的時候，就不是那麼容易。」在蒐集與統整意見方面，隨著雲端技術的開發，運算速度飛躍性的提高，漸漸已不成問題，他表示，反而是有效意見的篩選，才是輿情分析在應用上的最大難關。當我們要透過意見探勘技術，從大量資料裡抽取有用的資訊時，該怎麼知道意見真假？如何排除俗稱「葉佩雯（業配文）」的干擾性意見，從而提升分析的準確率？

為了讓我們了解其中的門道與挑戰，陳信希於是深入淺出地，向我們解釋起自然語言處理技術的演進。在這個技術發展的前期，研究人員採取「規則式」的辦法，嘗試整理出語言規則並輸入電腦，讓機器理解人類語言，但為了提升覆蓋率，學者接著開始發展「統計式」的模型，透過語言學家分析與標記大量語料，讓電腦通過統計的方式自動演算，生成語言使用規則。但即便如此，仍然無法有效處理語言長距離相關和詞彙關聯度等問題。

所幸在2013年左右，技術發展又有了新的突破：「語言分散式表現」模型，也就是如今正熱門的「深度學習」技術。由於詞彙的意義，總是依賴上下文來標定，學者們於是想到，可以利用龐大的語料資源進行自動演算，將各個「詞彙語意」之間的親疏關係，透過「向量」表示出來。以低維度稠密向量空間來呈現的話，即越是靠近的雙方，便具有越相近的意思。透過這個方法，自然語言處理技術有效突破了詞彙語法和語意表現的難題。

於是，我們可以清楚的看到，在這十五年間研究人員如何精益求精，逐漸克服人類某些特殊的語言表現（如字面意義正好與實際訊息顛倒的反諷），以及人類意見陳述的複雜性，就此讓意見探勘的技術應用更臻成熟、準確。

陳信希自信的表示，求學與治學的孤獨，從來不會令他心生沮喪。因為這一路走來，每一個碰上的難關，與克服挑戰的過程，已帶給了他一次又一次、無與倫比的成就感。

(本文為教育部「人工智慧技術及應用人才培育計畫」成果內容)

(Visited 91 times, 1 visits today)

分享至

views