真假之間:GPT-2的危險成就
撰文/陳儁翰
語言處理模型
只是,可以產生真假難辨的文章,不代表機器已經能夠理解其中的內容。因為一篇文章,甚至單一句子,其中可能涵蓋大量人類早已視為常識,但機器並不理解的預設知識。初期NLP(Natural Language Processing)主要基於邏輯的語義學模型,其假設機器可以利用邏輯,將人類知識建模,並推論出蘊含的其他知識。舉例來說,假設機器今天讀到以下句子:
「如果今天不是周六,小筑就會去健身房。」(S1)
AI必須回答以下問題:
「小筑今天會不會出現在健身房?」
首先,機器得分析句子,從中辨識出時間、人物與地點等資訊,並轉化為邏輯符號。機器還必須知道健身房是一個地點,否則S1也可以改寫為「如果今天不是周六,小筑就會去睡覺。」所以,這類AI的成功取於資料庫的完整度:機器必須擁有龐大的資料庫,且明確定義各筆資料間的邏輯關係,方可進行邏輯推論。此類模型的優點在於可以精準回答需要邏輯判斷的問題,然而一旦遇到內部邏輯關係過於複雜或不明確的語句,便難以釐清其中的邏輯順序。
文字的意義往往取決於它在字裡行間如何被使用,但要讓機器能理解文字前,人類必須把文字轉換成機器能讀懂的表示法,也就是說:人類必須建立各種數學模型,例如把文字轉換成向量表示、對文章進行分類,以及哪些文字在段落中是特別重要的。這些概念都能對應到NLP中一些重要的突破,例如:word embedding、word2vec、 LDA(Latent Dirichlet Allocation)、注意力機制(attention)等。基於語義的深度學習模型,近年來在自然語言處理領域獲得了許多成就,尤其是機器翻譯與文本生成。
判別真假文章
NLP的發展,造就AI也能夠產生令人真假難辨的文章。這當然有積極的正面用途:比如由人類輸入文章的主要段落,機器則負責補齊一些瑣碎的文字,提高人類生產力;或可自動產生跟某主題相關的文案,提供文字創作者一些靈感。然而,同樣的功能,亦可藉由餵給機器特定的資料,產生例如針對某產品或特定人物的大量正面或負面評價,操縱輿論。幸運的是,防範假新聞和假文章的研究也正持續進行,也有許多方法可以從不同的面向去判斷一篇文章的真假。
以色列理工學院的Benjamin D. Horne與Sibel Adali分析來自如Business Insider等備受信任的新聞媒體,以及社群網站上轉發或小道網站上的文章,結果發現文章標題的結構與用詞,是判斷真假文章一個很重要的依據。例如:假文章傾向在標題中加入更多的動詞,但較少使用停用詞(stop-words,搜尋引擎傾向忽略的字詞,如the、is、at、which、on與一般名詞)。研判因假文章多帶有強烈針對性,目的在吸引特定受眾閱讀。內文上,假文章常重複使用副詞,文章長度也較短、引用較少,與諷刺文章相似。
這類的成果也意外推進了基於文本特徵來判別假文章的AI研究。Horne與Adali基於上述發現開發出的判斷器,取得71%以上的準確度;另外,如加州大學河濱分校Guacho等人,提出根據文章內容與少量標記來辨別假文章,半監督式學習的AI也達到75.43%的準確率,高於一般SVM分類器67.43%的準確率。
參考資料
- K. Hao, “The technology behind OpenAI’s fiction-writing, fake-news-spewing AI, explained“, MIT Technology Review, 2019.
- G. Guacho, S. Abdali, N. Shah and E. Papalexakis, “Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings“, arXiv.org, 2019.
- A. Radford, J. Wu, R. Child, D. Luan, D. Amodei and I. Sutskever, “Language Models are Unsupervised Multitask Learners“, cloudfront.net, 2019.
- B.D. Horne and S. Adali, “This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News“, arXiv.org, 2019.
- G. Guacho, S. Abdali, N. Shah and E. Papalexakis, “Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings“, arXiv.org, 2019.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)