文本生成 - CASE 報科學

如何辨識文章是由機器或人類所寫？

2019 年 06 月 13 日2022 年 01 月 04 日 intern GLTR, NLP, 假新聞, 文本生成

2019年2月，OpenAI開發出幾可亂真的文本生成器GPT-2，因擔心有心人士濫用，延後公布完整原始碼；然而解鈴還需繫鈴人， MIT-IBM Watson人工智慧實驗室與哈佛自然語言實驗室（Harvard NLP）合作開發出一套工具GLTR（Giant Language model Test Room），能準確分析文章是否由機器生成或由人類所撰寫。以下簡單介紹GLTR的分析方法與運作。

人工智慧&電腦、資料科學

真假之間：GPT-2的危險成就

2019 年 06 月 11 日2022 年 01 月 04 日 intern GPT-2, NLP, OpenAI, 假新聞, 文本生成

2019年2月，知名研究團隊OpenAI發表了簡稱為GPT-2的文本生成模型。研究團隊使用達40 GB的資料量，結果好到讓研究人員為避免惡意濫用，決定暫緩開放原始碼。2019年5月初，兩個簡化後的模型在千呼萬喚中釋出，參數量分別為1.17億與3.45億個，雖與15億參數的原始版本相比，小巫見大巫，卻也顯示出僅是增加資料量與模型複雜度，電腦便可寫出令人難辨真偽的文字內容，輕易淪為假新聞的量產工具。