以假亂假 網路世界的金絲雀陷阱──WE-FORGE
以假亂真的誘餌文件混淆駭客視聽,使其無法分辨出到底哪一項才是真正有價值的資訊。
編譯/許守傑
●金絲雀陷阱
在著名軍事小說作家Tom Clancy的暢銷作品《愛國者遊戲》(Patriot Games)一書中,描述了劇中人物故意把不同版本的機密情報洩漏給嫌疑人,藉此判斷誰是洩密者。在現實世界中,這類「金絲雀陷阱」(Canary trap)的確是情報人員慣用的手法。
面對日益猖獗的駭客攻擊,資訊安全儼然成為數位時代的一大挑戰。美國達特茅斯學院的網路安全專家們,想到利用這個老方法來欺敵,防堵駭客滲透、竊取有價值的文件造成巨大的損失。
這套稱作WE-FORGE(Word Embedding–based Fake Online Repository Generation Engine)的演算法,可以生成各種以假亂真的專利誘餌文件,使得想要竊取公司技術機密的駭客無法分辨到底哪一份才是真正有價值的資訊。這就像將大把逼真的假鈔與真鈔一起放在金庫裡,即使銀行搶匪們費盡九牛二虎之力打開金庫大門,也無從在短時間內只挑真鈔帶走。
●以假亂真
那麼WE-FORGE究竟是如何做到自動生成假文件的呢?首先,專家們分析原始文件,從中找出專業術語,以及各字詞的出現頻率。接著,為了使仿造文件足夠逼真,他們會選用或設法建構與主題相關的客製語料庫。舉例來說:如果原始文件是某家藥廠的疫苗專利申請書,WE-FORGE就會使用與生技專利相關的語料庫,確保後續產生的誘餌文件中不會出現與疫苗專利無關的突兀詞彙。
此外,語料庫中的資料也會按主題分類,而後隨機地被套用於假文件中,替換字詞的同時也兼顧合理性。相較於先前的相關技術總是產出一堆大同小異的文件,WE-FORGE藉此提升生成文件的多樣性,如此細膩的作法使駭客更不容易發覺造假的痕跡,也提昇逆向還原工程的難度。WE-FORGE的開發團隊表示:「我們就是要讓那些偷你東西的人感到痛苦!」
●欺敵的成效
為了驗證WE-FORGE的欺敵成效,研究團隊偽造了一系列電腦和化學領域的專利申請文件,並邀請該領域的專家(至少具有該領域的碩士學位)來判別這些文件的真偽,結果連他們也上當。
WE-FORGE能針對單一篇文件生成數百萬份不同的假文件,將這個數字放大,絕對能抵抗駭客的網路攻擊。除了專利文件外,WE-FORGE後續也希望能應用在其他更複雜的資料上,例如文字之外的數字、流程圖和表格等,使其更臻完美。
編譯來源
- Bushwick, S. (2021). AI Creates False Documents That Fake Out Hackers. Scientific American.
參考資料
- Abdibayev, A., Chen, D., Chen, H., Poluru, D., & Subrahmanian, V. (2021). Using Word Embeddings to Deter Intellectual Property Theft through Automated Generation of Fake Documents. ACM Transactions On Management Information Systems, 12(2), 1-22.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)