挺住巨量資料防洩密
撰文/ Alex “Sandy” Pentland|譯者/周坤毅
轉載自《科學人》2014年12月第154期
重點提要
- 民眾的行為資料一向是維持政府與企業運作不可或缺的要素,但我們如何確保政府在蒐集與分析資料時,這些資料不遭到濫用?
- 我們可以從幾項基本原則做起。美國國家安全局(NSA)與其他政府機關應該把巨量資料分散在不同功能的資料庫,由各個組織負責看管。掌管或傳輸個人資料的單位或個人,都必須使用加密技術保護資料的傳輸及儲存。
- 在日新月異的數位時代,我們必須體認現有政策或傳統做法已不再適用。持續公開測試巨量資料的處理程序,才能找出真正有效的對策。
美國國家安全局(NSA)成立之初,只有一項主要任務:監視蘇聯。當時NSA的敵人十分明確而單純,使用的工具也只有電話監聽、偵察機與隱藏式麥克風。
然而911事件改變了一切,NSA的主要敵人變成分散各處的恐怖組織,世界上任何人都可能成為監控的目標。隨著各種數位通訊管道如雨後春筍般成長,連網行動裝置的數量也開始呈指數增加,監視的本質正在轉變,顯然NSA的老舊工具已不符所需。
因此NSA決定採取「滴水不漏」的新策略。曾任NSA局長的亞歷山大(Keith Alexander)如此說過:「如果你想從海底撈針,就需要整片海洋。」於是NSA開始蒐集幾乎每個美國民眾的電話記錄,以及美國境外所有的網路流量資料。過了沒多久,NSA每兩個小時就能夠蒐集到相當於美國人口普查資訊那麼多的資料。
NSA把這麼大量的資料放在平時用來儲存情報資訊的安全設施內,但把雞蛋放在同一個籃子裡非常危險;全世界幾乎所有人的隱私,都暴露在任何有心窺探的分析師眼前。儲存大量資料也讓NSA面臨前所未有的洩密危機:NSA的外聘雇員史諾登(Edward Snowden)對NSA這種秘密蒐集資料的行徑極為憤慨,因此設法從夏威夷的伺服器中下載了數千筆秘密檔案,隨後登上飛往香港的航班,並把相關文件交給媒體。
像是人口普查資訊等民眾的行為資料,一向是維持政府與企業運作不可或缺的要素。可是由政府機關暗中蒐集所有人的資料,儲存在秘密的伺服器場(server farm),並且任意存取這些資料、不受任何人監督,這在本質上是史無前例的。因此史諾登揭發內幕後引起眾怒,也就不令人意外了。
目前針對NSA蒐集資料的討論,大多著眼於道德或政治方面的影響,較少關注結構與技術上的漏洞。先前政府設立蒐集與使用巨量資料的法規早已不適用,並且制定與評估相關政策的腳步也不夠快。政府的做法必須跟上科技進步的速度,守護巨量資料安全很難一蹴可幾,但有幾項基本原則能確保我們的方向正確。
別把雞蛋放在同一個籃子裡
亞歷山大對於海底撈針的見解並不正確,你不需要霸佔整片海洋,只需擁有搜索海底任何一處的能力。你沒有必要把大量資料儲存在同一個地點,而且這對於監控與受到監控的雙方都同樣危險。對於政府來說,這種做法會增加洩密的風險;對於個人而言,隱私權則可能隨時遭受侵害。
史諾登的洩密事件清楚顯示政府儲存資料的方式太集中。NSA與其他政府機關理應把巨量資料留在原處,由建立資料庫的機構利用不同加密協定負責看管。不同類型的資料應該分開儲存,例如金融資料存在一處資料庫內,醫療記錄則存在另一處;個人資訊與其他類型的資訊必須分開儲存與管理。若有合法的理由,NSA與其他政府機關同樣能檢視這些分散各處的資料。簡單來說,就是別把雞蛋放在同一個籃子裡。
分散資料最簡單的做法就是停止蒐集資料,讓電信與網路公司自行保留記錄。但NSA也不必急著銷毀現有資料庫,因為這些記錄內容或存取軟體很快便會過時。
老實說,除非以法律或行政命令禁止蒐集資料,否則很難想像NSA會停止蒐集資料。不過立法禁止其實對NSA有好處,NSA似乎也曉得。美國國防部副部長卡特(Ashton B. Carter)去年夏天在科羅拉多州的阿斯本安全論壇(Aspen Security Forum)上分析NSA的危機:「史諾登的洩密事件顯示我們必須改變兩件事……把大量資訊集中儲存在同一處是個錯誤。
第二,隨意授權某人存取並轉移這些資訊,這也必須改變。」把加密的分散式資料庫儲存在不同的電腦系統中,不僅讓史諾登式的洩密事件更加困難,還能阻止外來的網路攻擊;任何單一網路攻擊,最多只能存取整體資料庫的一小部份。即使是想獨攬大權的政府也該關注分散式資料庫,因為集中儲存資料只會讓內部洩密者有機可乘。
分散式資料庫如何保護個人隱私?答案是追蹤資料庫與操作員之間的通訊模式。不管是搜尋特定記錄或計算統計數據,每次資料分析作業都有獨特的通訊模式特徵,例如特定的網路連接與資料庫之間的傳輸。這些特徵有如「後設資料中的後設資料」,能用來監控秘密通訊的整體模式。
不妨這麼比喻:如果公司內不同部門間使用可見的通訊方式(例如實體郵件),即使郵件的內容保密,員工也能掌握正常的通訊模式。假設掌管員工健康記錄的人發現財務部突然要求存取這些私人資訊,他或她便應該提出質疑。若以同樣原則建立分散式資料庫,每次作業都會產生可供檢驗的後設資料,電信公司便能追查誰在存取這些資料,獨立的民間機構或媒體也能據此監督NSA的行動。利用後設資料中的後設資料,我們得以反過來監督NSA如何監控人民。
打造銅牆鐵壁
避免集中儲存巨量資料,只是確保隱私的第一步。在資訊時代,利用加密技術保護資料的傳輸及儲存也同樣重要,缺乏安全防護的資料可能在不知不覺中遭到他人盜用。現今網路犯罪與網路戰爭的威脅漸增,做好安全防護顯得格外急迫。
任何使用個人資料的政府、私人單位或個人,都應該遵守幾項基本的安全規範。首先,只有在具備同樣安全標準的資料系統之間,才能對外傳輸資料。其次,每次資料作業都必須要求可靠的身分認證程序,確保資料的來源及流向。每筆記錄都得接受後設資料的監控與調查審核,類似防止信用卡盜刷的機制一樣。
做法之一是採用所謂的「信賴網域」。這是一種能持續追蹤每筆資料之使用者授權的電腦網絡,設立審查程序來界定何種資料作業是合法、何種是禁止,以及違反授權時該如何處置。藉由保存防止篡改的資料來源與授權記錄,信賴網域能自動執行審查,確保使用者遵守資料使用權限。
行之有年的信賴網域已被證實既安全又可靠,最著名的信賴網域是環球銀行金融電信協會(SWIFT),有超過一萬家銀行與其他組織用這套系統來轉帳。就我們所知,從來沒有人駭入這套系統。據說有人問銀行大盜薩頓(Willie Sutton)為何要搶銀行,他回答:「因為錢都放在那裡。」今天錢都放在SWIFT,該網域每天流通數兆美元。SWIFT利用內建的後設資料監控機制、自動審查與連帶責任系統,不僅能把搶匪擋在門外,還能確保匯款抵達目的地。
過去建立信賴網域十分複雜且昂貴,但隨著電腦運算能力提升,即便較小的組織、甚至個人也都負擔得起。我在麻省理工學院(MIT)的研究團隊與資料導向設計中心合作,研發「開放式個人資料儲存系統」(openPDS),可看成信賴網域的消費者版。我們正與許多企業及政府機關測試這套軟體,概念是大眾化的SWIFT等級資料防護系統,讓企業、地方政府與個人都能安全分享敏感資料,包含健康與金融記錄在內,美國數個州政府已開始評估這套系統下的內部與外部資料分析服務。隨著信賴網域逐漸普及,資料傳輸將更加安全,也更容易建立分散式資料儲存架構,保護巨量資料不受他人濫用。
絕不畫地自限
最後、同時也是最重要的一步是承認我們並非無所不知。事實上,也沒有最終答案。我們唯一能確定的是科技隨時在變化,因此法律制度也得跟上腳步。在日新月異的數位時代,我們無法再仰賴現有政策或傳統做法。相反地,我們必須持續嘗試新技術,才知道什麼做法是有效的,而什麼是沒用的。
來自民眾、科技公司與其他國家的壓力,迫使美國白宮提案限制NSA的監視活動。科技公司也開始提出訴訟,爭取公佈關於NSA要求他們提供資料的相關文件,希望重拾消費者的信心。今年5月,美國眾議院通過《美國自由法案》(USA Freedom Act)。儘管許多隱私權擁護者批評它還不夠完善,但這項法案將開始限制蒐集巨量資料並透明化程序(2014年11月19日,美國參議院未通過該法案)。
這些步驟將引導我們走往正確方向。然而目前的做法只是短期對策,無法解決長期問題。科技正持續演進中,因此政策更新的速度也得跟上腳步。最重要的是不斷實驗,利用小規模計畫測試什麼程序有效,並淘汰沒用的做法。
(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)