【探索22-3】計算帶我上雲端,隱私全部看光光?!
講者|交通大學智慧科學暨綠能學院副教授 魏澤人
彙整撰文|鄭兆庭
●網路與世界的矛盾衝突:當深度學習、雲端共享對上隱私
魏老師於演講一開始即直言,我們正處在一個矛盾加劇的年代。過往,或許每個人有些矛盾的需求,或不同人之間持相反意見,但是在現今隱密性低、傳播力強的網路時代,由於人與人之間意見加速的碰撞,而有加深各個層面矛盾的趨勢。
這幾年隨著軟體、硬體、網路的進步,「深度學習」等蒐集資料的技術也不斷進步。各種商業模式試圖從資料中獲取有用的資訊,舉凡消費行為、社群網路的廣告,都是利用深度學習技術努力找出常理無法辨識的關聯性。再來,「雲端和共享」的普及,使得網路影響真實世界的威力大增。網路地圖導航、外送服務、汽機車共享、住宿共享、影片共享都改變了我們在現實生活中的行為。
整體而言,深度學習和雲端共享兩項科技需要互相配合,更能展現其優勢。不過,這兩種渴求資料的科技卻又跟「隱私」互相矛盾。從前人們認為隱私是知名人物的特權,現在則是人人都在意隱私的時代。魏老師認為網路時代裡,「人肉搜索」、「拍照爆料」等得知他人隱私的管道越來越多、暴露隱私所造成的破壞威力也越來越強,是轉變大眾隱私觀念的關鍵。資料和隱私的衝突,可以見於開放政府資料的行動中,一方面我們需要政府資料來達到公開透明或研究目的,另一方面我們卻又在意其中的隱私保護。面對這類處理資料會遇到的難題,我們有哪些解決方法?
●去識別化及其破解法
一般常見的作法稱為「去識別化」(de-identification)。去識別化又可以區分為「擬匿名化」(pseudonymization)和「K匿名化」(K-anonymization)兩類作法。首先,擬匿名化是透過去除姓名等真實ID的方式來保護隱私。例如,高速公路電子收費ETC系統,會將車牌號碼抽換為另一組代碼,以保障使用者移動資料的隱私。而K匿名化則是指,對資料進行特定條件的搜尋,鎖定至少K個人的結果,如此一來這些資料便無法特定出某一個人,所以有保護特定人隱私的效果。地理統計上常使用「最小統計區」的概念,假設資料顯示此區共有15人,平均收入500萬元,則無法單從這份資料得知每個人的收入各為多少。
不過,若是認為去識別化的資料就能保障隱私,那實在太天真了。再利用前面的假設狀況,其實這15人的資料,我們仍可以利用其他方法再縮小範圍,以特定個人資料。這類破解法就是所謂的「去去識別化」(re-identification)。以下,魏老師透過幾個實例,讓大家了解去去識別化的運用方法。
90年代美國的GIC醫療紀錄,再消去姓名、住址、社會安全號碼後,釋出作保險用途。破解者僅以20美金購得選舉註冊資料,再從其中的郵遞區號、出生、性別等資料跟前述醫療紀錄加以比對,成功的再次識別特定人的醫療紀錄。美國網路搜尋公司AOL也曾釋放出經去識別化搜尋紀錄供研究使用,兩位記者利用搜尋資料本身的內容比對,即成功特定出某位使用者的身份。另外,去識別化的手機通話紀錄、基因體資料均曾被破解。
●以密碼學保障隱私
密碼學上「零知識」(zero-knowledge)的概念,即是在保護資訊不外洩。零知識就是一種通訊協定,A能在外人無法得知的條件下,向B證明某件事情,不過B卻無法學習到任何資訊,雖然保護了隱私,卻無法利用在深度學習上。因此,我們需要在密碼學上重新定義隱私,以平衡資料利用和隱私的衝突。
現在常見的作法是在資料中加入隨機的雜訊,例如「差分隱私」(differential privacy)。白話來說,看過這筆加入雜訊的資料後,對某個人資訊的了解不會增加,如此便有保障隱私的效果,卻又能從中獲得有用的資訊。在機器學習上,亦其他隱私保護技術如「梯度下降法(Tensorflow privacy)」、「PATE」等。除此之外,有另一種作法是不將原始資料上傳到雲端運算,而是在個人裝置上先算出一個模型,再上傳到雲端平均得出最後的模型。輸入法的熱門字詞功能,就是運用此「分散式計算」的方法。
但是,分散式計算仍有被破解的風險,因此又出現了「分散式安全計算」的運算技術。魏老師打了個比方:核子彈的密碼分散在十個人手中,只有當任八、九個人同意時,才能發射核子彈。這項技術的核心概念是「秘密分享」,以數學模型表示的話,可以把個別掌握的資料看作是一個點,則需要三個點才能決定一條拋物線(即秘密)。換言之,個別資訊無法得知秘密,即便其中兩人合謀不軌也無法取得。演講尾聲,魏老師以撲克牌做秘密計算的實際演練,讓聽眾了解此運算的奧秘。然囿於文字描述有其極限,請有興趣的讀者直接參考現場錄影。
有了以上這些神奇方法,我們得以保有隱私,又能讓雲端網路計算幫我們做事。
--
本文整理自:108/10/19由魏澤人老師在臺大思亮館國際會議廳所主講之「計算帶我上雲端,隱私全部看光光?!」演講內容。