匿名化的前世今生
數據匿名的社會意識應該是近幾年才日漸擴散的,但其實來自技術層面的暢想與實踐早就開始了。
實驗室總是先走一步,1997年,美國學者Samarati和Sweeney提出了k-anonymity匿名模型,為后續各種技術解決方案的涌現開了先河。當然,屆時,數據匿名這個話題更多是停留在技術圈內的狂歡。
隨著大數據、智能技術近年的發展與滲透,數據泄露、隱私侵犯等問題日漸凸顯,并且受影響的群體日漸幾何級增長。一方面數據作為智能時代的基石,不可能因噎廢食,完全放棄,另一方面,政府、企業、個人都因該問題而持續困擾,市場格局也容易產生波動,這于長遠發展不利。
此時,匿名化技術成為可以折中的方案。不過,數據匿名化需要技術投入,如果僅靠企業主觀驅動,效果有限。所以,整個匿名數據的發展中,真正打破僵局的是法律領域的關注。
最為代表的則是令互聯網企業心有余悸的GDPR。2018年正式實行的GDPR,將個人數據的保護力度提至前所未有的高度,亦對數據處理企業等主體施加了甚為嚴苛的保護義務和法律責任。其中,有一條,GDPR提到:控制者在確定處理方式和處理過程中,應當采取適當技術和組織措施,諸如假名化(pseudonymisation)處理,將額外數據與個人數據分別保存,除非使用額外數據,否則個人數據無法指向特定數據主體。
顯然,GDPR白紙黑字地將個人數據的保護上升到法律層面,這已經將此前數據使用過程中涉及的大部分曖昧地帶清晰化。此外,真正具有威懾力的是其“殘忍”的懲罰力度。眾所周知,如果科技巨頭越雷池一步, GDPR是真的會開出開天價罰單。
最有意思的案例即是,GDPR開始生效的第一天就“開門紅”,一下起訴了兩大科技巨頭:Facebook和谷歌。兩家公司被指控強迫用戶同意共享個人數據,且分別面臨39億歐元和37億歐元(共計約88億美元)的罰款風險。
當然除了GDPR,各政府都相繼出臺了相關嚴厲的個人數據保護法。如英國更新了數據保護法案,加上了個人數據的重視力度,中國也出臺了數據安全法草案,明確了保護責任。,FTC在2012年發布的隱私保護指南中更是擴大了個人數據的邊界,突破了傳統定義中的與具體的自然人相關聯,擴展到了用戶所使用設備標識等。
在這樣的背景下,對于企業來說,天價罰單是割肉之痛,政府的監管是不可逾越的紅線,此外,用戶隱私保護意識的覺醒也是不可推辭的需求。
GDPR在對匿名化的界定中也提到:“匿名化是指將個人數據移除可識別個人信息的部分,并且通過這一方法,數據主體不會再被識別。匿名化數據不屬于個人數據,因此無須適用條例的相關要求,機構可以自由的處理匿名化數據”。
數據匿名則成為了許多企業或者數據應用主體的重點投入方向。有業內專家表示,匿名數據的收集主要用于幫助公司發現產品錯誤,這是互聯網通過分析非個人可識別信息來改善整體產品體驗最常見的解決方案之一。
數據匿名的“bug”
那么,常見的數據匿名方式有哪些?廣義上可以分為兩類:一是擾動方式,即讓原始數據值失真,如數據屏蔽脫敏、噪聲添加等,二是非擾動方式,即使數據集不完整,通過按照在記錄個體層面維持數據真實性的方式改變在凈化數據集中報告數據值的粒度來工作,如數據抑制和數據泛化。前文提到的k-anonymity匿名模型則是非擾動的一種重要方法。它要求發布的數據中存在一定數量(至少為k) 的在準標識符上不可區分的記錄,使攻擊者不能判別出隱私信息所屬的具體個體,從而保護了個人隱私。
數據匿名一直在發展,問題也逐漸顯露。所謂,“道高一尺魔高一丈”,匿名化一一定程度上保護了隱私,但“有心人”依舊可以從匿名數據中進行身份確認。
一位德國研究員在曾第33屆Chaos Computer Club會議上公布了自己的研究成果:盡管是已經匿名化的點擊流,也可以順藤摸瓜找到用戶清晰畫像,數量少于十個的不同域名就足以讓你暴露。披著匿名的外衣,這些數據被稱為“Dark Data”,是非常容易滋生邪惡的新孕育地。
此外,去年,英國Nature Communications雜志發表的一項研究表示,英國科學家利用一種新開發的統計方法發現,一個人的身份可以從一個不完整的匿名化數據庫中被識別出來。研究人員開發了一個機器學習模型,使用郵編、性別、出生日期三個信息,有81%的概率可以在“匿名”數據集中準確地追蹤到某一個人。
事實證明,數據匿名方法不僅面臨自身技術迭代更新的壓力,也有新技術不斷帶來的沖擊,如人工智能相關算法可能利用零星數據可以訓練出較為精準的用戶畫像。
基于差分隱私的方案
道阻且長,行之將至。目前法律、市場、技術各方面都為數據匿名做好了一定的基礎建設,接下來則是需要更多的投入與更新。首先,從此那個參與角色的角度來看,依舊需要政府組織牽頭,從法律層面為整個業態施加強行規范化的壓力,企業則需要更多資源投入匿名化建設,而個人則需從日常細節上提升網絡隱私意識,如有意識地使用匿名化瀏覽器、及時清理清除cookie和Web數據等,
另外,則是來自技術角度的迭代更新,針對安全性不足的數據匿名現狀,已經出現了基于差分隱私的數據匿名化隱私保護模型研究。差分隱私(differential privacy)是密碼學中的一種手段,旨在提供一種當從統計數據庫查詢時,最大化數據查詢的準確性,同時最大限度減少識別其記錄的機會。
實際上,差分隱私也利用了統計學。該技術可以實現:向一個人的使用習慣樣本中增加噪聲,保證數據相對模糊與匿名,隨著越來越多人呈現出相同的使用習慣,開始識別總結出共性。一個人的數據可能不準確,但是大量用戶的數據可以得出相對準確的結論。這種情況下,即使有人攻擊了數據庫,也只能看到系統化的共性信息,不能精確識別具體的個人信息。蘋果、Facebook、華為都在用該技術來來幫助發掘其大量用戶的使用習慣。
值得一提的是,《MIT科技評論》評選的2020年十大突破技術中,差分隱私榜上有名。
不過,由于差分隱私是一項仍在探索中的技術。門檻較高,所以投入成本也想要較高。其處理過程對于人才資源的需求較大,同時也帶來新的問題,多人的介入與隱私保護也會出現一定的沖突。為解決此問題,市面上一些企業注入了自動化機器學習的方法。
顯然,隱私保護問題的解決一定是多學科、多技術流派融合的。
唯一不變的就是變化,“安全是動態話題”已經是老生常談,數據隱私的安全也是一樣。匿名數據只是為目前的數據裸奔問題提供了一個相對明朗可行的解決方法,并不是絕對安全的保護屏障。我們能做的只有隨變化而變化,甚至是走在變化的前面。
責任編輯:pj
-
數據
+關注
關注
8文章
7081瀏覽量
89181 -
人工智能
+關注
關注
1792文章
47425瀏覽量
238956 -
機器學習
+關注
關注
66文章
8425瀏覽量
132770
發布評論請先 登錄
相關推薦
評論