如何處理數據共享與隱私保護之間的矛盾早已成為了當前數據圈的熱議話題,本期“智源-AI Time”邀請到了明略科技集團首席科學家吳信東教授、清華大學計算機系朱小燕教授、清華大學交叉信息研究院徐葳副教授,以及微眾銀行人工智能部副總經理吳海山,共同論道了“數據共享開放與隱私保護”這個似乎高深,又與每個人息息相關的話題。
數據開放的三大必要條件
我們共享位置信息以便預約車的司機找到自己,也暴露了自己的行蹤;用瀏覽紀錄調教APP獲得更合心意的推薦,也讓個人喜好一覽無余。開放個人數據的同時,我們冒著暴露隱私的危險,也享受著它帶來的便利。
有統計數據顯示,每天全世界會上傳5億張圖片,每分鐘就有20小時的視頻被分享,我們整個人類文明所產生的全部數據中有90%是過去兩年所產生的。
有人說,發揮數據的價值,主要在流通。的確,數據共享可以使更多的人充分地使用已有數據資源,減少資料收集、數據采集等重復勞動和相應費用,而把精力重點放在開發新的應用程序及系統集成上。但是,要真的讓數據流通起來,需要以下這些必要條件:
數據資源的標準化
數據開放共享,首先要做到的就是數據資源的標準化。我們需要解決大規模的、來自多個來源的、異構的數據集成問題,實現海量多元異構數據源的統一管理。
數據質量
數據質量是數據開放共享中需要解決的關鍵問題。比如,對于數據的發布者來說的話,怎么樣來保證開放的數據沒有敏感內容,怎么樣保證這個數據是可信的?自動的評估和控制數據質量,是一個關鍵指標。
開放和共享不等于免費
清華大學計算機系朱小燕教授提到“開放和共享不等于免費”,分配權益,其實也是數據流通的基本動力,必須要保證數據的擁有者,持有者和開發者,都能有滿意的權益分配。
數據共享和開放在產業界的趨勢和挑戰
根據不同的用法,數據有不同的治理和整理方法。那些使用數據的人,未必是生產數據的人。
清華大學交叉信息研究院徐葳副教授提到,“來自業內的數據可能不如分布在地方政府手里的數據多,但是很多人會明顯覺得BAT似乎把數據用的更好。那是因為業內特定領域已經打通了數據并且形成了閉環,他們更清楚數據應該怎么使用,理解根據這些使用需要采集怎樣的數據、怎樣去對數據進行清洗。”
的確,數據必須要流動起來它才能產生價值,否則的話它就是一個孤島,沒有什么太大的價值。數據共享,也需要一個前后背景,以學術研究還是產業應用為前提進行共享,這兩者的管理治理完全不一樣。
以金融行業為例,因為金融行業非常容易出現不合規行為,所以數據的應用和管控會更加嚴格。比如,如果用來投資,被標為非公開信息的數據會被禁止使用。而關于個人用戶隱私層面的管控可能更嚴,在金融領域里面,有一種“另類數據”。它不是類似傳統銀行財報這樣公開的信息,而是一種新型的數據,比如手機上的GPS數據、網站APP下載的數據。這些也可以用來分析一個公司或者一個國家經濟層面的運轉程度。
現在越來越多的研究層面開始關注,包含用戶信息的數據如何在技術場景里使用。為了解決一個工業界的問題,需要訓練模型,那如何在不共享數據的情況下進行機器學習呢?
微眾銀行人工智能部副總經理吳海山舉例解釋,“比如用數據去分析用戶貸款違約的概率,可能需要A公司電商的數據、B公司社交的數據,但兩家公司不可能放心地把數據放到我的平臺上……在這種情況下,為了在數據不共享的情況下,依然能夠訓練機器學習模型,我們首席人工智能專家楊強教授提出了聯邦學習,它是一種新型的,能夠在保護用戶隱私和數據共享的前提下,以一個合法合規的方式去使用數據、訓練模型、解決問題,我們覺得這個可能是更加本質的一個問題。”
“離開數據服務談數據隱私都是耍流氓”
機器學習需要大量數據,數據的共享無疑是學界和業界共同期待的,但是數據的共享也離不開對于數據和隱私的保護。
對于用戶隱私的保護,幾位專家有不同的看法。徐葳教授認為隱私是一種個人感受;吳信東教授認為企業的隱私就是其核心競爭力。
而吳海山先生則認為隱私是一種資產,“我們去看病的時候,恨不得把所有的信息都告訴醫生,我們買房子貸款的時候,恨不得把以往所有的信息都給銀行看,才能讓它給你貸款。這個時候隱私已經作為一種資產,有一個隱含的定價前提。你得到更好的金融服務,得到更好的企業服務,個性化服務。所以談任何個人隱私、企業隱私,得到的服務和隱私之間有一個平衡,這是在討論隱私之前需要關注的問題。”
數據加密技術大盤點
大數據生命周期分為數據發布、數據儲存、分析和挖掘、數據使用,在這些環節中都存在數據隱私保護的問題。加密是保護數據的一個手段,但是加密之后的數據無法使用。現在的技術需要保證數據在流通使用過程中也不造成泄露,也就是限制數據的使用。
在沙龍現場,幾位嘉賓也探討了目前幾種常見的數據加密技術。
差分隱私
差分隱私其實是一種度量方式。通過一群人里算出來的模型,和去除A算出來的是一樣的,這樣就無從判斷A是否還在這群人中,就起到保護A隱私的作用。這個方法對于保護“泯然眾人”的數據是有用的,但是卻很難保護那些“很個性”的數據,因為這些“個性”的數據對于整體數據的計算印象很大。
多方安全計算
多方安全計算(MPC)是解決一組互不信任的參與方之間保護隱私的協同計算問題,MPC要確保輸入的獨立性,計算的正確性,同時不泄露各輸入值給參與計算的其他成員。主要是針對無可信第三方的情況下,如何安全地計算一個約定函數的問題,在電子選舉、電子投票、電子拍賣、秘密共享、門限簽名等場景中有著重要的作用。
K匿名
k-匿名技術是1998 年由Samarati和Sweeney提出的,要求發布的數據中存在一定數量(至少為k)的在準標識符上不可區分的記錄,使攻擊者不能判別出隱私信息所屬的具體個體,從而保護了個人隱私。明略科技集團首席科學家吳信東教授舉例解釋,“比如,為了避免報警者受到報復,警察記錄的是方圓多少距離的人打來的報警電話,通過對位置信息的泛化,保護了報警者的位置信息,但同時也會降低數據的可用性。可能警察記錄是五公里以內的人打了電話,但是警察自己也找不到那個人是誰。”
什么樣的數據值得保護?數據隱私保護技術就像是順豐快遞,要看寄送的東西值不值得快遞費用。評估數據的價值,是比數據保護更重要的事情。數據保護問題的本質就在于我們如何對數據進行定價。或許有人出價一萬買你的隱私,你會斷然拒絕;但如果是一億呢?離開數據的定價、數據流動產生的價值和通過數據得到的服務去討論數據隱私,其實都是比較片面的。
隱私保護的政策問題
2018年5月25日,歐洲聯盟出臺《通用數據保護條例》(GDPR General Data Protection Regulation)。這是全球目前最嚴格的數據保護條例。其最高的一筆罰單給了英國航空公司,罰金數額為1.8339億英鎊(約合15.8億元人民幣)。
國際方面對于數據保護的政策愈發嚴格,中國在保護個人信息方面也發布了推薦性國家標準《信息安全技術個人信息安全規范》,可以說在數據隱私保護規定方面,中國走在了亞洲前列。這項規范也參考了歐盟的《通用數據保護條例》,ISO29000系列等國際范圍內的個人信息保護法律法規及標準,同時,從國內主要存在的個人信息保護現狀和問題出發制定標準,更側重標準的實用性。
歐盟《通用數據保護條例》(即GDPR)的制定確實在一定程度上保護了數據,但是也阻礙了歐洲人工智能產業的發展。而且,因為GDPR罰款高達公司全球營業額的4%,這對傳統產業的企業很不友好、也不利于小公司的生存和發展。
從政策制定角度來講,隱私保護政策需要可操作性以及合理合法的指導,讓受眾接受這條政策并積極施行。從經濟學角度來講,隱私保護政策會提高數據的價值,畢竟數據本身就是一種資產。
更嚴的隱私無疑會增加數據的成本,讓整個行業尤其是小公司生存更加困難;更開放的數據共享,只會讓大眾和媒體放大數據隱私的侵犯,反而忘記數據共享帶來的價值。我們需要的是靈活的隱私保護和數據共享方案。
評論
查看更多