近日,在百大人物峰會(huì)上,創(chuàng)新工場(chǎng)創(chuàng)始人李開復(fù)談及數(shù)據(jù)隱私保護(hù)和監(jiān)管問題時(shí),表示:“人們不應(yīng)該只將人工智能帶來的隱私問題視為一個(gè)監(jiān)管問題,可嘗試用‘以子之矛攻己之盾’——用更好的技術(shù)解決技術(shù)帶來的挑戰(zhàn),例如同態(tài)加密、聯(lián)邦學(xué)習(xí)等技術(shù)。”
那么最近備受關(guān)注、被越來越多提及的聯(lián)邦學(xué)習(xí)是什么?如何解決人工智能應(yīng)用中數(shù)據(jù)隱私保護(hù)帶來的挑戰(zhàn)?
▌“聯(lián)邦學(xué)習(xí)”到底是什么?能解決什么問題?
在回答 “聯(lián)邦學(xué)習(xí)” 是什么之前,我們需要了解為什么會(huì)有這樣的技術(shù)出現(xiàn),它的出現(xiàn)是為了解決什么問題。
近年來,隨著人工智能技術(shù)的發(fā)展和更廣泛的應(yīng)用,數(shù)據(jù)隱私保護(hù)也被越來越多地關(guān)注,歐盟出臺(tái)了首個(gè)關(guān)于數(shù)據(jù)隱私保護(hù)的法案《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR),明確了對(duì)數(shù)據(jù)隱私保護(hù)的若干規(guī)定,中國(guó)在 2017 年起實(shí)施的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》和《中華人民共和國(guó)民法總則》中也指出 “網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀壞其收集的個(gè)人信息,并且與第三方進(jìn)行數(shù)據(jù)交易時(shí)需確保擬定的合同明確約定擬交易數(shù)據(jù)的范圍和數(shù)據(jù)保護(hù)義務(wù)。” 這意味著對(duì)于用戶數(shù)據(jù)的收集必須公開、透明,企業(yè)、機(jī)構(gòu)之間在沒有用戶授權(quán)的情況下數(shù)據(jù)不能交換。
這給人工智能應(yīng)用給機(jī)器學(xué)習(xí)帶來的挑戰(zhàn)是:如果機(jī)構(gòu)之間的數(shù)據(jù)無法互通,一家企業(yè)一家機(jī)構(gòu)數(shù)據(jù)量有限,或者是少數(shù)巨頭公司壟斷大量數(shù)據(jù),而小公司很難獲得數(shù)據(jù),形成大大小小的“數(shù)據(jù)孤島”。在這種沒有權(quán)限獲得足夠多的用戶數(shù)據(jù)的情況下,各個(gè)公司尤其是小公司,如何建模?
在這種情況下,“聯(lián)邦學(xué)習(xí)”的概念應(yīng)運(yùn)而生。所謂 “聯(lián)邦學(xué)習(xí)”,首先是一個(gè)“聯(lián)邦”。不同于企業(yè)之前的“各自為政”,擁有獨(dú)立的數(shù)據(jù)和獨(dú)立的模型,聯(lián)邦學(xué)習(xí)通過將企業(yè)、機(jī)構(gòu)納入“一個(gè)國(guó)家、一個(gè)聯(lián)邦政府” 之下,將不同的企業(yè)看作是這個(gè)國(guó)家里的 “州”,彼此又保持一定的獨(dú)立自主,在數(shù)據(jù)不共享的情況下共同建模,提升模型效果。所以“聯(lián)邦學(xué)習(xí)” 實(shí)際上是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密(混淆)形態(tài)的前提下共建模型。
Google 公司率先提出了基于個(gè)人終端設(shè)備的“橫向聯(lián)邦學(xué)習(xí)”(Horizontal Federated Learning),其核心是,手機(jī)在本地進(jìn)行模型訓(xùn)練,然后僅將模型更新的部分加密上傳到云端,并與其他用戶的進(jìn)行整合。目前該方法已在 Google 輸入法中進(jìn)行實(shí)驗(yàn)。一些研究者也提出了 CryptoDL 深度學(xué)習(xí)框架、可擴(kuò)展的加密深度方法、針對(duì)于邏輯回歸方法的隱私保護(hù)等。但是,它們或只能針對(duì)于特定模型,或無法處理不同分布數(shù)據(jù),均存在一定的弊端。
在國(guó)內(nèi),聯(lián)邦技術(shù)的研究由微眾銀行首席人工智能官(CAIO)楊強(qiáng)教授帶領(lǐng)微眾銀行 AI 團(tuán)隊(duì)主導(dǎo),并且首次提出了基于 “聯(lián)邦學(xué)習(xí)” 的系統(tǒng)性的通用解決方案,強(qiáng)調(diào)在任何數(shù)據(jù)分布、任何實(shí)體上,均可以進(jìn)行協(xié)同建模學(xué)習(xí),解決個(gè)人 (to C) 和公司間 (to B) 聯(lián)合建模的問題,開啟了將聯(lián)邦學(xué)習(xí)技術(shù)進(jìn)行商用,建立聯(lián)邦行業(yè)生態(tài)的探索。
▌如何在保護(hù)數(shù)據(jù)隱私前提下打破數(shù)據(jù)孤島?
因?yàn)楣聧u數(shù)據(jù)具有不同的分布特點(diǎn),所以在聯(lián)邦學(xué)習(xí)的技術(shù)方案中,也大致分為:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)三種方案。
考慮有多個(gè)數(shù)據(jù)擁有方,每個(gè)數(shù)據(jù)擁有方各自所持有的數(shù)據(jù)集 Di 可以用一個(gè)矩陣來表示。矩陣的每一行代表一個(gè)用戶,每一列代表一種用戶特征。同時(shí),某些數(shù)據(jù)集可能還包含標(biāo)簽數(shù)據(jù)。如果要對(duì)用戶行為建立預(yù)測(cè)模型,就必須要有標(biāo)簽數(shù)據(jù)??梢园延脩籼卣鞫x為 X,把標(biāo)簽特征定義為 Y。
比如,在金融領(lǐng)域,用戶的信用是需要被預(yù)測(cè)的標(biāo)簽 Y;在營(yíng)銷領(lǐng)域,標(biāo)簽是用戶的購買愿望 Y;在教育領(lǐng)域,則是學(xué)生掌握知識(shí)的程度等。用戶特征 X 加標(biāo)簽 Y 構(gòu)成了完整的訓(xùn)練數(shù)據(jù)(X,Y)。但是,在現(xiàn)實(shí)中,往往會(huì)遇到這樣的情況:各個(gè)數(shù)據(jù)集的用戶不完全相同,或用戶特征不完全相同。具體而言,以包含兩個(gè)數(shù)據(jù)擁有方的聯(lián)邦學(xué)習(xí)為例,數(shù)據(jù)分布可以分為以下三種情況:兩個(gè)數(shù)據(jù)集的用戶特征(X1,X2,…)重疊部分較大,而用戶 (U1,U2…) 重疊部分較小;兩個(gè)數(shù)據(jù)集的用戶 (U1,U2…) 重疊部分較大,而用戶特征(X1,X2,…)重疊部分較??;兩個(gè)數(shù)據(jù)集的用戶 (U1,U2…) 與用戶特征重疊(X1,X2,…)部分都比較小。
可以看出,聯(lián)邦遷移學(xué)習(xí)解決了不同樣本(數(shù)據(jù)集)、不同特征維度之前聯(lián)合建模的問題,第一次讓不同領(lǐng)域的企業(yè)之間在保護(hù)彼此數(shù)據(jù)隱私的前提下實(shí)現(xiàn)跨領(lǐng)域創(chuàng)造價(jià)值。例如,銀行擁有用戶購買能力的特征,社交平臺(tái)擁有用戶個(gè)人偏好特征,而電商平臺(tái)則擁有產(chǎn)品特點(diǎn)的特征,傳統(tǒng)的機(jī)器學(xué)習(xí)模型無法直接在異構(gòu)數(shù)據(jù)上進(jìn)行學(xué)習(xí),聯(lián)邦學(xué)習(xí)卻能在保護(hù)三方數(shù)據(jù)隱私的基礎(chǔ)上進(jìn)行聯(lián)合建模,從而打破數(shù)據(jù)壁壘,構(gòu)建跨領(lǐng)域合作。
為了更加清楚方案背后的邏輯,以包含兩個(gè)數(shù)據(jù)擁有方(即企業(yè) A 和 B)的場(chǎng)景為例來介紹聯(lián)邦學(xué)習(xí)的系統(tǒng)構(gòu)架,這個(gè)架構(gòu)可以拓展延伸到包含多個(gè)數(shù)據(jù)擁有方的場(chǎng)景。
假設(shè)企業(yè) A 和 B 想聯(lián)合訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,它們的業(yè)務(wù)系統(tǒng)分別擁有各自用戶的相關(guān)數(shù)據(jù)。此外,企業(yè) B 還擁有模型需要預(yù)測(cè)的標(biāo)簽數(shù)據(jù)。出于數(shù)據(jù)隱私和安全考慮,A 和 B 無法直接進(jìn)行數(shù)據(jù)交換。此時(shí),可使用聯(lián)邦學(xué)習(xí)系統(tǒng)建立模型,系統(tǒng)構(gòu)架由兩部分構(gòu)成,如圖 a 所示。
圖:聯(lián)邦學(xué)習(xí)系統(tǒng)構(gòu)架
第一部分:加密樣本對(duì)齊。由于兩家企業(yè)的用戶群體并非完全重合,系統(tǒng)利用基于加密的用戶樣本對(duì)齊技術(shù),在 A 和 B 不公開各自數(shù)據(jù)的前提下確認(rèn)雙方的共有用戶,并且不暴露不互相重疊的用戶。以便聯(lián)合這些用戶的特征進(jìn)行建模。
第二部分:加密模型訓(xùn)練。在確定共有用戶群體后,就可以利用這些數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型。為了保證訓(xùn)練過程中數(shù)據(jù)的保密性,需要借助第三方協(xié)作者 C 進(jìn)行加密訓(xùn)練。以線性回歸模型為例,訓(xùn)練過程可分為以下 4 步(如圖 b 所示):第①步:協(xié)作者 C 把公鑰分發(fā)給 A 和 B,用以對(duì)訓(xùn)練過程中需要交換的數(shù)據(jù)進(jìn)行加密;第②步:A 和 B 之間以加密形式交互用于計(jì)算梯度的中間結(jié)果;第③步:A 和 B 分別基于加密的梯度值進(jìn)行計(jì)算,同時(shí) B 根據(jù)其標(biāo)簽數(shù)據(jù)計(jì)算損失,并把這些結(jié)果匯總給 C。C 通過匯總結(jié)果計(jì)算總梯度并將其解密。第④步:C 將解密后的梯度分別回傳給 A 和 B;A 和 B 根據(jù)梯度更新各自模型的參數(shù)。
迭代上述步驟直至損失函數(shù)收斂,這樣就完成了整個(gè)訓(xùn)練過程。在樣本對(duì)齊及模型訓(xùn)練過程中,A 和 B 各自的數(shù)據(jù)均保留在本地,且訓(xùn)練中的數(shù)據(jù)交互也不會(huì)導(dǎo)致數(shù)據(jù)隱私泄露。因此,雙方在聯(lián)邦學(xué)習(xí)的幫助下得以實(shí)現(xiàn)合作訓(xùn)練模型。
第三部分:效果激勵(lì)。聯(lián)邦學(xué)習(xí)的一大特點(diǎn)就是它解決了為什么不同機(jī)構(gòu)要加入聯(lián)邦共同建模的問題,即建立模型以后模型的效果會(huì)在實(shí)際應(yīng)用中表現(xiàn)出來,并記錄在永久數(shù)據(jù)記錄機(jī)制(如區(qū)塊鏈)上。提供的數(shù)據(jù)多的機(jī)構(gòu)會(huì)看到模型的效果也更好,這體現(xiàn)在對(duì)自己機(jī)構(gòu)的貢獻(xiàn)和對(duì)他人的貢獻(xiàn)。這些模型對(duì)他人效果在聯(lián)邦機(jī)制上以分給各個(gè)機(jī)構(gòu)反饋,并繼續(xù)激勵(lì)更多機(jī)構(gòu)加入這一數(shù)據(jù)聯(lián)邦。以上三個(gè)步驟的實(shí)施,既考慮了在多個(gè)機(jī)構(gòu)間共同建模的隱私保護(hù)和效果,又考慮了如何獎(jiǎng)勵(lì)貢獻(xiàn)數(shù)據(jù)多的機(jī)構(gòu),以一個(gè)共識(shí)機(jī)制來實(shí)現(xiàn)。所以,聯(lián)邦學(xué)習(xí)是一個(gè) “閉環(huán)” 的學(xué)習(xí)機(jī)制。
由此我們也可以看出聯(lián)邦學(xué)習(xí)的幾個(gè)顯著特征:
一、各方數(shù)據(jù)都保留在本地,不泄露隱私也不違反法規(guī);
二、多個(gè)參與者聯(lián)合數(shù)據(jù)建立虛擬的共有模型,實(shí)現(xiàn)各自的使用目的、共同獲益;
三、在聯(lián)邦學(xué)習(xí)的體系下,各個(gè)參與者的身份和地位相同;
四、聯(lián)邦學(xué)習(xí)的建模效果和傳統(tǒng)深度學(xué)習(xí)算法的建模效果相差不大;
五、“聯(lián)邦”就是數(shù)據(jù)聯(lián)盟,不同的聯(lián)邦有著不同的運(yùn)算框架,服務(wù)于不同的運(yùn)算目的。如金融行業(yè)和醫(yī)療行業(yè)就會(huì)形成不同的聯(lián)盟。
▌聯(lián)邦學(xué)習(xí)目前進(jìn)展
說了那么多,聯(lián)邦學(xué)習(xí)目前到底有哪些技術(shù)進(jìn)展呢?
最新消息顯示,Google 推出了首個(gè)產(chǎn)品級(jí)的聯(lián)邦學(xué)習(xí)系統(tǒng)并發(fā)布論文 “Towards Federated Learning at Scale:System Design”,介紹了聯(lián)邦學(xué)習(xí)系統(tǒng)的設(shè)計(jì)理念和現(xiàn)存挑戰(zhàn)并提出了自己的解決方案。國(guó)內(nèi)方面,微眾 AI 團(tuán)隊(duì)對(duì)外開源了自研的 “聯(lián)邦學(xué)習(xí) FATE(Federated AI Technology Enabler)” 學(xué)習(xí)框架,目前在信貸風(fēng)控、客戶權(quán)益定價(jià)、監(jiān)管科技等領(lǐng)域已經(jīng)推出了相應(yīng)的商用方案。
在系統(tǒng)框架之外,圍繞聯(lián)邦學(xué)習(xí)的技術(shù)標(biāo)準(zhǔn)也在陸續(xù)推進(jìn)中。今年 2 月份,IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第一次會(huì)議在深圳召開,作為國(guó)際上首個(gè)針對(duì)人工智能協(xié)同技術(shù)框架訂立的標(biāo)準(zhǔn),不僅明確了聯(lián)邦學(xué)習(xí)在數(shù)據(jù)合規(guī)、行業(yè)應(yīng)用等方面的重要意義,還為立法機(jī)構(gòu)在涉及隱私保護(hù)的問題時(shí)提供技術(shù)參考。
總而言之,無論是技術(shù)理論的探索還是統(tǒng)一標(biāo)準(zhǔn)的制定,在全球范圍內(nèi)對(duì)聯(lián)邦學(xué)習(xí)的落地探索都會(huì)繼續(xù),聯(lián)邦學(xué)習(xí)作為一個(gè)新興的人工智能基礎(chǔ)技術(shù),還有很長(zhǎng)的路要走。我們也有理由期待,隨著聯(lián)邦學(xué)習(xí)理論、應(yīng)用體系的逐漸豐富,隱私保護(hù)問題所帶來的技術(shù)挑戰(zhàn)將得到有效解決。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7006瀏覽量
88955 -
人工智能
+關(guān)注
關(guān)注
1791文章
47208瀏覽量
238298 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5559
原文標(biāo)題:李開復(fù)口中的“聯(lián)邦學(xué)習(xí)” 到底是什么?| 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論