色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學習的對策

MqC7_CAAI_1981 ? 來源:未知 ? 作者:胡薇 ? 2018-08-17 14:48 ? 次閱讀

7月28-29日,由中國人工智能學會和深圳市羅湖區(qū)人民政府共同主辦,馬上科普承辦的“2018 中國人工智能大會(CCAI 2018)”完美收官。

大會第一天上午,中國人工智能學會副理事長、AAAI/ACM/IEEE Fellow、IJCAI理事長楊強教授作題為《GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學習的對策》的主題演講。

以下是根據(jù)速記整理的大會講座實錄。

楊強教授 中國人工智能學會副理事長、AAAI/ACM/IEEE Fellow、IJCAI理事長

今天我也非常高興來到這里和大家分享最近的一段心得。剛才聽了幾位非常精彩的演講。大家都在為AI的進步激動了一把,我也同樣小小地激動了一把,因為現(xiàn)在確實是未來已來。但是,我們面對未來,總還是有小小的隱憂,因為未來也是未知,也有隱憂。我們對什么未知, 為什么有隱憂?

人工智能曾經(jīng)有過三個高峰,現(xiàn)在是處在第三個高峰,這中間有兩次低谷。我們研究一下:為什么會出現(xiàn)低谷?第一個高峰的出現(xiàn)是因為大家看到了人工智能的希望,也就是自動化算法對提高效率的希望,但是到后來卻發(fā)現(xiàn)算法的能力不夠,因此就產(chǎn)生失望,進而導致了第一個低谷。然后算法跟上來了,但是這時卻發(fā)現(xiàn)算力和數(shù)據(jù)不夠,專家系統(tǒng)的設計跟不上工業(yè)的成長需求,這就引發(fā)了AI的第二個低谷。之后大家又看到,現(xiàn)在算法和算力都有提升,而且有了大數(shù)據(jù)的出現(xiàn),AI的難題終于可以解決了。現(xiàn)在的一個說法是我們處于大數(shù)據(jù)時代,所以這一波的人工智能一定會成功。這個感覺來自一個很強的推動力,就是AlphaGo的成功。最初的2016年版的AlphaGo使用了30萬個棋局訓練,是大數(shù)據(jù)的成功。下面的這幅照片,是上周我們在國際人工智能大會IJCAI上,在瑞典為AlphaGo團隊頒了一個國際人工智能獎 (MINSKY AWARD)。之所以如此受到AlphaGo的鼓舞,是因為我們聯(lián)想到,既然AlphaGo在圍棋上都有如此大的突破,那么人工智能是不是在各行各業(yè)都會突飛猛進?

我們問:AlphaGo 的這種大數(shù)據(jù)真的出現(xiàn)在各行各業(yè)了?了解到的情況卻讓我們非常失望,遠遠不是!更多的應用領域有的只是小數(shù)據(jù),或者質量很差的數(shù)據(jù)。 上面這個“人工智能到處可用”的錯誤的認知會導致很嚴重的商業(yè)后果。最近聽到一個IBM沃森應用失敗的消息。大家知道,IBM沃森是一個非常有名的系統(tǒng)。這個系統(tǒng)是個問答(QA)系統(tǒng),給一個問題Q,它能很精準找到答案A。具體過程大概就是這樣:比如我們給了上面一個問題,沃森就用一個高維的表示來表達這個問題Q。大家可以把這種表示想象成物理學里的光譜,就是一束光打過來,用棱鏡分解成不同頻率的光,就看到了光譜。有了這個光譜以后,可以和答案庫里對應答案,它的概率也應該相應的高,這就是可能的答案。這個流程應該說非常簡單,但問題就是要有一個很健全的答案庫。IBM在電視大賽上取得了成功之后,就把這個應用在一些聽起來比較好的垂直領域——醫(yī)療領域。 但是,最近的消息是在一個美國的癌癥治療中心,發(fā)現(xiàn)這個應用非常不理想,從而導致了這個項目的失敗。我們看一看在醫(yī)療領域,這些領域里的問題和答案來自哪里?比如收入有病癥、基因序列、病理報告、各種各樣的檢測、各種論文,沃森的任務是利用這些數(shù)據(jù)來做診斷,幫助醫(yī)生。但是,經(jīng)過一段時間的實踐發(fā)現(xiàn),這個大數(shù)據(jù)的來源遠遠不夠,導致系統(tǒng)的效果差。那么,在醫(yī)療領域,我、缺乏哪些數(shù)據(jù)?我們需要很多有標注的數(shù)據(jù)。但是,我們知道,醫(yī)生的時間是非常昂貴,不可能像一些其他計算機視覺應用一樣,大眾、普通人都可以來做標注。在醫(yī)療這樣專業(yè)領域,只有專家才能做決策,但是專家的時間非常寶貴,就導致這種標注的數(shù)據(jù)非常有限。有人估計了一下,把醫(yī)療數(shù)據(jù)放在第三方公司標注,需要動用1萬人用長達10年的時間才能收集到有效的數(shù)據(jù)。這就說明,在這些領域,即使動用很多人來做標注,數(shù)據(jù)也不夠。這就是我們面臨的現(xiàn)實。

那么可不可以把很多散落在各地、各個機構的數(shù)據(jù)合并成大數(shù)據(jù)?現(xiàn)實是,我們訓練預測模型時,需要有一部分的特征,即原始特征叫做X。比如,在手機應用里,有用戶信息的維度,也有產(chǎn)品特征的維度,這些可以看作是X維度。但要用這些維度做用戶行為預測模型,同時還要有行為標注列Y 。 Y就是我們要知道的答案。比如在金融領域,Y就是用戶的信用;在營銷領域,Y就是用戶的購買愿望;而在教育領域,Y就是學生學到知識的程度等。X+Y才有了真正的訓練數(shù)據(jù),就像對不同圖像里的物體進行標注一樣。

但是,在現(xiàn)實當中,卻往往遇到這樣的情況:有些企業(yè)只有X,只有一些沒有標注的數(shù)據(jù),即使不斷地在收數(shù)據(jù),但也只是部分的數(shù)字化;有些企業(yè)可能有Y,有標注,通過一些手段或者應用本身就是帶有標注的,但是,它們對應的數(shù)據(jù)樣本也不多。那么這些企業(yè)能不能把它們的數(shù)據(jù)很容易地合并,變成有用的訓練數(shù)據(jù)?我們發(fā)現(xiàn),這樣做是越來越難了,因為企業(yè)中間是有道墻的,形成數(shù)據(jù)源的隔離。數(shù)據(jù)源隔離這種現(xiàn)象是很多的。舉個例子,我現(xiàn)在在“微眾銀行”學習AI和金融的結合,這里有大量的應用,比如智慧零售。在零售領域的數(shù)據(jù)來自很多產(chǎn)品的數(shù)據(jù)、用戶購買商品的數(shù)據(jù)等。但是,零售業(yè)卻缺乏其他一些數(shù)據(jù),比如他們并不是知道用戶的購買能力,或者支付習慣等。那么這些發(fā)展智慧零售的機構能不能把自己的數(shù)據(jù)和銀行的數(shù)據(jù)直接合并?答案是不行的。

這里有幾個原因。首先公司間的數(shù)據(jù)合作要考慮利益的交換,然后不同部門和機構的行政批準流程也許很不一樣;同時,現(xiàn)代社會對于用戶隱私的要求也越來越高,公眾的訴求和監(jiān)管的要求也是不允許數(shù)據(jù)簡單“粗暴”地進行交換的。因此很多數(shù)據(jù)的共享性很差。這些原因就導致了在很多需要機器學習模型的領域,數(shù)據(jù)標注不足、標簽大量缺失等問題。

所以,我們的問題是,雖然理想中的AI是有大數(shù)據(jù)的支持,但是現(xiàn)實中遇見的卻是一個個數(shù)據(jù)孤島。我的看法是,如果這個問題解決不好就有可能導致再一次的AI低谷。而這個問題的重要性,還遠遠沒有引起人工智能從業(yè)者們的關注。

下面總結一下。隱私、安全和滿足監(jiān)管的要求為AI帶來了一個前所未有的挑戰(zhàn),這個挑戰(zhàn)導致大部分企業(yè)只擁有小數(shù)據(jù)。我可以先給一個結論:我們AI界現(xiàn)在并沒有很好地應對這些挑戰(zhàn),并沒有用大量的時間和精力去設計保護隱私安全和滿足法律法規(guī)的機器學習框架來應對這些挑戰(zhàn)。可以看一下當下的媒體,他們的宣傳機器大部分時間都在傳播這樣一類新聞,就是某某機構、某某大牛又創(chuàng)造出一種新算法,又可以把某個指標,比如準確率做到更好。指標的提高固然很重要,但是,這不是人工智能當下最重要的需求,因為這并沒有解決社會和企業(yè)的痛點。我認為當下更應該關心的是,在隱私、安全和監(jiān)管要求下,如何讓AI系統(tǒng),更加高效、準確地共同使用各自的數(shù)據(jù),能夠在小數(shù)據(jù)(很少的樣本和特征)和弱監(jiān)督(有很少的標注)的條件下做更好的模型。

那么,監(jiān)管對于數(shù)據(jù)的交換管得嚴不嚴?非常嚴,而且越來越嚴。首先帶大家看一下歐盟最近引入的一個新的法案《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR)。也許在座的一些同事已經(jīng)了解了,但是我相信大多數(shù)的同事是第一次聽到這個法案。這是什么法案?和以往的行業(yè)規(guī)范不同,這是一個真正可以執(zhí)行的法律,違背它的后果是非常嚴重的,因為罰款可以高達被罰機構的全球營收的4%,非常高。GDPR在今年5月25日生效,里面有很多條款都是用來保護用戶隱私和數(shù)據(jù)安全。比如,過去下載一個APP時,會看到要我們表示同意的文件,而這里的一些法律解釋,往往會用晦澀的法律語言來描述,并且用很小的字體展示。那么,這在現(xiàn)在根據(jù)GDPR是不允許的,因為GDPR要求這樣的文件一定要用清晰可理解的語言來解釋。同樣,經(jīng)營者要允許用戶來表達數(shù)據(jù)“被遺忘”的愿望,即“我不希望你記住我過去的數(shù)據(jù),并希望從現(xiàn)在起,你不要利用我的數(shù)據(jù)來建模”。這些條款最近已經(jīng)被用在Facebook和Google上,使他們成為基于這個法案的第一批被告,而且罰款是巨額的。

我們看一下GDPR對人工智能有哪些影響。首先,有一條款說:對使用自動化模型決策全面禁止。我們看這一條覺得非常不可理解。也就是說,如果你有一個全面自動化的機器學習模型,用來決策做用戶相關的商業(yè)活動,在決策過程中沒有任何人的參與,如果機器去使用這個決策,這也是違法的。做機器學習的聽到這個要求就嚇出一身冷汗。另外,用戶也可以對模型的決策提出質疑,而且有權去要求模型對其的決策進行解釋。也就是說,現(xiàn)在可解釋模型已經(jīng)變成了法案,以至于一個著名機器學習的教授,是華盛頓大學的教授 Domingos,我很尊敬的一位學者,發(fā)了一個推特:5月25日以后,深度學習就非法了。因為深度學習到目前為止是黑箱,是不可解釋的。還有用戶有權知道數(shù)據(jù)使用的目的,而且可以反悔,可以撤回數(shù)據(jù)。大家想想這對人工智能有多么大的影響!

研究界和企業(yè)現(xiàn)在滿足這樣或類似法規(guī)的程度如何?我覺得幾乎是零。我們經(jīng)常用到的做法,是在使用用戶數(shù)據(jù)時都讓用戶劃個鉤,表示“同意”。但往往收集數(shù)據(jù)的一方并不是建立模型的一方,在企業(yè)中,大家習慣在一個地方收集數(shù)據(jù),把數(shù)據(jù)轉移到另外一個地方去處理和清洗,然后可能再把數(shù)據(jù)拿到另一個地方去建立模型,再把模型賣給第三方去應用。現(xiàn)在這個過程要非常小心,因為數(shù)據(jù)只要出了收集方就可能犯法。第三方使用模型的目的,也許產(chǎn)生原始數(shù)據(jù)的用戶完全不知道,這就很有可能觸犯GDPR的法律。在計算機、大數(shù)據(jù)、數(shù)據(jù)挖掘里有一個著名理論,叫做差分隱私理論(Differential Privacy),就是希望通過在數(shù)據(jù)里加噪音,直到第三方不能區(qū)分任何個體為止。也就是說,有很高的概率,數(shù)據(jù)不能還原到一個個體,以此來保護用戶隱私。這種在過去被認為是保護隱私的技術可能在GDPR下就不使用了。例如,如果我是A方,收集了一些數(shù)據(jù),在里面加一些噪音,根據(jù)差分隱私理論,可以把數(shù)據(jù)的使用權賣給B,只要B在一定概率下不能區(qū)分任何個體用戶,這在過去被認為是滿足法案的,但是現(xiàn)在不行了,為什么?因為在一定可能性以下,用戶的隱私還是可以被泄露的,只要有這個可能性,數(shù)據(jù)的交易就有可能是被判違法的。所以,數(shù)據(jù)的這種在企業(yè)間的交換,無論加噪音與否,本身就違反了《通用數(shù)據(jù)保護條例》。

那么,GDPR是歐盟建立的,和我們有什么關系?我看到,最近對隱私和安全的考慮是一個世界的趨勢,歐盟引入了這個法律,不能說明天美國和世界其他地方就不引入這個法律。同樣,中國對數(shù)據(jù)的監(jiān)管也是非常嚴格的,對用戶數(shù)據(jù)的隱私保護也已經(jīng)有相關的法案,而且越來越細化。這個趨勢是世界性的。

我們的數(shù)據(jù)本來就已經(jīng)是孤島的形式了,解決孤島一個直接方案就是把數(shù)據(jù)從A遷移到C,再從B遷移到C,然后再在C加以聚合。但是,現(xiàn)在這樣做很可能就是違法的,即法律不允許我們粗暴地來做數(shù)據(jù)聚合這件事。那么我們可以合法地做些什么,來解決這個數(shù)據(jù)孤島問題?這個問題應該足夠引起人工智能學者和從業(yè)者的深思,因為很可能這個困境就是導致下一個人工智能冬天的導火索。所以,我們倡議把研究的重點轉移到如何解決數(shù)據(jù)孤島的問題。這里我們提出一個可能的解決方案,叫做聯(lián)邦遷移學習。什么是聯(lián)邦學習,什么又是遷移學習?

我們所希望看到的是,假設有三個不同的企業(yè)A、B和C,每個企業(yè)都有不同數(shù)據(jù)。比如,第一個企業(yè)A有一些用戶特征數(shù)據(jù);第二個企業(yè)B有其他的一些用戶特征數(shù)據(jù),同時也包括一些標注數(shù)據(jù);第三個企業(yè)C是一個銀行,可能有有關金融的特征和標注數(shù)據(jù)。這三個企業(yè)按照GDPR準則是不能粗暴地把三方數(shù)據(jù)加以合并,因為他們的用戶并沒有同意這樣做。假設在三方各自建立一個模型,而這個行為已經(jīng)獲得各自用戶的認可。我們希望做到的是各個企業(yè)的自有數(shù)據(jù)不出本地,就像劃地為牢一樣,把自己圍一個圈,圍起來。然后,系統(tǒng)可以通過加密機制下的參數(shù)交換方式,在不違反法規(guī)情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數(shù)據(jù)聚合在一起一樣,但是數(shù)據(jù)本身不移動,也不泄露隱私,模型在各自的區(qū)域還是為本地的目標服務。在這樣一個機制下,各個參與者的身份和地位相同,這就是為什么這個體系叫做“聯(lián)邦學習”。

我們建立這個機制,不是只把參數(shù)從A轉到C、從C轉到B那么簡單,實際上對最后模型的效果是有要求的——既要安全,又要有效。安全是指數(shù)據(jù)在本地不能移出,而模型的參數(shù)被第三方處理時不僅要加密,而且要保證不能被反推原始用戶的任何特征;效果高是指所謂的Lossless,就是效果要符合無損失原則,在A、B 和C的模型效果要和把數(shù)據(jù)真正聚合在一起一樣。這兩個要求對AI的從業(yè)者是一個挑戰(zhàn)。

那么,這個要求能不能做到?

首先看一下最近業(yè)界的一些進展。谷歌最近提出了一個針對安卓手機模型更新的數(shù)據(jù)加密需求,建立的一種聯(lián)邦學習方案。比如,使用安卓手機時,會不斷匯聚數(shù)據(jù)到安卓云上進行處理。聯(lián)邦學習就是針對這樣的過程,首先在每個終端上進行模型建設,參與者的特征相同,但他們做的模型可能很弱,雖然功能都一樣。然后在云端把單個的模型加以聚合形成大的模型,大的模型再分發(fā)到各自終端里。參與者特征相同,樣本不同,這樣不斷的聚合使得模型加以更新;同時通過加密算法,使得云端并沒有解密終端傳來的模型,同樣別的終端也沒有辦法解密鄰居的數(shù)據(jù)。

另外一種聯(lián)邦學習是假設我們有原始數(shù)據(jù)和一個建立好的模型,那么在應用這個模型到原始數(shù)據(jù)時會不會泄露隱私?這里有個算法叫做CryptoDL,是應用同態(tài)加密算法于多項式形態(tài)的激活函數(shù)。這樣的好處是可以把原始數(shù)據(jù)加密,然后用這個模型做決策,得到的結果也是一個加密的結果。我們把加密的結果傳到終端,終端可以解密實施。在整個過程中,通過這個加密機制,模型并不知道自己在做什么決策。所以說,這是在應用Inference時使用的。

剛才講的例子都是把數(shù)據(jù)橫向分段,橫向的每段都是不同的用戶樣本,他們的特征是一樣,在這樣風格下來學習得到的一塊塊數(shù)據(jù)。還有一種分割的方法就是按照特征來分段,可以看作是縱向分段,對應于兩個不同機構,機構A和機構B它們的特征不一樣。那么,我們希望在一個虛擬的第三方能夠把這些特征,在加密的狀態(tài)下加以聚合,以增強各自模型的能力。這種聯(lián)邦學習,因為加密算法的原因,只能對某些類的模型使用,比如邏輯回歸模型。 當時對很多其他模型,我們還不知道行不行。最近經(jīng)過研究發(fā)現(xiàn),聯(lián)邦學習對于樹型結構模型也是可以用的。例如,在這有一個企業(yè)、有一個數(shù)據(jù)集,那邊也有一個企業(yè)和一個數(shù)據(jù)集,通過這種加密技術可以使兩邊的樹都得到成長。有了樹模型以后就很自然可以發(fā)展到森林模型。“微眾銀行”的AI團隊就設計了一個這樣的新框架,提出了一個叫做SecureBoost的算法框架,并使用在多方協(xié)同建模的問題上。其效果是建立了中心的虛擬模型以后,可以分發(fā)到兩邊的參與者,效果和把數(shù)據(jù)聚合在一處建模相比并沒有損失,而且過程都不泄露用戶隱私。

上面所述的“聯(lián)邦學習”的優(yōu)點是,在不具體交換原數(shù)據(jù)的情況下,以及對用戶ID的差值不泄露的情況下,A和B兩邊可以參與聯(lián)邦學習的網(wǎng)絡。在這個網(wǎng)絡里就可以建立一個共同模型,這個模型的參數(shù)可以分別獨立持有。也就是說,兩邊的模型都可以得到成長,但是它們卻不直接互相溝通。這樣用戶的樣本和用戶的特征都不泄露,已經(jīng)滿足GDPR大部分的要求。不同企業(yè)和機構可以形成一個“朋友圈”,在其中用這種聯(lián)邦學習一起建模。聯(lián)邦的意思就是各個數(shù)據(jù)的擁有體,大家是平等的,并不是一個是作為老大的云端,大家都是做小弟的終端。

以上的討論是假設不同數(shù)據(jù)的樣本有一部分是共享的。但是,有時不同企業(yè)的數(shù)據(jù)樣本并不一樣,在這種情況下遇到的小數(shù)據(jù),弱監(jiān)督的問題,即數(shù)據(jù)標注卻很少的問題也可以解決嗎?一個方法就是我們一直研究的遷移學習。

我的學生戴文淵所領導的“第四范式公司”,這個AI公司在企業(yè)服務領域,利用AI的技術為企業(yè)客戶提高營銷效果。下面這個例子是他們所做的一次實踐。假設需要營銷車貸。車貸屬于大額貸款,而這種大額貸款的樣本卻很少,找新渠道成功辦理的客戶,在一定的時間內還不到100。我們在這樣小的數(shù)據(jù)集上很難建模。與此相反的情況是,有很多小額貸款對應著大量用戶。那么有沒有辦法用小量的數(shù)據(jù)建立非常好的模型,然后遷移到大額貸款的用戶上去發(fā)現(xiàn)大額貸款的用戶?第四范式使用了遷移學習,利用在千萬級微信公眾號中的小額貸款的樣本建立模型, 再利用遷移學習適配于大額貸款的領域,營銷效果非常好。

什么叫遷移學習?生活中我們學騎自行車,再學騎摩托車就很容易,為什么?因為人有這個能力,人是可以舉一反三的,通過很少的例子就可以把一個具體的體驗通用化。為什么人可以做到這一點?因為我們可以找到兩個領域的共性。比如在深圳開車,司機在車的左邊;在香港開車,司機是在車的右邊。我們如何能夠1秒鐘就從深圳開車轉到香港開車?一個車過了關以后,怎樣馬上適應右邊開車方式?我們想一想道理,怎樣找到兩邊開車的共性?共性就是司機相對于路的位置,如果司機是坐在路靠中間的位置,不管是在香港還是在深圳都適用,只要保證司機靠近路中間就可以,這是一個很實用的遷移學習例子,大家不妨試試。也就是說,開車可能很繁雜,有很多特征,但是我們卻找到了一個共性,所以學會了在深圳開車,也能很快學會在香港開車。

具體到工業(yè)上應用,例如,我們很關心用戶的輿情,當賣了一個產(chǎn)品后非常關心用戶的反饋,在網(wǎng)上、在社交網(wǎng)絡有很多的留言,我們希望一鍵式對留言進行總結。如有關書店的,對這本書可能是Great,非常好看;有些說boring,非常無趣。75%是贊的,25%是踩的。這些反饋就對書店決策者非常有用,對電商上產(chǎn)品的排名也非常有用。這個決策在同一個領域是機器學習模型進行的,我們對這一段文字進行自然語言處理,然后建立分類模型,對新來的輿情進行分類。

假設有一個數(shù)據(jù)很多的有關輿情的訓練數(shù)據(jù)已經(jīng)建立好在一方企業(yè)A,這樣就可以在A端建立一個模型。它看到一段新的用戶反饋,就可以在A端判斷是“贊”還是“踩”。當?shù)揭粋€新的領域或企業(yè)B,假設沒有任何標注數(shù)據(jù),我們就無能為力了,因為沒有標注,沒有辦法做這個模型。但是,如果這兩個領域有一定關聯(lián),比方“圖書”和“餐廳”這兩個領域也許會有一些關聯(lián),我們就會將這邊模型中間共同部分遷移到右邊來,遷移到餐館評價。

這種遷移學習怎么做?可以設計兩個深度學習網(wǎng)絡,這個網(wǎng)絡看上去也非常復雜,但是實際上邏輯很簡單優(yōu)美,是我一個博士生李正同學設計的。這里給大家分享一下,分左邊和右邊。左邊是一個專家,在本領域的專家。比如在圖書領域的專家,輸入從下面來,就可以判斷輸出從上面出來。下面輸入可能是一段用戶評論,上面就是正向和負向的判斷。但是沒有標注的那個怎么辦?我們可以找一些關鍵字,這些關鍵字是兩個因素決定的。首先要找到共享的關鍵字,就是通過這些字是沒有辦法區(qū)分領域A和B的,并且這個關鍵字又能很快告訴你輿情的趨向;同時不能夠區(qū)分領域,這些字就是很有用的通用字,我們把它叫做“橋接”或者PIVOT。把這兩個要求放在一起,根據(jù)這些關鍵字就很容易地把模型從左邊A遷移到右邊B。

經(jīng)過效果的演示最后發(fā)現(xiàn),果然是在不同領域,遷移效果最好的就是剛才提出的模型,和手工模型相比也好很多。圖中,黑體字是用戶表達的評論,藍色字是我們找出來的橋接詞,就是二個領域共有的詞。用這些詞我們可以建立一個非常好的遷移學習模型,在一個新領域數(shù)據(jù)不多或者標注數(shù)據(jù)不多的情況下也可以建立。

回到一開始講的聯(lián)邦學習的應用,可以把我剛才講的應用分為四種分類的子應用,第一種情況是數(shù)據(jù)分別在兩個不同的企業(yè),它們特征相近、樣本也相同,這是個簡單情況,在本地建模就好,不需要溝通。第二種情況,如果特征一樣、樣本不一樣,要讓兩個領域之間能夠協(xié)同,可以引入Google這樣的聯(lián)邦學習方式,不斷更新一個總模型,再分發(fā)到各個終端去;如果特征不一樣、樣本一樣就可以引入縱向的聯(lián)邦學習和同態(tài)加密技術,在一些邏輯回歸或樹形模型上加密、合并、更新;如果特征、樣本都不一樣的兩個企業(yè),它們中間的交集很少,這時就要為它進行遷移學習的建模,并在建模當中保證不能反推用戶個體信息。

舉一個銀行的例子。我們做一個試驗,比如在智慧零售這個領域有一些產(chǎn)品的數(shù)據(jù),有一些用戶購買能力的數(shù)據(jù),有一些用戶購買取向的數(shù)據(jù),或者有產(chǎn)品特點的數(shù)據(jù),但是這些數(shù)據(jù)在三個不同的地方、三個不同的企業(yè)。在過去,這種零售部門沒有辦法把數(shù)據(jù)加以聚合,現(xiàn)在用聯(lián)邦學習的方法就可以對三者共同建模,一開始的智慧零售那個需求就得到了滿足,大家可以以用戶模型分別進行商業(yè)活動,而不違背用戶隱私的原則。

總結一下,上面介紹了一個新的保護數(shù)據(jù)的技術方案,叫做“聯(lián)邦遷移學習”,來解決數(shù)據(jù)聚合建模這個問題。我們保證在不泄露隱私的情況下,大家共同建模、共同受益。

我們知道,一個新的技術手段往往只占整個商業(yè)流程的5%~10%,更需要引入很多運營、產(chǎn)品和營銷操作。下面簡要介紹如何做出一個基于聯(lián)邦遷移學習的新的數(shù)據(jù)商業(yè)模式,建立一個共同成長的大數(shù)據(jù)AI生態(tài)。

我們在建了模型以后,還需要一個商業(yè)聯(lián)盟來進行聯(lián)邦學習。這樣的聯(lián)盟應該有N個實體,它們加入了聯(lián)盟以后,就像一個朋友圈一樣能夠利用各自的數(shù)據(jù)聯(lián)合建立模型。現(xiàn)在想設計這樣一個聯(lián)盟,它需要做兩件事,第一件事是在一個垂直領域使用一個聯(lián)邦遷移學習的技術,比如金融領域的聯(lián)邦遷移學習;還有一個很重要的題目,就是可以用區(qū)塊鏈技術建立一個讓參與各方都滿意的一個共識機制來估計大家的貢獻,以此獎勵對聯(lián)盟有作用的機構。也就是說,如果A家說我為B家貢獻了多少,B家說我為C家貢獻了多少,大家可以建立一個機制,以達到某種共識,這個共識可以通過區(qū)塊鏈來運營組織,維持這樣的共識。這樣的一個機制就是我們所說的一個激勵機制,即 incentive。我們既要有上面的共識機制,又要有下面底層聯(lián)邦學習的技術設計,這樣可以設計出多個垂直領域的聯(lián)邦遷移學習聯(lián)盟。比如,如果和金融機構合作就把這樣一個金融聯(lián)邦遷移學習聯(lián)盟;而在醫(yī)療領域,可以建立一個醫(yī)藥聯(lián)邦遷移學習聯(lián)盟。

總之,目前AI的發(fā)展并不是大家所想的那么樂觀。因為現(xiàn)在社會大眾和監(jiān)管機構對數(shù)據(jù)的安全、隱私非常重視,面對這個重視程度AI界還做得遠遠不夠。今后用簡單粗暴方式進行多方數(shù)據(jù)的聚合是不可能的。那么,AI的路應該怎么走?可以有不同的答案。我這里介紹的是一個技術手段——聯(lián)邦遷移學習——也許是一個出路。同時,我們也有一個建立商業(yè)聯(lián)盟的建議,就是建立一個聯(lián)邦學習的企業(yè)和機構聯(lián)盟,監(jiān)管部門可以作為其中一個單元,把監(jiān)管的要求變成解決方案的一部分,讓大家共同成長。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1794

    文章

    47642

    瀏覽量

    239650
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    132928

原文標題:CCAI2018演講實錄丨楊強:GDPR對AI的挑戰(zhàn)和基于聯(lián)邦遷移學習的對策

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NVIDIA AI助力實現(xiàn)更好的癌癥檢測

    由美國頂級醫(yī)療中心和研究機構的專家組成了一個專家委員會,該委員會正在使用 NVIDIA 支持的聯(lián)邦學習來評估聯(lián)邦學習AI 輔助注釋對訓練
    的頭像 發(fā)表于 11-19 15:54 ?225次閱讀

    大算力芯片面臨的技術挑戰(zhàn)和解決策略

    在灣芯展SEMiBAY2024《HBM與存儲器技術與應用論壇》上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬發(fā)表了題為《超越極限:大算力芯片面臨的技術挑戰(zhàn)和解決策略》的演講。
    的頭像 發(fā)表于 10-23 14:50 ?553次閱讀

    海外HTTP安全挑戰(zhàn)與應對策

    海外HTTP安全挑戰(zhàn)與應對策略是確保跨國網(wǎng)絡通信穩(wěn)定、安全的關鍵。
    的頭像 發(fā)表于 10-18 07:33 ?274次閱讀

    ADS856x SAR驅動電路的設計挑戰(zhàn)和改進技術

    電子發(fā)燒友網(wǎng)站提供《ADS856x SAR驅動電路的設計挑戰(zhàn)和改進技術.pdf》資料免費下載
    發(fā)表于 10-17 09:38 ?0次下載
    ADS856x SAR驅動電路的設計<b class='flag-5'>挑戰(zhàn)和</b>改進技術

    AI for Science:人工智能驅動科學創(chuàng)新》第6章人AI與能源科學讀后感

    了電力的實時平衡和優(yōu)化,有效降低了電網(wǎng)的運行成本和故障率。 此外,書中還討論了人工智能在能源科學研究中的挑戰(zhàn)和機遇。這些挑戰(zhàn)包括數(shù)據(jù)質量、算法優(yōu)化、隱私保護等方面,而機遇則體現(xiàn)在技術創(chuàng)新、產(chǎn)業(yè)升級
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

    將成為生命科學領域的重要工具和方法,推動生命科學的深入發(fā)展和廣泛應用。同時,我們也應該清醒地認識到,這個過程中也伴隨著諸多挑戰(zhàn)和困難。只有不斷克服這些挑戰(zhàn),才能充分利用AI技術的優(yōu)勢,為生命科學的發(fā)展注入新的活力和動力。
    發(fā)表于 10-14 09:21

    AI for Science:人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

    的重要作用和價值,同時也看到了其面臨的挑戰(zhàn)和未來發(fā)展方向。這次學習不僅豐富了我的知識儲備,還激發(fā)了我對AI for Science未來發(fā)展的期待和熱情。我相信,在不久的將來,AI fo
    發(fā)表于 10-14 09:16

    康謀分享 | 數(shù)據(jù)隱私和匿名化:PIPL與GDPR下,如何確保數(shù)據(jù)合規(guī)?(一)

    自動駕駛技術的快速發(fā)展伴隨著數(shù)據(jù)隱私保護的嚴峻挑戰(zhàn)。PIPL和GDPR為自動駕駛數(shù)據(jù)合規(guī)設立了高標準。本篇文章將帶大家深入探討PIPL與GDPR的異同點,期望能夠幫助車企更好地理解并應對數(shù)據(jù)隱私保護法規(guī)的
    的頭像 發(fā)表于 09-29 10:28 ?1442次閱讀
    康謀分享 | 數(shù)據(jù)隱私和匿名化:PIPL與<b class='flag-5'>GDPR</b>下,如何確保數(shù)據(jù)合規(guī)?(一)

    MCT8316A-設計挑戰(zhàn)和解決方案應用說明

    電子發(fā)燒友網(wǎng)站提供《MCT8316A-設計挑戰(zhàn)和解決方案應用說明.pdf》資料免費下載
    發(fā)表于 09-13 09:52 ?0次下載
    MCT8316A-設計<b class='flag-5'>挑戰(zhàn)和</b>解決方案應用說明

    MCF8316A-設計挑戰(zhàn)和解決方案應用說明

    電子發(fā)燒友網(wǎng)站提供《MCF8316A-設計挑戰(zhàn)和解決方案應用說明.pdf》資料免費下載
    發(fā)表于 09-13 09:51 ?1次下載
    MCF8316A-設計<b class='flag-5'>挑戰(zhàn)和</b>解決方案應用說明

    TMCS110x 布局挑戰(zhàn)和最佳實踐

    電子發(fā)燒友網(wǎng)站提供《TMCS110x 布局挑戰(zhàn)和最佳實踐.pdf》資料免費下載
    發(fā)表于 09-12 09:23 ?0次下載
    TMCS110x 布局<b class='flag-5'>挑戰(zhàn)和</b>最佳實踐

    數(shù)據(jù)中心的AI時代轉型:挑戰(zhàn)與機遇

    隨著人工智能(AI)的迅速發(fā)展和廣泛應用,數(shù)據(jù)中心作為AI技術的基石,也面臨著前所未有的挑戰(zhàn)和機遇。為了滿足AI的高性能和低延遲要求,數(shù)據(jù)中心基礎設施必須進行相應的改變和升級。01、基
    的頭像 發(fā)表于 07-24 08:28 ?538次閱讀
    數(shù)據(jù)中心的<b class='flag-5'>AI</b>時代轉型:<b class='flag-5'>挑戰(zhàn)</b>與機遇

    預訓練和遷移學習的區(qū)別和聯(lián)系

    預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關鍵作用。本文將從定義、原理、應用、區(qū)別和聯(lián)系等方面詳細探討預訓
    的頭像 發(fā)表于 07-11 10:12 ?1176次閱讀

    遷移學習的基本概念和實現(xiàn)方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個相關任務或領域的學習過程。這種方法在數(shù)據(jù)稀缺
    的頭像 發(fā)表于 07-04 17:30 ?1902次閱讀

    汽車網(wǎng)絡安全-挑戰(zhàn)和實踐指南

    汽車網(wǎng)絡安全-挑戰(zhàn)和實踐指南
    的頭像 發(fā)表于 02-19 16:37 ?556次閱讀
    汽車網(wǎng)絡安全-<b class='flag-5'>挑戰(zhàn)和</b>實踐指南
    主站蜘蛛池模板: 亚洲午夜精品一区二区公牛电影院 | 97精品国产自产在线观看永久 | 黑人开嫩苞 | 国产免费福利在线视频 | 菠萝菠萝蜜视频在线看1 | 精彩国产萝视频在线 | 天天躁日日躁狠狠躁午夜剧场 | 洗濯屋H纯肉动漫在线观看 羲义嫁密着中出交尾gvg794 | 99精品免费久久久久久久久日本 | qvod在线| WW.国产人妻人伦精品 | 免费人妻无码AV不卡在线 | 麻豆XXXX乱女少妇精品-百度 | 一边捏奶头一边啪高潮会怎么样 | 国内精自品线一区91 | 国精产品一区一区三区有限 | 嫩草影院精品视频在线观看 | 国产人A片777777久久 | 亚欧免费观看在线观看更新 | 我们中文在线观看免费完整版 | 亚洲精品国产自在在线观看 | 亚洲精品一线二线三线无人区 | 把她带到密室调教性奴 | 熟女啪啪白浆嗷嗷叫 | 女人爽到高潮嗷嗷叫视频 | 久久精品热99看二 | GOGOGO高清在线播放免费 | 亚洲AV无码乱码A片无码蜜桃 | 7723手机游戏破解版下载 | 亚洲zooz人禽交xxxx | 国产精品成人免费 | 午夜理论在线观看不卡大地影院 | 波多久久亚洲精品AV无码 | 好男人好资源在线观看 | 精品99久久久久成人网站 | 国产精品成人网 | 538视频这里只有精品 | 啊…嗯啊好深男男高h文总受 | 超碰免费视频在线观看 | 暖暖 视频 免费 高清 在线观看 | adc年龄确认大驾光临入口 |