色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

和AI聊天,自然語言模型 GPT-2可能會推出個人信息

工程師鄧生 ? 來源: 凹非寺 ? 作者:賈浩楠 蕭簫 ? 2021-01-02 09:22 ? 次閱讀

有時候,AI 說真話比胡言亂語更可怕。

本來只是找AI聊聊天,結果它竟然抖出了某個人的電話、住址和郵箱?

沒錯,只需要你說出一串“神秘代碼”:“East Stroudsburg Stroudsburg……”

2d9c0259bfc746e2906b7123c9c64a1b.png

自然語言模型 GPT-2就像是收到了某種暗號,立刻“送出”一套 個人信息:姓名、電話號碼,還有地址、郵箱和傳真 (部分信息已打碼)。

這可不是GPT-2瞎編的,而是真實存在的個人信息!這些個人信息,全部來自于網上。

原來是因為GPT-2靠網上扒取的數據來訓練。

本以為,這些個性化數據會在訓練時已經湮沒,沒想到只要一些特殊的喚醒詞,就突然喚出了AI“內心深處的記憶”。

想象一下,如果你的個人隱私被科技公司爬取,那么用這些數據訓練出的模型,就可能被別有用心的人逆向還原出你的地址、電話……

真是細思恐極!

這是來自谷歌、蘋果、斯坦福、UC伯克利、哈佛、美國東北大學、OpenAI七家公司和機構的學者們調查的結果。

df1aadfb17744c9893a49bb699754152.png

調查發現,這并不是偶然現象,在隨機抽取的1800個輸出結果中,就有 600個左右的結果還原出了訓練數據中的內容,包括新聞、日志、代碼、 個人信息等等。

他們還發現,語言模型越大,透露隱私信息的概率似乎也越高。

不光是OpenAI的GPT模型,其它主流語言模型 BERT、 RoBERTa等等,也統統中招。

所有的漏洞和風險,都指向了 大型語言模型的先天不足。

而且,目前幾乎無法完美解決。

吃了的,不經意又吐出來

個人敏感信息的泄露,是因為語言模型在預測任務輸出結果時,本身就會出現 數據泄露或 目標泄露。

所謂泄露,是指任務結果隨機表現出某些訓練數據的 特征。

形象地說,語言模型“記住了”見過的數據信息,處理任務時,把它“吃進去”的訓練數據又“吐了出來”。

973e35bcfe484dbc8dc938b3bddf627b.png

至于具體記住哪些、吐出來多少、什么情況下會泄露,并無規律。

而對于GPT-3、BERT這些超大型語言模型來說,訓練數據集的來源包羅萬象,大部分是從網絡公共信息中抓取,其中免不了個人敏感信息,比如郵箱、姓名、地址等等。

研究人員以去年面世的GPT-2模型作為研究對象,它的網絡一共有15億個參數

之所以選擇GPT-2,是因為它的模型已經開源,便于上手研究;此外,由于OpenAI沒有公布完整的訓練數據集,這項研究的成果也不會被不法分子拿去利用。

4c0434eb1cf5420db9e9981611cab129.gif

團隊篩查了模型生成的數百萬個語句,并預判其中哪些是與訓練數據高度相關的。

這里,利用了語言模型的另一個特征,即 從訓練數據中捕獲的結果,置信度更高。

也就是說,當語言模型在預測輸出結果時,它會更傾向于用訓練時的數據來作為答案。 (訓練時看到啥,預測時就想說啥)

在正常訓練情況下,輸入“瑪麗有只……”時,語言模型會給出“小羊羔”的答案。

但如果模型在訓練時,偶然遇到了一段重復“瑪麗有只熊”的語句,那么在“瑪麗有只……”問題的后面,語言模型就很可能填上“熊”。

而在隨機抽取的1800個輸出結果中,約有600個結果體現出了訓練數據中的內容,包括新聞、日志、代碼、個人信息等等。

4bd5b9144a454166b61ff7b57ee3fa1f.png

其中有些內容只在訓練數據集中出現過寥寥幾次,有的甚至只出現過一次,但模型依然把它們學會并記住了。

1.24億參數的GPT-2 Small如此,那么參數更多的模型呢?

團隊還對擁有15億參數的升級版GPT-2 XL進行了測試,它對于訓練數據的記憶量是GPT-2 Small的 10倍。

實驗發現,越大的語言模型,“記憶力”越強。GPT-2超大模型比中小模型更容易記住出現次數比較少的文本。

0728d1a76f054c59945be34d326601c2.png

也就是說,越大的模型,信息泄露風險越高。

那么,團隊用的什么方法,只利用模型輸出的文本,就還原出了原始信息呢?

訓練數據提取攻擊

此前泄露隱私沒有引起重視的原因,是因為學術界普遍認為與模型 過擬合有關,只要避免它就行。

7c443fc9d1cb48a1b64c857849e4a00c.gif

但現在,另一種之前被認為“停留在理論層面”的隱私泄露方法,已經實現了。

這就是 訓練數據提取攻擊(training data extraction attacks)方法。

由于模型更喜歡“說出原始數據”,攻擊者只需要找到一種篩選輸出文本的特殊方法,反過來預測模型“想說的數據”,如隱私信息等。

這種方法根據語言模型的輸入輸出接口,僅通過 某個句子的前綴,就完整還原出原始數據中的某個字符串,用公式表示就是這樣:

01c3c27581c94db8874e8e020c8f25c4.png

只要能想辦法從輸出還原出原始數據中的某一字符串,那么就能證明,語言模型會通過API接口泄露個人信息。

下面是訓練數據提取攻擊的方法:

fc236033f0744239b78162a32d9a4852.png

從GPT-2中,根據256個字,隨機生成20萬個樣本,這些樣本擁有某些共同的前綴 (可能是空前綴)。

在那之后,根據6個指標之一,對每個生成的樣本進行篩選,并去掉重復的部分,這樣就能得到一個“類似于原始數據”的樣本集。

這6個指標,是用來衡量攻擊方法生成的文本效果的:

困惑度: GPT-2模型的困惑度(perplexity)

Small: 小型GPT-2模型和大型GPT-2模型的交叉熵比值

Medium: 中型GPT-2模型和大型GPT-2模型的交叉熵比值

zlib: GPT-2困惑度(或交叉熵)和壓縮算法熵(通過壓縮文本計算)的比值

Lowercase: GPT-2模型在原始樣本和小寫字母樣本上的困惑度比例

Window: 在最大型GPT-2上,任意滑動窗口圈住的50個字能達到的最小困惑度

其中, 困惑度是交叉熵的指數形式,用來衡量語言模型生成正常句子的能力。至于中型和小型,則是為了判斷模型大小與隱私泄露的關系的。

然后在評估時,則根據每個指標,比較這些樣本與原始訓練數據,最終評估樣本提取方法的效果。

39af8c1f771a4ad989f4e34d23bb8ba8.png

這樣的攻擊方式,有辦法破解嗎?

大語言模型全軍覆沒?

很遺憾,對于超大規模神經網絡這個“黑箱”,目前沒有方法徹底消除模型“記憶能力”帶來的風險。

當下一個可行的方法是 差分隱私,這是從密碼學中發展而來的一種方法。

73980d2e906e493885c05fb05b3388c0.png

簡單的說,差分隱私是一種公開共享數據集信息的系統,它可以描述數據集內樣本的模式,同時不透露數據集中某個樣本的信息。

差分隱私的基本邏輯是:

如果在數據集中進行任意的單次替換的影響足夠小,那么查詢結果就不能用來推斷任何單個個體的信息,因此保證了隱私。

比如現在有兩個數據集D和D’, 它們有且僅有一條數據不一樣,這樣的數據集互為 相鄰數據集。

此時有一個 隨機化算法(指對于特定輸入,算法的輸出不是固定值,而是服從某一分布),作用于兩個相鄰數據集時,得到的輸出分布幾乎沒有差別。

推廣一步,如果這個算法作用于任何相鄰數據集,都能得到某種特定輸出,那么就可以認為這個算法達到了差分隱私的效果。

直白地說,觀察者難以通過輸出結果察覺出數據集微小的變化,從而達到保護隱私的目的。

那如何才能實現差分隱私算法呢?

最簡單的方法是加噪音,也就是在輸入或輸出上加入隨機化的噪音,將真實數據掩蓋掉。

實際操作中,比較常用的是加 拉普拉斯噪音(Laplace noise)。由于拉普拉斯分布的數學性質正好與差分隱私的定義相契合,因此很多研究和應用都采用了此種噪音。

ac5c0ba1eebb4a47afb1ccfef322717c.gif

而且由于噪音是為了掩蓋一條數據,所以很多情況下數據的多少并不影響添加噪音的量。

在數據量很大的情況下,噪音的影響很小,這時候可以放心大膽加噪音了,但數據量較小時,噪音的影響就顯得比較大,會使得最終結果偏差較大。

其實,也有些算法不需要加噪音就能達到差分隱私的效果,但這種算法通常要求數據滿足一定的分布,但這一點在現實中通常可遇不可求。

所以,目前并沒有一個保證數據隱私的萬全之策。

研究團隊之所以沒使用GPT-3進行測試,是因為GPT-3目前正火,而且官方開放API試用,貿然實驗可能會帶來嚴重的后果。

而GPT-2的API已經顯露的風險,在這篇文章發布后不久,一名生物學家在Reddit上反饋了之前遇到的“bug”:輸入三個單詞,GPT-2完美輸出了一篇論文的參考文獻。

906a29848f6443fab3e5519edc55aed1.png

鑒于BERT等模型越來越多地被科技公司使用,而科技公司又掌握著大量用戶隱私數據。

如果靠這些數據訓練的AI模型不能有效保護隱私,那么后果不堪設想……

責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 信息安全
    +關注

    關注

    5

    文章

    656

    瀏覽量

    38899
  • AI
    AI
    +關注

    關注

    87

    文章

    30807

    瀏覽量

    268953
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13348
收藏 人收藏

    評論

    相關推薦

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、模型集成與融合等多個環節。以下是一些具
    的頭像 發表于 12-05 15:30 ?357次閱讀

    自然語言處理在聊天機器人中的應用

    上歸功于自然語言處理技術的進步。 聊天機器人的工作原理 聊天機器人的核心是一個對話系統,它能夠處理用戶的輸入(通常是文本形式),并生成相應的回復。這個系統通常包括以下幾個關鍵組件: 語言
    的頭像 發表于 12-05 15:24 ?411次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大量文本數據中提取模式和知識,從而提高NLP系統的性能。 自然語言處理的基本概念
    的頭像 發表于 12-05 15:21 ?462次閱讀

    ASR與自然語言處理的結合

    。以下是對ASR與自然語言處理結合的分析: 一、ASR與NLP的基本概念 ASR(自動語音識別) : 專注于將人類的語音轉換為文字。 涉及從聲音信號中提取特征,并將這些特征映射到文本。 NLP(自然語言處理) : 涉及理解和解釋文字數據。 處理的是文本
    的頭像 發表于 11-18 15:19 ?402次閱讀

    AI模型自然語言處理中的應用

    AI模型自然語言處理(NLP)中的應用廣泛且深入,其強大的語義理解和生成能力為NLP任務帶來了顯著的性能提升。以下是對AI模型在NLP
    的頭像 發表于 10-23 14:38 ?450次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    、機器翻譯、文本生成等領域具有廣泛應用。它們能夠基于用戶的提問或描述生成相關的答案或執行指令,極大地提升了信息檢索和利用的效率。 2. 局限性 盡管大語言模型
    發表于 08-02 11:03

    圖像識別技術包括自然語言處理嗎

    計算機視覺技術對圖像進行處理、分析和理解,從而實現對圖像中的目標、場景、行為等信息的識別和理解。圖像識別技術包括圖像預處理、特征提取、分類器設計、模型訓練等多個環節。 1.2 自然語言處理的定義
    的頭像 發表于 07-16 10:54 ?752次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型的介紹
    的頭像 發表于 07-05 09:57 ?716次閱讀

    自然語言處理模式的優點

    得到了廣泛的應用,如搜索引擎、語音助手、機器翻譯、情感分析等。 1. 提高信息獲取效率 自然語言處理技術能夠快速地從大量文本數據中提取關鍵信息,幫助用戶節省查找和篩選信息的時間。例如,
    的頭像 發表于 07-03 14:24 ?770次閱讀

    自然語言處理是什么技術的一種應用

    廣泛,包括機器翻譯、語音識別、情感分析、信息檢索、問答系統、文本摘要、聊天機器人等。 一、自然語言處理的基本概念 自然語言自然語言是人類用
    的頭像 發表于 07-03 14:18 ?831次閱讀

    自然語言處理包括哪些內容

    ,從而實現人機之間的自然交流。本文將詳細介紹NLP的主要內容,包括基本概念、關鍵技術、應用領域等。 一、自然語言處理的基本概念 自然語言自然語言是人類用來表達思想、情感和
    的頭像 發表于 07-03 14:15 ?831次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    生產力場景時,可能會遇到諸多困難。在編程領域,精確性至關重要。任何微小的不明確都可能給開發人員帶來困擾。與此類似,在提示工程中,使用自然語言編寫指令雖然帶來了更高的靈活性,但同時也可能
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    模型架構奠定基礎。然后,引介一些經典的預訓練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列模型,幫助讀者初步感知大語言
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    的進步,大語言模型的應用范圍和影響力將持續擴大,成為AI領域的重要推動力。其中,GPT系列模型的發展尤為引人注目,從
    發表于 05-04 23:55

    自然語言處理的研究內容

    自然語言處理(NLP)的最新發展改變了我們與AI系統的交互方式: 1. 預訓練模型:像 GPT-3 這樣的模型已經進步,使人工智能能夠在
    的頭像 發表于 01-18 16:39 ?431次閱讀
    主站蜘蛛池模板: FREECHINESE东北群交| 国产在线观看黄| 小SAO货叫大声点妓女| 久久久精品日本一区二区三区| GOGOGO高清在线播放韩国| 91精品一区二区综合在线| 亚洲黄色在线观看| 日日天干夜夜狠狠爱| 麻豆COMCN| 好大快用力深一点h视频| 扒开老师大腿猛进AAA片| 在线观看国产视频| 亚洲高清在线mv| 乳色吐息未增删樱花ED在线观看| 飘雪在线观看免费高清完整版韩国 | 免费国产麻豆传| 果冻传媒AV精品一区| 动漫美女喷水| 99国产精品久久人妻无码| 亚洲精品视频区| 视频一区视频二区在线观看| 免费看美女的网站| 久久精品国产在热亚洲完整版| 小雪奶水涨翁工帮吸的推荐语录| 久久www免费人成_看片高清| 韩国无遮羞禁动漫在线观看 | 97在线视频免费人妻| 97午夜伦伦电影理论片| FREE另类老女人| 国产99精品在线观看| 99精品亚洲| 中文字幕 日韩 无码 在线| 亚洲欧美日韩高清专区| 脱jk裙的美女露小内内无遮挡| 国产睡熟迷奷系列精品| 国产1769一七六九视频在线| 国产啪视频在线播放观看| 国产精品一区二区20P| 国产精品久久久久婷婷五月色婷婷| 丁香美女社区| 好男人社区|