隨著類ChatGPT人工智能技術(shù)的快速發(fā)展,大模型作為重要的技術(shù)方向已經(jīng)在許多領(lǐng)域取得了顯著的進(jìn)展,如自然語言處理、搜索引擎、圖像識別和智能辦公軟件等。然而,由此帶來的數(shù)據(jù)安全問題也越來越受到關(guān)注,包括隱私保護(hù)、數(shù)據(jù)合規(guī)和模型評估等,這些問題已成為大模型進(jìn)一步發(fā)展的關(guān)鍵問題之一。為了解決這些問題,各國正在積極研究和探索適用于人工智能大模型的數(shù)據(jù)安全保護(hù)技術(shù)和政策。
一、類ChatGPT人工智能數(shù)據(jù)安全背景
隨著人工智能的快速發(fā)展,大模型作為人工智能技術(shù)的重要發(fā)展方向,已經(jīng)在許多領(lǐng)域取得了顯著的進(jìn)展,如自然語言處理、搜索引擎、圖像識別和智能辦公軟件等。其中,由深度學(xué)習(xí)驅(qū)動的大型語言模型(Large Language Model,LLM),如ChatGPT、PaLM等,正憑借其強(qiáng)大的自然語言處理能力和廣泛的應(yīng)用前景成為人工智能領(lǐng)域的研究熱點和產(chǎn)業(yè)焦點。
然而,隨著人工智能大模型(如ChatGPT)的廣泛應(yīng)用,社會各界正面臨諸多與數(shù)據(jù)安全治理相關(guān)的挑戰(zhàn)。首先,大模型的訓(xùn)練通常需要大量的數(shù)據(jù),包括來自互聯(lián)網(wǎng)的海量文本數(shù)據(jù),這將會涉及到對數(shù)據(jù)的搜集、存儲、傳輸和處理,這個過程會面臨隱私、安全和產(chǎn)權(quán)等方面的風(fēng)險。其次,大模型本身具有巨大的參數(shù)規(guī)模和復(fù)雜的計算邏輯,可能會導(dǎo)致對模型的訪問、使用和控制變得困難,從而增加數(shù)據(jù)安全治理的難度。此外,大模型在應(yīng)用中還會面臨潛在的模型濫用、黑客攻擊和數(shù)據(jù)泄露等安全威脅,對數(shù)據(jù)安全形成了新的挑戰(zhàn)。
二、類ChatGPT人工智能數(shù)據(jù)安全問題
當(dāng)下,類ChatGPT人工智能大模型在各領(lǐng)域融合發(fā)展方興未艾,這些大模型具有高度的復(fù)雜性和跨領(lǐng)域的知識儲備,能夠幫助我們從海量的數(shù)據(jù)中挖掘出更加深層的信息和知識,但同時也帶來了數(shù)據(jù)安全問題。
(一)隱私數(shù)據(jù)保護(hù)問題。隨著人工智能大模型的出現(xiàn)和應(yīng)用,隱私數(shù)據(jù)保護(hù)問題正變得更加復(fù)雜和緊迫。大模型使用的海量訓(xùn)練數(shù)據(jù)通常來自于維基百科(Wikipedia)、書籍、期刊和社交媒體等互聯(lián)網(wǎng)公開數(shù)據(jù)。若某些訓(xùn)練數(shù)據(jù)未取得授權(quán),則會產(chǎn)生數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)合規(guī)方面的問題,如Twitter首席執(zhí)行官馬斯克就曾指責(zé)微軟非法使用Twitter數(shù)據(jù)進(jìn)行人工智能訓(xùn)練,并稱會起訴微軟。此外,目前用戶與基于人工智能大模型的對話機(jī)器人(如ChatGPT、Bard等)交互的私密數(shù)據(jù)也會被人工智能公司用于訓(xùn)練,比如對話式人工智能大模型在訓(xùn)練過程中使用的基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)算法,就會將用戶的反饋用于優(yōu)化模型參數(shù),以增強(qiáng)模型和人類的對齊,提高對話機(jī)器人的性能,而且在訓(xùn)練后的模型中很難刪除相關(guān)信息。如果這些數(shù)據(jù)沒有得到充分的保護(hù),就可能被不法分子獲取,導(dǎo)致隱私數(shù)據(jù)泄露的風(fēng)險增加。
(二)數(shù)據(jù)跨境合規(guī)問題。以ChatGPT為代表的人工智能大模型正顯現(xiàn)出與各行業(yè)融合發(fā)展的趨勢,其中涉及的數(shù)據(jù)類型和來源也在不斷增加,這些數(shù)據(jù)的處理和傳輸將涉及到跨境數(shù)據(jù)流動,從而引發(fā)了數(shù)據(jù)跨境合規(guī)問題。根據(jù)ChatGPT的運作原理,用戶在對話框進(jìn)行交互,相關(guān)問答數(shù)據(jù)將會傳輸?shù)轿挥诿绹腛penAI公司,在這樣一個過程中,數(shù)據(jù)的跨境流動都會引發(fā)數(shù)據(jù)跨境合規(guī)問題。另外,美國OpenAI公司還推出ChatGPT應(yīng)用程序編程接口(API),可供第三方開發(fā)者將ChatGPT模型集成到他們的應(yīng)用程序和產(chǎn)品中。目前已有多家公司表示計劃用ChatGPT技術(shù)全面改革其整個產(chǎn)品陣容,比如美國微軟公司已將ChatGPT技術(shù)擴(kuò)展到Bing搜索和Power Platform以改善相關(guān)產(chǎn)品的性能,而這將會導(dǎo)致用戶數(shù)據(jù)的跨境流動更加頻繁,并增加數(shù)據(jù)合規(guī)監(jiān)管的難度。
(三)黑箱模型的可解釋性問題。人工智能大模型通常采用深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練和推理,內(nèi)部存儲了千萬億的模型參數(shù),因此,大模型內(nèi)部的工作方式和決策過程非常復(fù)雜,缺乏可解釋性和透明度,具有這類特征的模型被稱為黑箱模型(Black Box),同時,這類模型也給數(shù)據(jù)安全治理帶來了挑戰(zhàn)。監(jiān)管機(jī)構(gòu)往往難以理解和評估這類模型的內(nèi)部運作機(jī)制,從而難以制定合適的監(jiān)管政策和標(biāo)準(zhǔn)。例如,歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)中規(guī)定數(shù)據(jù)所有人有權(quán)要求數(shù)據(jù)持有人和處理人刪除與其相關(guān)的個人數(shù)據(jù),但針對人工智能大模型存儲信息的形式,企業(yè)很難像檢索數(shù)據(jù)庫一樣定位相關(guān)信息,簡單進(jìn)行個人信息的刪除是很難實現(xiàn)的。另外,黑箱模型還會增加識別其內(nèi)部潛在數(shù)據(jù)安全漏洞的難度,如果黑箱模型出現(xiàn)錯誤或被惡意攻擊,很難被發(fā)現(xiàn)和處理,從而影響數(shù)據(jù)安全。
(四)模型數(shù)據(jù)安全評估問題。人工智能大模型算法具有復(fù)雜的結(jié)構(gòu)設(shè)計,在運作機(jī)制上容易存在缺陷和漏洞,因此,如何科學(xué)合理對模型數(shù)據(jù)安全進(jìn)行評估是當(dāng)前的一項嚴(yán)峻挑戰(zhàn)。模型數(shù)據(jù)安全風(fēng)險主要表現(xiàn)在以下方面:1.模型數(shù)據(jù)安全:在人工智能模型的開發(fā)過程中,需要對模型進(jìn)行模型數(shù)據(jù)安全機(jī)制評估,以確保模型的數(shù)據(jù)安全性,如數(shù)據(jù)隱私保護(hù)、數(shù)據(jù)完整性保護(hù)、數(shù)據(jù)可用性保護(hù)等;2.模型數(shù)據(jù)攻擊:人工智能大模型可能存在被用于攻擊的漏洞,例如對抗性攻擊,黑客或者惡意用戶可以通過篡改模型輸入數(shù)據(jù)來欺騙模型輸出其他人或者機(jī)構(gòu)的隱私信息;3.模型生成數(shù)據(jù)不可控:生成式人工智能大模型的復(fù)雜性和不確定性,可能會使其生成意想不到的結(jié)果,如虛假信息等。
三、類ChatGPT人工智能數(shù)據(jù)安全對策
類ChatGPT人工智能大模型在各行各業(yè)正加速滲透,逐漸演變?yōu)楫?dāng)今社會中不可或缺的一部分,大模型的數(shù)據(jù)安全問題也日益凸顯。因此,為確保人工智能大模型數(shù)據(jù)的安全性,需要采取多層次、多維度的技術(shù)手段和法律監(jiān)管措施。
(一)政策層面
1.設(shè)立人工智能專門戰(zhàn)略機(jī)構(gòu)
人工智能技術(shù)本身具有特殊性和復(fù)雜性,影響范圍廣,監(jiān)管難度大,其應(yīng)用和發(fā)展也面臨著諸多挑戰(zhàn)和風(fēng)險。因此,設(shè)立專門的人工智能戰(zhàn)略機(jī)構(gòu)是必要的。例如,日本政府計劃設(shè)立新的“戰(zhàn)略會議”,負(fù)責(zé)討論與人工智能相關(guān)的國家戰(zhàn)略。對于正在迅速普及的聊天機(jī)器人ChatGPT等整個人工智能領(lǐng)域,該戰(zhàn)略會議將發(fā)揮指揮塔作用,指明政策的基本方向。針對人工智能方面課題,該會議將從促進(jìn)應(yīng)用、研究開發(fā)和強(qiáng)化規(guī)則兩方面進(jìn)行討論。該戰(zhàn)略會議除了包含精通人工智能技術(shù)的學(xué)者和研究人員外,還有法律相關(guān)領(lǐng)域的專家和政府相關(guān)人士加入。
2.明確人工智能大模型應(yīng)用中責(zé)任權(quán)利的法律歸屬
在人工智能大模型應(yīng)用中,責(zé)任權(quán)利歸屬是一個復(fù)雜的問題。該問題涉及多個方面,包括數(shù)據(jù)提供者、算法設(shè)計者、模型訓(xùn)練者和模型使用者等。目前,國內(nèi)外學(xué)者主要探討兩個方面:一是如何確定人工智能大模型應(yīng)用中的責(zé)任歸屬;二是如何建立人工智能大模型應(yīng)用中的責(zé)任分配機(jī)制。歐盟在該領(lǐng)域進(jìn)行了部分探索,例如,歐洲議會成員已經(jīng)就《人工智能法》(The AI Act)提案達(dá)成臨時政治協(xié)議,要求部署ChatGPT等生成式人工智能工具的公司披露用于開發(fā)其系統(tǒng)的受版權(quán)保護(hù)的材料。
3.完善人工智能大模型產(chǎn)品的相關(guān)立法
為應(yīng)對人工智能技術(shù)所帶來的一系列倫理、法律和社會問題,如數(shù)據(jù)安全、隱私保護(hù)、算法透明、責(zé)任歸屬、公平公正等,我國有必要制定一套符合人工智能技術(shù)特點的監(jiān)管法律法規(guī),以確保我國人工智能技術(shù)在競爭性和安全性上保持平衡。
(二)技術(shù)層面
1.數(shù)據(jù)加密和脫敏
數(shù)據(jù)加密技術(shù)可以將數(shù)據(jù)轉(zhuǎn)換為一種難以被未經(jīng)授權(quán)者讀取的形式,從而保障人工智能大模型數(shù)據(jù)交互的安全性。這種技術(shù)在數(shù)據(jù)傳輸和存儲過程中,能夠?qū)?shù)據(jù)進(jìn)行加密,有效防止隱私和敏感數(shù)據(jù)被未經(jīng)授權(quán)的人員訪問和竊取,從而保護(hù)個人隱私和商業(yè)機(jī)密信息。此外,數(shù)據(jù)脫敏技術(shù)也是保護(hù)數(shù)據(jù)隱私的重要手段,它可以通過加密、替換、刪除等處理來保護(hù)敏感數(shù)據(jù)的隱私。對于人工智能大模型來說,數(shù)據(jù)脫敏技術(shù)可以在數(shù)據(jù)預(yù)處理過程中對數(shù)據(jù)進(jìn)行脫敏處理,如匿名化處理、數(shù)據(jù)屏蔽處理和數(shù)據(jù)差分隱私等,以保證數(shù)據(jù)的隱私性。
2.訪問控制
訪問控制是一種常見的數(shù)據(jù)安全保護(hù)技術(shù),其通過限制對數(shù)據(jù)的訪問,以確保數(shù)據(jù)的機(jī)密性和完整性。在人工智能大模型中,訪問控制技術(shù)的應(yīng)用可以有效防止數(shù)據(jù)的非法訪問、篡改和泄露,從而保障人工智能大模型的數(shù)據(jù)安全。例如,OpenAI采用了多種訪問控制技術(shù)來保護(hù)其人工智能大模型GPT-3的安全,其中包括身份驗證、授權(quán)和審計等措施。這些措施可以確保只有經(jīng)過授權(quán)的用戶才能夠訪問和使用GPT-3數(shù)據(jù),有效地保護(hù)了用戶的隱私信息。
3.模型物理隔離
模型物理隔離是一種有效的數(shù)據(jù)安全保護(hù)措施,可以有效地防止黑客攻擊和數(shù)據(jù)泄露。例如,美國微軟公司計劃推出一款私有ChatGPT版本,該版本ChatGPT將在專用云服務(wù)器上運行,以保護(hù)用戶隱私安全。私有ChatGPT數(shù)據(jù)將與主系統(tǒng)隔離,可確保隱私安全,這將適用于醫(yī)療、保險和銀行等行業(yè)。
審核編輯:劉清
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238254 -
數(shù)據(jù)安全
+關(guān)注
關(guān)注
2文章
681瀏覽量
29939 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1558瀏覽量
7595 -
大模型
+關(guān)注
關(guān)注
2文章
2423瀏覽量
2641 -
LLM
+關(guān)注
關(guān)注
0文章
286瀏覽量
327
原文標(biāo)題:淺析類ChatGPT人工智能引發(fā)的數(shù)據(jù)安全問題
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論