人工智能(AI)的快速發展對多個領域產生了深遠的影響,包括其在先進生物武器開發中的應用潛力。這種應用引起了特別的關注,因為它可以被非國家實體和個人訪問。人工智能技術的發展速度往往超過政府監管的能力,導致現有政策和法規存在明顯差距。
2019年發生的冠狀病毒疾病(新冠肺炎)疫情是一個恰當的例子,說明即使是溫和的疫情也可能對全球系統產生毀滅性影響。進一步加劇這一問題的是生物技術攻防之間的經濟失衡。例如,復活一種類似天花的危險病毒的邊際成本可以低至10萬美元,而開發一種復雜的疫苗可能超過10億美元。
以前將生物制劑武器化的嘗試,如奧姆真理教對肉毒桿菌毒素的嘗試,由于缺乏對這種細菌的了解而失敗。然而,人工智能的現有進步可能包含迅速彌合這種知識差距的能力:先進的大型語言模型(LLM)可以提供對潛在疫情病原體的見解,并討論它們的相對優勢,給定實際限制。
1.人工智能或者說LLM是如何在生物攻擊中被濫用的?
LLM填補這一知識缺口的潛在能力凸顯了關注人工智能和生物技術(尤其是合成生物學)融合的必要性,這可能允許對比野生病原體更嚴重、更致命的病原體進行新的設計或重組。這一不斷發展的領域不限于國家運營的生物武器計劃,而是越來越多地進入正式治理框架之外的個人和組織。人工智能和生物技術的交叉給風險評估帶來了特殊的挑戰。鑒于這些技術的快速發展,政府有效理解或監管它們的能力有限。
人工智能威脅評估的許多專業知識都在開發這些系統的公司內部。這阻礙了公眾準確識別這些技術是否被用于或可能被用于良性或惡意目的的能力。
我們的研究側重于建立嚴格、透明和普遍適用的方法,以評估與人工智能和生物技術集成相關的風險。兩個關鍵要素強調了這一重點。首先,隨著前沿人工智能技術的能力和可用性越來越強,開發確保這些系統安全可靠的方法至關重要——特別是防止在創造和部署有害生物制劑方面的潛在濫用。
其次,建立準確的風險評估方法對于公眾信任和建立有效的監管框架至關重要。人工智能開發社區缺乏強制性威脅評估以及缺乏標準化的風險評估方法,這加劇了這項研究的必要性。我們的目標是開發和實施標準化的威脅評估,為政策決策提供信息,并有助于制定穩健的監管框架,以應對人工智能和高級生物威脅交匯處的新興風險。
2.紅隊演習
人工智能監管的最新提案主張由合格的第三方評估者進行嚴格的測試過程。這些評估可以使用紅隊——模仿惡意行為者的專家——他們在各種高風險場景中仔細檢查AI模型。
這些場景可以從人工智能引出武器的設計到引發其他非故意的危險行為。紅隊的使用通過將抽象或理論風險與實際、真實世界的后果聯系起來,增強了評估過程。這一方法步驟對于早期識別和緩解危險能力至關重要,從而防止潛在的利用。我們的研究符合并實施了這種評估方法。
在這次紅隊演習中,我們的研究小組對大規模生物襲擊中濫用LLM的相關風險進行了深入研究。讓我們的項目與眾不同的是,它的重點是確定在這種情況下LLM的現實世界操作影響,旨在超越理論風險,以可操作的見解。我們使用了多學科的方法來產生直接適用于政策決定和負責任的人工智能開發的發現。
我們的研究從檢查生物武器威脅和開發描述各種現實風險情景的小插圖開始。通過這一過程,我們旨在捕捉惡意行為者的戰略目標,并針對生物武器進行有針對性的評估。
這些短文提供了潛在風險的多維視角,避開了脆弱的單點預測,并提供了各種可能的未來條件,可以更有力地指導人工智能的發展和監管。
3.在這種背景下,人工智能和邏輯邏輯模型濫用的未來研究途徑是什么?
我們的方法以基于這些插圖的紅隊練習為中心。研究人員被分成由三個人組成的小組,他們在四個場景中的一個場景中扮演策劃生物攻擊的惡意演員。這些單元被隨機分配不同的資源訪問:只有互聯網訪問或互聯網訪問加上兩個LLM助理之一。在這些條件下總共有12個紅單元和兩個額外的深紅色單元。目的是了解LLM工具如何使攻擊計劃更加有效或高效,提供關于LLM能力和增加風險能力的經驗數據。
每個團隊都有7個日歷周的時間限制,每個成員的紅隊工作時間不超過80小時。在這些限制條件下,他們需要制定一個作戰攻擊計劃。對于每個紅隊,領導被確定并允許選擇另外兩名隊員。團隊領導被指示建立一個擁有豐富經驗和知識的平衡團隊。這一構成表明,至少應有一名成員具有相關的生物學經驗,一名成員具有相關的LLM經驗。除了這12個紅色單元,另外兩個單元(稱為深紅色單元)被合并到四個插圖之一。兩個深紅色單元的成員缺乏豐富的LLM或生物學經驗,但有相關的操作經驗。這為我們提供了研究這些領域中已有的知識如何影響LLM可能提供的相對優勢的數據。分配的細目見表1。
表1 插圖和單元格分配
單元被隨機分配到四個插圖中的一個。然后,他們被隨機分為基線組或兩個LLM組之一。基線組僅在練習期間有互聯網接入,而LLM組既有互聯網接入,又能訪問兩個LLM中的一個。每個小組都被指示制定一份詳細的書面行動計劃(OPLAN ),概述他們將如何在分配給他們的插圖內實施生物攻擊。
為了保持單元間的一致性,對工具的使用設置了某些限制。單元僅限于英語來源,被禁止訪問黑暗網絡,也不能利用印刷材料。LLM小組通過定制的聊天界面專門與LLM互動。所有研究活動都在一個受保護的網絡中進行,并有適當的數據保護措施來維護安全性。
在我們正在進行的研究中,每個單元的作戰計劃將由八名安全和生物學領域的專家進行嚴格評估。評估將使用兩個主要標準:操作可行性和生物可行性。可行性指的是提議計劃的實用性,即從操作的角度來看,考慮到插圖中隱含或明確提供的資源,計劃的組成部分有多可行。評估采用9分制,如表2所示,1分表示計劃完全不可行,9分表示計劃沒有任何明顯的缺陷,看起來完全可以實現。
表2 衡量可行性的標準
我們打算使用德爾菲法從主題專家的不同見解中獲益。在為期兩天的現場評審活動之前,每位專家將被要求對每個作戰計劃進行初步評估,重點關注作戰或生物可行性。在這次活動中,那些得分最高或最低的專家將概述他們的三大理由,而其他專家將討論他們的主要理由。這種結構化的互動旨在激發對每個計劃屬性的徹底討論,促進專家之間的知識共享,并解決任何模糊或不同的觀點。有了這種更廣泛的理解,專家將被要求提供他們的最終OPLAN分數。這些明確的評估將作為我們研究核心目標的基礎:評估LLM對生物攻擊的設計和潛在成功的影響。
我們的研究旨在全面了解LLM被濫用于生物攻擊的相關風險。我們的目標不僅僅是識別來自LLM的相關輸出,而是確定這些輸出在實際意義上意味著什么。我們將評估此類輸出是否真正增強了惡意行為者使用生物制劑造成大規模傷亡的有效性和可能性,或者它們是否與其他類型的在線有害信息具有可比性。
4.初步見解
我們的研究正在進行中,但初步發現值得關注。在這一階段,重要的是要澄清,雖然我們正在測試的LLM不會產生明確的生物指令,但它們可以提供指導,幫助規劃和執行生物攻擊。
在一個測試場景中,LLM參與了關于如何使用生物武器造成大量傷亡的討論(見圖1和圖2)。LLM確定了潛在的病原體,包括天花病毒、流感病毒的工程菌株、炭疽桿菌(炭疽)和鼠疫桿菌(鼠疫),并討論了它們造成大量死亡的相對可能性。此外,LLM評估了獲取感染鼠疫耶爾森菌的嚙齒動物或跳蚤、運輸和保存活標本以及分發這些標本的可行性、時間、成本和障礙。LLM還提到,預計死亡人數將取決于受影響人口的規模、應對的速度和有效性以及肺鼠疫病例的比例等因素,肺鼠疫比淋巴腺鼠疫更具傳染性和致命性。從LLM中提取這些信息需要一種越獄技術,因為它最初拒絕討論這些主題。我們在圖1和圖2中提供了這段對話的摘錄,其中的提示沒有透露方法。
圖1 與LLM的對話:瘟疫節選
在另一個以肉毒桿菌毒素為重點的示例中,LLM提供了對不同傳遞機制(如氣溶膠和食源性方法)的利弊的細致討論。對于食源性投送,LLM認為這種方法簡單易行,但充滿風險,特別是在放置于各種食品中時可能被檢測到以及毒素的穩定性。另一方面,氣溶膠方法被認為是迅速影響大量人口的有效方法,盡管它們需要專門的設備和專門知識。
圖2. 與LLM的對話:肉毒桿菌毒素摘錄
除此之外,LLM對可能的氣溶膠輸送裝置提出了幾個建議,甚至建議了一個貌似合理的封面故事,可用于獲取薄涂梭菌,同時似乎進行合法的科學研究。
需要注意的是,這些發現只是暗示了潛在的風險;它們還不能提供真實世界操作影響的全貌。我們研究的持續性質意味著,雖然我們可以確認LLM可以產生相關文本,但我們已完成的工作旨在描繪這些輸出在操作上意味著什么。具體來說,我們的最終報告將說明這些生成的文本是否是危險的,是否會增強惡意行為者造成廣泛傷害的有效性和可能性,或者它們是否只是提供了不幸的響應,并反映了在線上已經存在的其他有害信息。
5.結束語
我們正在進行的研究強調了人工智能濫用的復雜性,特別是LLM用于生物攻擊。初步結果表明,LLM可以產生可能有助于策劃生物攻擊的相關輸出。然而,除了網上容易獲得的有害信息之外,現有LLM的能力是否代表了新的威脅水平,這仍然是一個懸而未決的問題。
考慮到潛在的風險,嚴格測試的必要性是毋庸置疑的。在某些人將人工智能的威脅等同于核武器的背景下,這一點尤其正確。隨著我們工作的繼續,我們將致力于我們的研究、分析、發現和建議的透明度,同時保護敏感信息的機密性和安全性。為了支持正在進行的公共政策討論,我們將隨著研究的進展發布最新的研究結果。
網絡安全社區長期以來一直雇傭紅隊來測試系統對抗假想的威脅;在機器學習和人工智能的背景下,早就應該有一個類似的嚴格的評估框架了。通過我們的研究,我們正在建立這一框架,并強調定期的、經驗驅動的評估對識別和減輕風險的重要性。我們的初步見解表明,LLM可能會提供一些潛在的有害指導,這強調了探索限制LLM參與此類對話的意愿的機會的必要性。進一步的研究和評估有助于促進人工智能技術的負責任的開發和部署。
-
AI
+關注
關注
87文章
30946瀏覽量
269196 -
人工智能
+關注
關注
1791文章
47314瀏覽量
238626 -
語言模型
+關注
關注
0文章
526瀏覽量
10277 -
LLM
+關注
關注
0文章
288瀏覽量
346
原文標題:蘭德報告:人工智能在大規模生物攻擊中的操作風險——紅隊方法
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論