作者:Winnie
戰爭與和平一直是塑造人類歷史的重要元素。最近的一項研究聚焦于用LLMs模擬國際沖突,特別是第一次世界大戰、第二次世界大戰以及中國古代的戰國時期。通過這些歷史事件的詳細模擬,研究團隊探索了國際關系動態和觸發戰爭的關鍵因素。具體來說,這項研究關注于三個主要問題:首先是探索基于LLM的MAS在模擬戰略規劃和決策制定過程中的有效性;其次是識別那些在歷史上觸發戰爭的關鍵因素;最后是評估歷史事件的不可避免性,特別是那些導致戰爭或和平的條件。
讓我們一起來看看LLM在國際沖突中是怎么表現的吧!
國家代理
在這篇研究中,一個關鍵組成部分是國家代理人。這些代理人在模擬國際沖突中扮演至關重要的角色。每個國家代理都由其對應的國家檔案定義。在每一輪中,代理根據行動空間中可用的行動,通過精心構建的提示來對當前情況做出反應。引導提示將代理引導通過復雜的國際關系情況,確保他們的行動和決策經過深思熟慮。它通過分析聯盟和敵對關系、權衡利益和導航決策步驟等來引導代理。
國家代理檔案
國家代理檔案基于六個基本維度:領導力、軍事能力、資源、歷史背景、關鍵政策和民眾士氣。每個維度都為我們理解這些代理人在模擬中的行為和決策提供了多維度的視角。
以下是一個英國代理檔案的例子。
國家代理行動空間
國家代理的行動空間被分為七個不同的類別:
Wait for action:這允許代理人采取被動態度,觀察其他參與者的行為及背景的變化。
General mobilization:使國家能夠為潛在沖突做好準備。
Declare war:這是國家對另一國家采取敵對行動的正式聲明。
Military alliance:是多個國家之間提供相互支持的正式協議。
Non-intervention treaty:是國家間承諾不干預對方內政的外交協議。
Peace agreement:旨在結束沖突,建立未來關系的框架。
Send message:是代理人進行非正式溝通的方式。
行動的屬性被細致地定義,包括公開性、輸入類型和是否需要回應。公開性決定了行動的可見度和公眾意識水平,分為公開和私人兩種。輸入類型指定了行動啟動所需的信息或資源,而是否需要回應則指明了行動是否需要其他實體的反饋。
WarAgent多智能體系統(MAS)
WarAgent圍繞四個基本構建塊展開:國家代理、秘書代理、委員會和Stick:
國家代理:每個國家代理由對應的國家檔案定義,并根據行動空間中可用的行動做出反應。引導提示幫助代理導航復雜的國際關系環境,并確保其行動和決策經過深思熟慮。
秘書代理:作為LLMs的補充,秘書代理負責驗證國家代理的行動適當性和基本邏輯一致性。這個角色不僅確保行動符合已定義的參數,還負責驗證行動的邏輯連貫性。
委員會:委員會管理國際關系,作為動態記錄平臺,收集并顯示模擬中的關系動態。它幫助代理根據最新信息做出決策。
Stick:作為內部記錄系統,棒跟蹤關鍵指標,如動員情況、內部穩定性和戰備預測,以確保國家代理的行動與預定義的協議和標準保持一致。
如下圖所示,委員會類可以跟蹤和管理不同國家之間四種類型的國際關系。如戰爭宣言(W)表示國家之間的沖突或戰爭,用符號“×”表示。軍事聯盟(M)表示國家之間的正式軍事合作伙伴關系,用符號“&”表示。Stick側重于跟蹤對國家的決策過程至關重要的關鍵指標,包括動員、內部穩定性和戰備預測。
每個國家代理與其秘書代理之間存在指定的互動。秘書代理評估國家代理提出的行動計劃,確保其符合格式、內容和邏輯一致性。國家代理之間的互動由歷史背景下的觸發事件引發。代理們共同對觸發事件作出反應,并通過各種行動和溝通互動進行交流。
在MAS中,每個代理的初始行動都是由觸發事件引發的。在歷史背景下,觸發事件指的是引發各國之間一系列反應的事件,最終導致重大歷史事件的發展。在模擬中,觸發事件作為所有代理響應的初始情景。例如,在第一次世界大戰的情況下,奧地利-匈牙利的弗朗茨·費迪南大公被暗殺被廣泛認為是觸發事件。類似地,在第二次世界大戰中,觸發事件通常被認為是德意志帝國入侵波蘭。在戰國時期的背景下,金國在韓國、趙國和魏國之間的分裂通常被視為觸發事件。
實驗設置
本實驗旨在驗證LLM在模擬復雜歷史事件方面的有效性。實驗選用了OpenAI開發的GPT-4作為后端模型,討論以下問題。
模擬效果(RQ1):在歷史上準確的條件下展示模擬結果,旨在證明WarAgent系統在提供可信模擬方面的能力。采用人工評估和多次運行計算準確性得分的方法來驗證結果。
戰爭的導火索(RQ2):通過探索性“假設”情景,重點是評估歷史背景下觸發事件的重要性,特別是在第一次世界大戰的情況下。
戰爭不可避免性(RQ3):考察不同的初始條件下各種場景,通過改變決策過程或國家條件來構建替代歷史敘事,并分析其對歷史軌跡的影響。
評估
人工評估: 檢查國家代理執行的行動是否與其國家配置文件一致,評估行動是否符合國家利益,以及代理在不同回合中的一致性。
Board連通性評估: 根據Wikipedia描述和總結,嚴格評估模擬場景與實際歷史事件的忠實度,特別是軍事聯盟的形成、宣戰和全面動員的實施。
聯盟準確度分數: 使用“兩個分區的互信息分數”來評估模擬聯盟與歷史聯盟的一致性,采用Python中SciPy的標準實現。宣戰/全面動員準確度分數:使用Jaccard集相似性指數來評估這兩個領域的模擬準確度。
實驗分析
人類評估
實驗從以下三個方面對模擬結果進行了觀察:軍事聯盟、宣戰和不干涉條約。
軍事聯盟: 在所有模擬中,英國與法國、德意志帝國與奧匈帝國、塞爾維亞與俄羅斯之間均形成了一致的聯盟。模擬結果顯示,由于德意志帝國的擴張政策,英國和法國視其為潛在對手。德意志帝國與奧匈帝國的聯盟則基于語言和民族共性及外交孤立法國的共同目標。塞爾維亞和俄羅斯的聯盟基于共同的民族背景和戰略利益。
宣戰: 在所有模擬中,奧匈帝國不斷地向塞爾維亞和俄羅斯宣戰,德意志帝國也對俄羅斯宣戰。法國和英國對德意志帝國的宣戰在大部分模擬中也發生了。這些宣戰行為反映了當時的聯盟結構和歷史敵意。
不干涉條約: 在每次模擬中,美國總是參與至少一項不干涉條約。美國的外交策略傾向于避免沖突,通過不干涉條約保持距離。奧斯曼帝國也在大多數模擬中采取了類似的策略。
實驗中還觀察到了兩種特殊情況:一是沒有聯盟支持的消息,二是背叛聯盟。這些情況表明國家代理在不斷變化的政治背景下作出了戰略性的決策。
這些發現表明,模擬在復制歷史情景方面是有效的,特別是在將刺殺事件視為觸發事件的情況下。模擬行動展現了高度的合理性,忠實于實際歷史背景,從而證明了基于LLM的MAS在模擬復雜歷史事件方面的有效性。
準確性分析
聯盟準確性: 在七次模擬中,英國和法國、俄羅斯和塞爾維亞、奧匈帝國和德意志帝國、俄羅斯和法國、奧斯曼帝國和德意志帝國等歷史上的聯盟在模擬中得到了再現。
宣戰準確性: 在模擬中,列日戰役之前的宣戰行為如奧地利對塞爾維亞、俄羅斯對奧匈帝國、德意志帝國對塞爾維亞、俄羅斯對德意志帝國、法國對德意志帝國的宣戰均被重現。
動員狀態準確性: 除了美國之外,所有國家在這一時期都進入了動員狀態,與歷史情況相符。
錯誤分析
聯盟形成錯誤:在七次模擬中,英國和法國與德意志帝國-奧匈帝國聯盟結成意外聯盟的情況出現了一次,這與歷史上的情況不符。
宣戰錯誤:英國和法國是否向奧匈帝國或德意志帝國宣戰的選擇,有時與歷史上的情況不一致。歷史上,這些國家最初與德意志帝國發生沖突,但在某些模擬中,它們錯誤地被描繪為與奧匈帝國對抗。
動員錯誤:美國的軍事動員描繪有誤。歷史上,美國在1917年較晚加入一戰,但在部分模擬中,美國與英國結成聯盟并早期進行動員。
總結
WarAgent模擬系統已經證明了其作為理解國際沖突動態的工具的可靠性。它展示了基于LLM的多智能體AI系統的能力,可以原型化和分析復雜的人類行為。通過比較不同的Casus Belli設置,實驗揭示了即使是最小或null的觸發因素也可能演變成類似于冷戰的情況。這強調了在一定情況下通向戰爭的路徑往往是不可避免的性質。實驗進一步支持了這一觀點,通過對國家設置的反事實改變,暗示國家政策的偏差是改變這些看似注定的結果的必要手段。
這些發現突顯了沖突在特定情況下的決定性本質,但也指出了通過修改國家政策或關系的戰略性調整的潛力,以改變這些看似注定的結果。我們也認識到了當前框架在充分捕捉國際關系復雜性方面存在局限,因此為未來研究提供了方向。
審核編輯:黃飛
-
OpenAI
+關注
關注
9文章
1082瀏覽量
6485 -
LLM
+關注
關注
0文章
286瀏覽量
327
原文標題:LLM來模擬世界大戰,會發生什么?
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論