多Agent 深度強化學習綜述
來源:《自動化學報》,作者梁星星等
摘 要?近年來,深度強化學習(Deep reinforcement learning,DRL) 在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力,深度強化學習已經成為實現人工智能頗有前景的學習范式.然而,深度強化學習在多Agent 系統的研究與應用中,仍存在諸多困難和挑戰,以StarCraft II 為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q 網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時,從多Agent 深度強化學習中通信過程的角度對現有的多Agent 深度強化學習算法進行歸納,將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3 種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent 深度強化學習中的一些關鍵問題,并分析了多Agent 深度強化學習的研究熱點和發展前景.
關鍵詞?多Agent 系統,深度學習,深度強化學習,通用人工智能
強化學習(Reinforcement learning,RL) 是機器學習的一個子領域,學習如何將場景(環境狀態)映射到動作的策略,以獲取能夠反映任務目標的最大數值型獎賞信號,即在給定的環境狀態下,決策選擇何種動作去改變環境,使得獲得的收益最大[1].同監督式的機器學習過程不同,在強化學習過程中Agent1不被告知應該采用哪個動作,而是通過不斷與環境交互,從而試錯學習到當前任務最優或較優的策略.這一學習范式能夠有效地解決在自然科學、社會科學以及工程應用等領域中存在的序貫決策問題.在強化學習的發展歷史中,強化學習和神經網絡的結合已有較長的歷史[2],但是在復雜序列決策問題中始終沒有顯著的突破.然而,隨著深度學習(Deep learning,DL) 在復雜數據驅動任務中展現出的卓越性能[3-4],一種融合了深度學習強大的特征表示能力和強化學習高效策略搜索能力的學習范式-深度強化學習(Deep reinforcement learning,DRL) 逐漸引起學者的廣泛關注,DRL 是將DL 引入到RL,將深度神經網絡引入到RL 的值函數、策略函數或者環境模型的參數估計中.DRL 在游戲、機器人、自然語言處理等問題中,取得了令人矚目的成果[5-12].AlphaGo 的主要貢獻者David Silver 更是將現代人工智能定義為RL+DL[13],即DRL 才是人工智能的理想范式[14].趙冬斌等[7]?認為人工智能將會是各國競相爭奪的下一科技高地.
伴隨著DRL 在一些復雜單Agent 任務中的有效應用,人們又將DRL 的研究成果轉移到了多Agent 系統(Multi-agent system,MAS) 的應用中,以期獲得同樣的突破.MAS 由一組利用傳感器感知共享環境的自治、交互的Agent 組成,每個Agent獨立地感知環境,根據個人目標采取行動,進而改變環境[15].在現實世界中,存在許多MAS 的實例,例如資源調度管理[16]、擁塞處理[17-19]、通信傳輸[20]、自動駕駛[21]、集群規劃[22-25]?等.
多Agent DRL (Multi-agent DRL,MADRL)是DRL 在MAS 中應用的研究分支,理論基礎源于DRL.雖然將DRL 應用于MAS 中有著許多研究,但據我們所知,尚沒有關于多Agent DRL 研究的綜述性報告,趙冬斌等[7]?對DRL 以及圍棋的發展進行了綜述,但其出發點、綜述角度以及內容安排與本文有較大不同,如表1 所示.本文在對近些年國內外的研究現狀進行分析與研究后,從MADRL 設計與實踐的角度出發,對這一領域進行歸納總結.
本文首先對DRL 進行基本的介紹,從策略表現的角度對當前DRL 的兩個主要方向,即深度Q 網絡和深度策略梯度的發展進行了描述.在第2 節,我們首先分析了DRL 與MAS 的關系,描述了DRL與MAS 結合的優勢與挑戰; 同時我們利用部分可觀測的馬爾科夫決策過程對MADRL 問題進行了模型設計,用以表達MAS 的數學過程; 之后,根據當前DRL 的實現結構以及多Agent 在DRL 實現中通信過程的發生階段,將現有MADRL 劃分為全通信集中決策、全通信自主決策以及欠通信自主決策等三類,對每類決策架構的當前研究現狀進行討論分析,對面向多Agent 學習的開放訓練平臺進行介紹; 在第3 節,針對現有MADRL 仍面臨的一些關鍵問題,從MADRL 的學習訓練框架、樣本增強、魯棒性研究以及對手建模等方面進行研究,提出了當前MADRL 可能發展的方向; 在第4 節,對全文進行總結.
1 深度強化學習簡介
深度強化學習的學習框架是20 世紀90 年代提出的強化學習,由強化學習與深度學習結合發展而來,是機器學習的重要分支.在這一學習范式中,Agent 通過與環境的交互,不斷調整策略,進而實現最大化累計獎賞值的目標.強化學習利用馬爾科夫決策過程(Markov decision process,MDP) 對序貫決策問題進行數學定義.
定義1 (馬爾科夫決策過程).?MDP 由一個五元組〈S,A,R,T,γ〉?定義,其中,S?表示由有限狀態集合組成的環境;A?表示可采取的一組有限動作集;狀態轉移函數T?:S×A →Δ(S) 表示將某一狀態-動作對映射到可能的后繼狀態的概率分布,Δ(S) 表示狀態全集的概率分布,對于狀態s,s′∈S?以及a∈A,函數T?確定了采取動作a?后,環境由狀態s?轉移到狀態s′?的概率; 獎賞函數R(s,a,s′) 定義了狀態轉移獲得的立即獎賞;γ?是折扣因子,代表長期獎賞與立即獎賞之間的權衡.
表1 與已發表相關論文的研究異同
Table 1 Research′s similarities and differences
與一般的MDP 不同,面向強化學習的MDP中包含感知函數Z?:s →z,如圖1 所示.在完全觀測環境下,Agent 獲取完全真實的環境狀態,即z=s?(在對單Agent 討論時,真實觀測和真實狀態通常不予區分).在學習過程中,RL 中的Agent在多個離散時間步同環境進行交互,在時間步t,Agent 從環境中接收狀態空間S?中的狀態st,根據策略π(at|st),從可選動作空間A?中選擇動作at執行,作用于環境,環境根據自身動態性(獎賞函數R(s,a,s′) 和狀態轉移函數T=P(st+1|st,at)),轉移到下一狀態st+1,并返回一個標量的獎賞值rt+1(獎賞值是針對下一時刻的獎賞,因而下標是t+1).當環境所處的狀態為終止狀態或交互達到最大時間步,一次試驗結束,進入下一次試驗.返回值Rt=
是一個帶折扣γ ∈(0,1]的累計獎賞值.Agent 的目標是最大化每個狀態值的累積獎賞期望值,即
圖1 MDP 示意圖
Fig.1 Diagram of MDP
經典的強化學習策略學習方法包括了表格法(Tabular solution methods) 和近似法(Approximate solution methods).當求解問題的狀態空間和動作空間規模較小時,往往采用基于表格法的強化學習.表格法將全部的狀態值V(s) 或者狀態-動作值Q(s,a) 存入到一個帶索引的表格中,決策時按指定索引查詢狀態或狀態-動作值,并根據貪婪原則選擇動作.在更新過程中,依據一次試驗的結果,按索引對參與的狀態/狀態-動作值以及相關的狀態-動作值進行更新.在現實世界中,我們以期解決的問題的狀態/動作空間是連續且龐大的[1].在這種情況下,表格法由于容量有限,很難對所有值進行存儲,因而在實際操作中應用范圍較窄,難以進行擴展.為了降低計算資源和存儲資源的開銷以及提高決策效率,我們需要通過近似的方法對狀態/狀態-動作值進行估計.這類算法的應用場景更為廣泛,是當前強化學習研究的主要趨勢.在近似法強化學習中,根據學習目的以及選擇動作的依據,即是否利用狀態值/狀態-動作值函數的策略貪婪地選擇動作,分為兩類:函數近似方法和策略梯度方法.在文獻[7] 中的第2 節中,對上述方法進行了概述,本文不再贅述.
與基本的強化學習方法相比,DRL 將深度神經網絡作為函數近似和策略梯度的近似函數.雖然使用深度神經網絡解決強化學習問題缺乏較好的理論保證,但深度神經網絡的強大表現力使得DRL 的結果遠超預期.在DRL 中,DL 同函數近似結合發展成為了深度Q 學習,而策略梯度則發展為深度策略梯度.
1.1 深度Q 學習及其發展
在深度Q 網絡(Deep Q-network,DQN)[6,26]提出之前,強化學習與神經網絡(Neural network,NN) 的結合遭受著不穩定和發散等問題的困擾.DQN 做了3 處改進,使用經歷重放和目標網絡穩定基于DL 的近似動作值函數; 使用端到端方法,利用卷積神經網絡(Convolutional neural network,CNN) 將原始圖片和游戲得分作為輸入,使模型僅需較少的領域知識; 訓練了可變的網絡,其結果在多個任務中表現良好,超越人類專業玩家[14],如圖2所示,利用最近的4 幀視頻圖片作為狀態的描述,通過兩層卷積層,一層全連接層輸出Agent 可選動作的值估計,采用ε?貪婪選擇執行動作.DQN 的網絡參數更新方式為
其中,Q(st,at;θt) 表示t?時刻,狀態-動作值估計;
rt+1+γmaxaQ(st+1,a;θ-) 是作為臨時的目標Q 值,用于穩定神經網絡的學習,θ-?表示目標網絡的參數,γ?表示獎賞的折扣率;θt?表示正在同環境交互的網絡的參數,α?表示神經網絡的學習率.
標準Q 學習利用max 操作符使得目標值過高估計,Van Hasselt 等[27]?提出了Double DQN 用于平衡值估計.在利用時序差分(Temporal difference,TD) 算法對目標Q 值進行更新時,后繼狀態的動作選擇來自于當前網絡Q,而評估則來自于目標網絡
將式(1) 中的
替換為
圖2 DQN 架構
Fig.2 Framework of DQN
為了消除強化學習轉移樣本間的相關性,DQN使用經歷重放機制,即在線存儲和均勻采樣早期交互的經歷對神經網絡進行訓練.然而均勻采樣方法忽略了經歷的重要性,Schaul 等[28]?提出了優先經歷重放,利用TD error 對經歷的重要性進行衡量,對重要性靠前的經歷重放多次,進而提高學習效率.
此外,在DQN 的模型結構方面,也有著較大的改進.Wang 等[29]?設計了競爭網絡結構(Dueling network),在Q?網絡輸出層的前一隱藏層輸出兩個部分,一部分估計了狀態值函數V(s),另一部分估計了相關動作的優勢函數A(s,a),在輸出層將二者相加進而估計動作值函數Q(s,a)=V(s)+A(s,a).這一結構使得Agent 在策略評估過程中能夠更快地做出正確的動作.Hausknecht 等[30]?將循環神經網絡(Recurrent neural network,RNN) 引入DQN中,提出了深度循環Q 網絡(Deep recurrent Qnetwork,DRQN) 模型,在部分可觀測的強化學習任務中,性能超越了標準DQN.Sorokin 等[31]?提出了基于軟硬注意力機制的DQN,使用深度注意力RNN 對同任務相關的單元進行了重點關注.Hessel等[32]?對現有DRL 中的6 種擴展DQN 算法進行了比較,根據各改進對性能提升的貢獻,提出了集成多種最優改進的組合版Rainbow 算法.Srouji 等[33]提出結構控制網絡(Structured control net,SCN),將深度神經網絡分解成為兩部分:線性控制模塊和非線性控制模塊,然后分別對獲得的編碼進行處理,并將結果進行加和,非線性控制模塊進行全局控制而線性模塊對其進行補充.
1.2 深度策略梯度及其發展
策略是將狀態空間映射到動作空間的函數或者分布,策略優化的目標是尋找最優的策略映射.DQN 算法主要應用于離散動作的空間任務,面對連續動作空間的任務,基于策略梯度的DRL 算法能獲得更好的決策效果.
連續動作空間的策略梯度算法分為隨機策略梯度算法(Stochastic policy gradient,SPG)[1]?和深度確定策略梯度算法(Deep deterministic policy gradient,DDPG)[34-35]?.
SPG 假設在連續控制問題研究中,策略選擇具有隨機性,服從某種分布(如高斯分布),在策略執行過程中依概率進行動作選擇.SPG 計算式為πθ(a|s)=P[a|s,θ],表示在狀態為s?時,動作符合參數為θ?的概率分布,如高斯分布πθ(a|s)=
表示Agent 采取的動作服從均值為μ(s,θ)、方差為σ(s,θ)2?的正態分布.在SPG 算法中,即使在相同的狀態,每次所采取的動作也可能是不同的.該算法的梯度計算為
其中,τ?表示試驗過程,τ={s0,a0,r1,s1,a1,r2,···,sT-1,aT-1,rT,sT}?表示一次試驗過程中每個時間步經歷的狀態、采取的動作以及獲得的獎賞;R(τ)=
為試驗過程中初始狀態的累積獎賞.
DDPG 算法則假設策略生成的動作是確定的,策略梯度的求解不需要在動作空間采樣積分.與SPG 的策略表現度量η(θ)=E[Rt] 不同,DDPG的策略表現度量為η(θ)=Q(s,a),如果策略是最優的,則狀態-動作值是最大的.DDPG 計算式為a=μθ(s),表示在狀態s?下動作的取值.在相同策略(即函數參數相同) 的情況下,同一狀態下動作的選擇是唯一的.DDPG 算法的梯度計算式為
通過Q 函數直接對策略進行調整,向著梯度上升的方向對策略進行更新.
廣義上,DDPG 算法是SPG 的特例,當SPG算法中的方差σ →0 時,SPG 將會收斂到DDPG.SPG 算法的輸入需要狀態和動作,而DDPG 算法的輸入僅依靠狀態空間,且當動作空間維度較高時,DDPG 算法的學習效率優于SPG 算法.
與DQN 采用的經歷重放機制不同,深度策略梯度采用異步優勢Actor-critic (AC) 框架(Asynchronous advantage actor-critic,A3C)[36],如圖3所示.利用CPU 多線程的功能異步執行多個仿真過程,這一并行訓練方法打破了訓練樣本間的相關性.相比于傳統AC 算法,基于多線程并行訓練的A3C 算法,結合優勢函數訓練神經網絡,大幅度提升AC 算法的學習效率.此外,A3C 使用經過tmax步的多步獎賞信號更新值函數網絡-Critic 網絡,并利用優勢函數對Actor 網絡進行更新,降低了值函數估計和策略梯度的方差.在A3C 的結構基礎上,Babaeizadeh 等[37]?提出了CPU 和GPU 混合架構的GPU-A3C (GA3C),引入了隊列系統和動態調度策略,有效利用了GPU 的計算能力,大幅提升了A3C 的訓練速度.Jaderberg 等[38]?提出了無監督強化輔助學習(Unsupervised reinforcement and auxiliary learning,UNREAL) 算法,在訓練A3C的過程中,兼顧訓練兩類輔助任務來對算法進行改進,一類是包括像素控制和隱藏層激活控制的控制任務,另一類是回饋預測任務.Wang 等[39]?結合長短時記憶網絡(Long short-term memory,LSTM),提出了在不同任務間具有良好的泛化能力的堆棧LSTM-A3C 算法.
圖3 A3C 框架
Fig.3 Framework of A3C
在非線性優化問題中,梯度的求解相對容易,但合適的優化步長困擾著函數優化的速率.早期強化學習研究設置步長退火因子,隨著迭代次數的增加,逐步減小步長.在強化學習任務中,大多數的策略梯度算法難以選擇合適的梯度更新步長,使得NN 訓練處于振蕩不穩定的狀態.Schulman等[40]?提出了可信域策略優化(Trust region policy optimization,TRPO) 處理隨機策略的訓練過程,在訓練中定義了新策略與舊策略的KL 散度,要求狀態空間中的每個點的KL 散度有界限,即
KL[πθold(·|st),πθ(·|st)]]≤δ,得到了代理優化目標
利用非線性約束極值方法將代理優化目標轉化為
進而保證策略優化過程穩定提升,同時證明了期望獎賞呈單調性增長.在此基礎上,該團隊繼續提出了基于優勢函數加權估計的廣義優勢估計方法(Generalized advantage estimation,GAE),用以減少策略梯度估計方差[18].ACKTR[41]?以Actorcritic 框架為基礎,引入TRPO 使算法穩定性得到保證,然后加上Kronecker 因子分解以提升樣本的利用效率并使模型的可擴展性得到加強,相比于TRPO 在數據利用率和訓練魯棒性上都有所提升,訓練效率更高.Wang 等[42]?汲取其他DRL 算法的優勢,提出了基于經驗回放的Actor-critic 算法(Actor-critic with experience replay,ACER),采用n-step 的TD 估計,利用偏差修正的截斷重要度權重,以及后驗TRPO 對網絡參數更新,提升了算法性能.TRPO 算法使用二階優化算法獲得海塞矩陣,計算較為復雜,Schulman 等[43]?進一步提出了僅使用一階優化的近端策略優化(Proximal policy optimization,PPO) 算法,對代理目標函數簡單限定了約束,簡化了實現和調參過程,性能上優于現階段其他策略梯度算法,表現出了同TRPO 算法相當的穩定性和可靠性.
2 MADRL 研究
本節首先對DRL 同MAS 間的關系進行討論,分析DRL 與MAS 結合帶來的優勢以及挑戰.之后,考慮到單Agent 強化學習算法中環境的馬爾科夫屬性在MAS 中并不適用,標準的強化學習模型及算法無法刻畫出環境的動態性,我們對多Agent 的環境動態性以及學習過程進行描述與定義.在這一模型的描述基礎上,我們根據DRL 中的神經網絡內部各Agent 的信息交互發生階段(對外則表現為決策架構形式),對當下的MADRL 進行分類,對每一個類型的現有研究進行分析.最后,為方便相關學者的研究,給出了現有公開可用的多Agent 實驗平臺介紹.
2.1 DRL 與MAS 的關系
多Agent 任務的復雜性使得預置的Agent 策略難以適應多變的環境,Agent 必須依靠自身學習去尋找解決方案,逐步提升Agent 或者整個多Agent系統的性能.RL 算法便于理解,操作簡單,為Agent在線學習提供了一種便于接受的范式.在DRL 之前,將RL 應用于MAS 系統已有諸多研究綜述.早在2005 年,Panait 等[44]?就對協作多Agent 學習算法進行了廣泛的分析,并將其分為兩類:單個學習者(團體學習) 和多個學習者(并發學習).Shoham等[45]?對多Agent 學習進行了一般性綜述,提出了一些有趣的基礎問題,并指出了該領域發展的5 個分支.Tuyls 等[46]?呈現了關于人工智能(Artificial intelligence,AI) 問題的多Agent 學習鳥瞰圖,描述了領域內所取得的里程碑成就,并給出了當時的開放挑戰.Matignon 等[47]?側重于協作隨機博弈的獨立強化學習算法的發展.Bu?soniu 等[48]?對多Agent強化學習進行了全面的調查,他們提出了多Agent強化學習的算法分類和相關屬性.Crandall 等[49]?對兩人重復博弈的算法進行了概述,指出了多Agent問題的3 個屬性:安全性、合作性和折衷性,他們認為這些屬性在各種不同的游戲中扮演著非常重要角色.M¨uller 等[50]?提出了一個面向應用的多Agent概述,重點研究了使用或基于MAS 的應用程序.Weiss[51]?在其關于多Agent 系統專著的第10 章對多Agent 學習算法進行了描述,并對這些算法進行了分類.Bloembergen 等[52]?對演化博弈論的相關研究進行了概述,分析了多Agent 學習與演化博弈論間的關系.Hernandez-Leal 等[53]?從處理MAS 非平穩性問題的角度出發,將現有方法分為忽略、遺忘、響應目標對手、學習對手模型以及心智理論等5類.但是這些研究難以處理高維連續狀態空間與連續動作空間的環境,必須對環境特征進行抽取與人為定義,多個模塊的聯合進一步提升了MAS 的求解難度.而且上述綜述都是從多Agent 研究的某一角度出發,研究較早,關注點停留在DRL 興起前的研究算法,沒有對DRL 崛起后的多Agent 系統進行研究.DRL 提供了一種端到端(End to end) 的學習方式,這一學習方式結合了深度神經網絡的高容量特性,RL 決策高維連續空間的能力以及現有的硬件計算能力,克服了早期MAS 將任務分解的學習方式,降低了任務的求解復雜度,大幅提高了決策的穩定性,為解決MAS 提供了一種新的思路.
此外,DRL 和MAS 的特性在一些方面可以優勢互補.DRL 訓練往往需要大量樣本進行訓練,而MAS 系統的天生并發性,使得多個Agent 可以并發產生大量樣本,大大提升了樣本數量,加速學習過程以及達到更好的學習效果; MAS 的這一并發性,又使得多Agent 在分散架構下能夠充分使用并行計算,提升了DRL 的學習效率; 在MAS 中,新來的Agent 能夠接替早些時候的Agent,這使得MADRL 相對于single-agent DRL 具有更強的魯棒性.現有的MAS 難以處理高維連續的環境,而DRL 能夠處理高維度的輸入,學習控制復雜的動作;神經網絡的內部結構,又可以解決MAS 中的通信問題,克服人為定義通信方式的不足問題.MAS 同DRL 的結合,在帶來上述好處的同時,也遭受著自身的以及結合帶來的問題:隨著Agent 數量的增加,決策輸出的動作維度越來越大,動作空間呈現指數增長的趨勢; 相對于單個Agent,多Agent 任務更加難以制定學習目標,單個Agent 學習的結果受全體Agent 的影響; 多Agent 的同步學習,使得環境產生了非平穩性,打破了DRL 學習的基本前提; 多Agent 中的探索,更容易使得策略的學習陷入惡性循環,難以獲得良好的策略.
2.2 多Agent 學習模型
多Agent 集中決策過程獲取全局觀測并輸出全局聯合動作的方式滿足MDP 屬性,同單Agent 的強化學習方法決策過程類似,可以應用面向強化學習的MDP 對其進行建模,在本節對這一數學過程進行了描述,但這一方式在MAS 中應用有許多缺點,在第2.6 節中將進行討論.多Agent 自主決策過程可以使用隨機博弈理論進行描述,正則形式的博弈是MDP 在多Agent 的環境中的泛化形式,定義如下.
定義2 (正則形式的博弈,Normalform game).?有限參與者的正則形式的博弈由三元組〈N,A,u〉?組成,其中N?表示I?個Agent 的有限集合,i?表示Agent 的索引;A=A1×···×AI,其中,Ai?表示單個Agent 的有限動作集合,向量a=(a1,···,aI)∈A?表示所有Agent 的一次動作集合;u=(u1,···,uI),ui?:
表示單個Agent 的真實效用或者收益函數.
正則形式的博弈描述了多Agent 的一次決策過程,但沒有對環境狀態進行明確定義,不能夠描述多Agent 的環境特征以及動態變化特性,如StarCraft II,自動駕駛,多Agent 對抗等非平穩的、不完全的、部分可觀測的環境特性.在現有強化學習以及隨機博弈理論的啟發下,自主決策的多Agent 決策過程可以建模為部分可觀測的MDP,定義如下(過程如圖4 所示).
定義3 (部分可觀測馬爾科夫決策過程,Partially observable MDP,POMDP).?面向多Agent 的POMDP 可由八元組G=〈N,S,A,R,T,γ,Z,O〉?定義.在POMDPG?中,N?表示參與決策Agent 的集合,i ∈N ≡{1,···,n}?表示單個Agent;s ∈S?表示環境的真實狀態;aaa ∈AAA ≡An?表示參與決策的Agent 的動作集合,ai∈Ai?表示單個Agent 執行的動作;T?:S×A×S →[0,1] 表示環境狀態轉移函數,在狀態s?下,執行聯合動作a,轉移到狀態s′?的概率,即P(s′|s,a); 多Agent 獎賞函數R:S×A×S →R,在狀態s?下,執行聯合動作a,轉移到狀態s′?獲得的立即獎賞r(s,a,s′);z ∈Z≡Zn?表示Agent 對環境的部分帶噪聲(不完全信息) 觀測,zi∈Zi?是單個Agent 對環境的觀測;O?:S × N →Z 表示環境狀態s?下,單個Agent 的觀測狀態函數O(s,i)=zi;γ?是折扣因子,代表長期獎賞與立即獎賞之間的權衡.
在多Agent 環境中,Agent 利用自身的動作-觀測歷史τi∈Ti=(Zi×Ai)*?以及當前時間步的觀測zi,決策Agent 采取動作ai?的概率πi(ai|τi,zi) :Ti×Ui→[0,1],執行后將該動作-觀測添加到歷史存儲中τi←τi×(zi,ai).
在POMDP 中,單個Agent 的狀態-動作值函數Q(zi,ai) 的貝爾曼方程表示為
a-i?表示狀態s?下,除Agenti?外的Agent 動作集合;p(s|zi) 表示Agent 當前局部觀測對應的全局狀態的映射關系;π-i(a-i|τ-i,z-i))) 表示對手Agent 在該全局狀態下的聯合動作概率;P(s′|s,a)表示全局狀態和聯合動作到下一狀態的轉移函數;r(s,a,s′) 表示該全局轉移下獲得的全局獎賞;
表示該后繼狀態下對手Agent 的聯合觀測概率;
表示該后繼狀態與對手聯合觀測下,Agent 局部觀測狀態的概率.
圖4 面向多Agent 的POMDP Fig.4 Multi-agent-oriented POMDP
2.3 MADRL 分類
針對目前DRL 在多Agent 學習的最新研究進展,根據DRL 中的神經網絡內部各Agent 的信息交互發生階段,本文將現有MADRL 算法分為以下3 類:
1) 全通信集中決策架構.該決策架構中,多Agent 間的通信過程發生在神經網絡內部,多Agent通過自我學習通信協議,決策單元接收各Agent 處理后的局部觀測信息,對觀測信息進行融合,獲得全局信息表征,進而集中決策產生聯合動作,以通信的方式指導單Agent 的動作,如圖5(a) 所示.全通信集中決策架構通過信息融合,感知全局信息,降低了環境噪聲帶來的信息損失,此外,通過集中決策方式,有力地對單Agent 的動作進行了協調,使得多Agent 能夠按照一致的目標開展行動.但這一架構對系統的時效性要求較高,并對通信系統有很大的依賴,適用于通信時效性要求較低的強化學習場景或一臺PC 對多個Agent 控制的任務.
2) 全通信自主決策架構.該決策架構中,多Agent 間的通信過程發生在神經網絡之前,單個Agent 利用自組網通信拓撲,接收對手2?Agent 的局部觀測信息以及歷史動作,采用嵌入式的方法對接收信息進行融合,并結合自身的觀測信息(以及對對手的推斷信息) 自主決策,進而協作的完成任務,如圖5(b) 所示.全通信自主決策架構中各Agent 通過通信獲得環境的全局信息,結合對對手行為的推斷,自我學習協作的動作,涌現出協同能力.該架構對Agent 間通信時效性要求相對較低,適用于具備通信條件的RL 任務.相對于全通信集中決策架構,全通信自主決策架構在現實中應用更加廣泛.
3) 欠通信自主決策架構.在該決策架構中,多采用循環神經網絡進行學習,代表Agent 策略的神經網絡之間沒有信息交互,單Agent 依靠自我觀測的能力,獲得部分(不完全) 環境信息,結合對對手的觀測與推斷,進行自主決策,確定采取的行動,以期涌現出協同的聯合行為,協調一致的完成任務要求,如圖5(c) 所示.欠通信自主決策架構僅依靠自我觀測能力,通過觀測與推斷對手行為,進行自主決策,進而涌現出協同能力.欠通信自主決策架構不依賴通信,適用任一多Agent 環境.由于缺乏通信,欠通信自主決策架構相對上述全通信決策結構,對環境的觀測是部分的、不完全的.這種部分觀測不僅包含觀測的信息有限,也包含觀測帶來的環境噪聲,受環境不確定因素的影響更大.此外,該結構也面臨著對手策略變化帶來的環境非平穩性問題.
2.4 全通信集中決策架構
圖5 多Agent 決策示意圖
Fig.5 Diagram of multi-agent decision-making
早期的多Agent 集中決策架構是關于多Agent的動作和觀測的聯合模型,將多Agent 的聯合觀測映射到聯合行動,訓練過程同單Agent 強化學習任務一致,如圖6(a) 所示.這一決策架構將多Agent問題轉換為單Agent 問題,有效解決了Agent 數量少且固定、動作空間小等MAS 任務中的多Agent間的協同問題.但是對于Agent 數量較多、動作空間巨大的強化學習任務,這一架構將導致聯合觀測空間s ∈S=|O1|×|O2|×···×|On|?和聯合動作空間a ∈A=|A1|×|A2|×···×|An|?隨Agent 數量增加呈指數級增長.此外,該架構限定了任務中的Agent 的數量,不能在交互過程中擴展Agent 的數量,即便是同樣的環境,不同數量的Agent 也需要單獨訓練模型,泛化能力弱.
圖6 集中決策架構輸出動作分類
Fig.6 Output action classification of centralized decision architecture
在現有的多Agent DRL 研究問題中,人們通常將聯合動作空間分解,聯合動作可以看作是每個Agent 動作的組合,聯合策略可以視作多個子策略的組合,這意味著神經網絡的輸出是單個Agent的動作分布,而不是聯合動作分布,如圖6(b) 所示.這一改變使得動作空間的大小由
降為
同樣,采樣類似的方式可以對觀測空間進行分解.
在全通信集中決策架構中,現有研究方法主要集中在隱藏層信息池化共享通信和雙向RNN 通信等兩種手段,通過神經網絡的隱藏層間信息傳遞保證全通信條件下Agent 間的協商.
在基于隱藏層信息池化共享的決策架構中,各Agent 通過內部隱藏層的交互,在決策過程中進行協商,進而輸出協同的聯合動作.Sukhbaatar 等[54]提出自主學習Agent 間通信協議的方法,采用包含模塊fi?的多層架構,利用當前步的隱藏層輸出h?和計算獲得的通信輸出c?迭代地獲得下一決策所需的網絡輸入hK,并根據最終的網絡輸出q(hK) 選擇執行動作.如圖7 所示,sj?表示Agentj?的環境狀態觀測,將所有Agent 的聯合觀測sss={s1,···,sJ}的相關狀態表征作為決策的輸入,輸出針對單個Agent 的聯合動作的結果a={a1,···,aJ}.在中間的隱藏層中,設計出自身隱藏層信息和交互隱藏層信息融合的模塊fi,每個Agent 的模塊fi?接收兩個輸入向量:上一階段傳來的隱藏狀態
以及通信向量
并輸出下一隱藏層信息
其中通信信息為
隱藏層信息為
輸出的隱藏層信息為
σ?為非線性的激活函數.該算法采用平均池化
可以克服Agent 數量不定,解決MAS 中算法難以擴展Agent 數量的問題.
圖7 基于隱藏層信息池化共享的集中決策架構
Fig.7 Centralized decision architecture based on shared pooling of hidden layers information
基于隱藏層信息池化共享通信的決策架構人為設定通信協議,利用池化方法對信息進行整合,雖然解決了Agent 間的通信問題以及擴展問題,但針對缺乏先驗知識的任務,難以設計有效的通信協議.基于雙向RNN 通信的集中決策架構利用雙向RNN 結構的信息存儲特征,自學習Agent 間的通信協議,克服了通信協議設計對任務先驗知識的剛性需求.Peng 等[55]?提出了基于AC 的多Agent 雙向協作網絡(Bidirectionally-coordinated network,BiCNet),Actor 和critic 網絡均使用雙向LSTM 架構將Agent 串聯,在訓練過程中,雙向LSTM 自行學習通信協議,在輸入端利用Attention 機制從全局態勢信息中抽取每個Agent 的觀測輸入,輸出行動集合,同樣采用基于Attention 機制的雙向LSTM對動作集合進行評價.
通信協議的自我學習解決了Agent 間的信息傳遞規則,但不合適的獎賞會帶來虛假獎賞和產生懶惰Agent 等問題,Sunehag 等[56]?提出了全局獎賞下的值分解網絡,采用DQN 網絡結構,對每個Agent設立獨立Q 值,進而求和獲得聯合行動的Q 值.他們嘗試了RNN、Dueling Network 等多種組合,考慮了Agent 間多種通信程度,分別對全通信自主決策架構、全通信集中決策架構以及欠通信分自主決策架構進行了學習框架設計,如圖8 所示.
Kong 等[57]?提出一種將集中決策同自主決策相結合的主-從多Agent RNN 學習架構,采用主-從架構,由中心Agent 指導多個真實執行的Agent,充分利用自主決策和集中決策的優勢,其中主Agent融合分Agent 的觀測信息并總結出指導信息,分Agent 根據指導信息并結合自身局部觀測信息做出最終動作選擇,類似于足球比賽中教練與球員間的關系.
2.5 全通信自主決策架構
全通信集中決策架構利用神經網絡的隱藏層將各Agent 的信息進行融合,使得其必須將部分觀測信息在單一的決策主體中進行融合,集中地進行決策,而全通信自主決策架構只需在輸入端進行通信,將信息進行本地融合,自主的完成決策過程.
Foerster 等[58]?針對預定義通信協議在部分環境中不可用的問題,提出了自適應的端到端的通信協議學習算法,將通信定義為一組動作,Agent 利用自身觀測以及對手Agent 傳遞的通信動作,采用時序RNN 架構輸出通信和決策動作,從而達到協同行動的目的.根據通信動作的連續性,將決策網絡的梯度更新方式分為增強和可微兩類,如圖9 所示,圖9(a) 表示增強更新的應用架構,Agent 1 接受來自上一階段Agent 2 的通信動作
并結合自身的觀測
經過Action select 模塊,產生傳遞給Agent 2 的通信動作
和對環境的動作
利用增強算法的梯度傳播的思想對動作進行更新; 圖9(b) 表示可微更新動作的應用框架,通信動作的產生不再通過動作選擇模塊,而是直接將神經網絡的通信結果經過離散正規化單元(discretise/regularise unit,DRU) 后不經選擇地傳遞給下一Agent,保證通信動作具有可微性,進而對決策網絡進行更新.
通信動作的學習雖然有一定的研究意義,但通信動作的定義大多需要相關的領域知識,人們更關注在既定通信協議下或自學習通信協議下,通過本地的態勢融合感知獲得決策的結果.在既定通信協議下,Usunier 等[59]?定義了一種短期、低層次的微操強化學習任務,各Agent 將以通信的方式獲得的局部觀測進行聯合編碼,利用用于推斷的貪婪MDP,通過多階段的對手行動推理,自主產生協同行動,并利用零階梯度估計的后向傳播策略對行動策略進行更新.Mao 等[60]?提出了一般性的協作Actor-critic網絡(Actor-coordinate-critic net,ACCNet),在部分觀測的環境中從零學習Agent 間的通信協議,根據協作所處的階段,提出了AC-Cnet 架構,如圖10(b)所示.針對全通信的自主決策結構,他們設計了ACCNet 架構,對局部狀態進行嵌入編碼,之后利用預定義/自學習通信協議對所有局部狀態編碼進行聯合編碼,與待決策Agent 的局部狀態結合一同作為決策輸入,產生動作.
圖8 多種架構下的值分解網絡
Fig.8 Value decomposition network for multiple architecture
圖9 通信流示意圖
Fig.9 Diagram of communication flow
此外,針對個體獎賞帶來的“囚徒困境”,自主決策也可采用聯合動作評估方法,對行動網絡進行更新.在策略執行過程中,Agent 依靠Actor 網絡做出行動選擇,因而在訓練階段采用聯合動作的Critic函數對Actor 網絡進行學習更新,不會破壞執行過程中的自主決策架構.Mao 等[60]?利用全局動作獎賞對策略進行評估,有效克服了個體獎賞帶來的問題.Yang 等[61]?提出平均場強化學習,利用總體或鄰近Agent 間的平均相互作用近似Agent 間的相互作用,個體的最優策略取決于全體動態,而全局動態則根據個體策略集合改變,設計了面向多Agent 的平均場Q 學習和平均場Actor-critic 算法,并分析了解的收斂性.
2.6 欠通信自主決策架構
圖10 決策-協同-評估網絡架構
Fig.10 Actor-coordinator-critic net framework
同單Agent 的強化學習不同,多Agent 自主決策強化學習任務面臨著環境非平穩性的問題.對單個Agent 而言,對手Agent 策略的變化使得環境的狀態轉移函數隨時間變化而變化,即
環境轉移函數可表示為
其中o-i,a-i?表示Agenti?的對手聯合觀測和聯合行動.在環境轉移函數中,轉移
ai,a-i) 是平穩的,不隨時間改變; 然而,其他Agent 的策略學習,使得聯合策略π(a-i|o-i) 發生變化,導致單個Agent 面臨的環境轉移
是非平穩的.針對欠通信自主決策面臨的環境非平穩,Hernandez-Leal 等[53]?將早期強化學習中處理環境非平穩問題的方法分為忽略、遺忘、響應目標對手、學習對手模型以及心智理論等五類,在此不再贅述.本文結合當前DRL 的發展特性,從經歷重放、協作中的“囚徒困境” 以及參數共享等方面對欠通信自主決策的MAS 進行研究.
Tampuu 等[62]?開展了將DRL 應用到多Agent環境中的開拓性研究,但沒有考慮環境的非平穩性,通過設計不同的全局獎賞函數,采用兩個獨立自主的DQN 網絡對合作、競爭和合競等多Agent 強化學習任務進行訓練,取得了較好的效果.由于環境的非平穩性,在自主Q 學習強化學習任務中,經歷重放機制所存儲的經歷不能反映當前環境的動態性.Omidshafiei 等[63]?忽略環境非平穩問題,依舊利用經歷重放機制,采用分散滯后深度RNN 的Q 網絡(Dec-HDRQNs) 架構,克服環境非平穩帶來的值估計偏差.他們根據單Agent 的TD error 有選擇得對策略進行更新
當TD error 非負時,采用正常學習率α?更新,否則使用較小的學習率進行更新.此外,為了使得策略具有較好的泛化能力,他們采用多任務(Multi-task)對Dec-HDRQNs 的策略進行過濾.Palmer 等[64]?則將Lenient 應用到MADRL 中,隨訪問次數的增加而增大接受負TD error 的概率,并認為在實驗中先進行普通Q 學習,再進行Double Q 學習的混合Q學習有更好的學習效果.Foerster 等[65]?則針對環境非平穩性的來源,提出了離環境下的重要性采用方法,對內存中的經歷進行了重用,并使用指紋法記錄環境中其余Agent 的動態變化信息,使得經歷重放機制在多Agent 環境中依然適用,離環境下的重要度采樣損失函數定義為
其中,
表示除Agenti?外,其他Agent 在當前策略下的聯合動作產生概率;
表示除Agenti?外,其他Agent 聯合動作在離環境下的產生概率;yl?采用Q 學習的方式獲得.
受非全局獎賞的影響,多Agent 合作存在“囚徒困境” 的問題,Mao 等[60]?提出了A-CCNet 架構,如圖10(a) 所示,針對欠通信的自主決策架構,設計了不依賴通信的A-CCNet 架構,各Agent 依據局部狀態做出動作選擇,將局部的狀態-動作同對手Agent 的決策結果相結合,進行整體評價.Leibo等[66]?利用純粹的自主Q 學習方法,為每個Agent單獨訓練一套參數,重點解決了社會困境中的“囚徒困境” 難題,揭示了社會困境如何影響Agent 間的合作.Facebook AI 研究室[67-68]?在DRL 中利用過往回報來調節自身行為,進而獲得較好的合作策略.Menda 等[69]?提出事件驅動的MADRL 方法,將Agent 的動作分為宏觀和一般兩類動作,宏觀動作由事件驅動,而一般動作則是自主決策,利用改進的GAE 算法對策略進行求解,允許Agent 在決策中異步執行,克服了固定時間步混淆事件發生順序而帶來的不利影響.Lowe 等[70]?將DDPG 方法擴展到多Agent 學習,通過觀測對手過往行為對對手進行建模,同時構建全局Critic 函數對全局狀態-自主動作進行評估,并訓練一組Agent 策略提高算法的魯棒性.
全局Critic 函數雖然克服了“囚徒困境” 問題,但對單個Agent 的Actor 網絡改進指導不足,不能衡量單個Agent 策略對全局Q 值的影響程度,即信用分配問題.Foerster 等[71]?提出了基于Actorcritic 的反事實多Agent (Counterfactual multiagent,COMA) 策略梯度方法,采用集中的Critic函數對聯合動作進行評估,各Agent 利用獨自的Actor 策略網絡進行決策.通過固定其他Agent 的行動,使用邊際法確定反事實的基線,進而確定每個Agent 的信用分配
利用獲得優勢函數
(z,(ai,a-i) 對策略網絡進行增強更新,獲得的最好的實驗效果超越了集中決策模型.
共享信息已被證明可以加速強化學習任務的優化[72],尤其是多Agent 強化學習任務.如果Agent是同質的,則可以利用參數共享(Parameter sharing,PS) 的方式,即多個Agent 共用一套網絡參數.在PS 機制下,Agent 在訓練中可以使用全體Agent 的仿真經歷.此外,同樣的策略網絡,由于不同的Agent 接收不同的觀測狀態(也可以用相關的序號區分即便同觀測的Agent),因而Agent 間可以產生不同的動作.Ellowitz[72]?用強化學習方法,模擬多Agent 優化同一任務的系統,研究了不同Agent 密度和策略共享的影響,發現PS 策略減少了達到漸近行為的時間,使得漸近行為獲得較好改善.Gupta 等[73]?將策略梯度、TD error 以及AC等3 種深度強化學學習算法應用到部分可觀測的協作多Agent 環境中,在一系列離散和連續的動作空間任務中,使用基于TRPO 的PS 并發訓練模式加速了學習過程,并且驗證了循環網絡的效果優于前饋網絡.Chu 等[74]?針對MADDPG 算法[73]?擴展性較差的問題,提出了參數共享的MADDPG 算法(PS-MADDPG),并針對不同的應用環境,提出了Actor-critic 網絡均共享、Actor 網絡共享而Critic網絡不共享、Actor 共享而critic 部分共享(共享的部分為公有特征抽取網絡,如CNN 層) 等3 種Actor-critic 共享組合架構.
2.7 多Agent 實驗平臺
強化學習過程需要不斷同環境進行交互,環境對強化學習至關重要,相關單位與個人針對多Agent 強化學習研究開發了多種訓練平臺.
DeepMind 和暴雪公司合作,開發了一個基于星際爭霸II 游戲的強化學習平臺(StarCraft II learning environment,SC2LE)[75],描述了星際爭霸II 中的觀察、行動和獎勵規范,并提供了一個基于Python 的開源的接口來與游戲引擎進行通信.除了主要的游戲地圖之外,該平臺還提供了一套專注于“星際爭霸II” 游戲的不同元素的迷你游戲.對于主要的游戲地圖,還提供了來自人類專業玩家的游戲數據的訓練數據集.另外,還給出了從這個數據訓練的神經網絡的初始基線結果,以預測游戲結果和玩家動作(https://github.com/deepmind/pysc2).當前針對星際爭霸游戲的DRL 研究主要集中在單元控制的微操(Micro-management) 層面,多采用狀態間雙方血線變化作為獎賞.不同的訓練結構對狀態有不同的表示方法,可分為單元附近狀態的局部觀測與所有單元的全局觀測.Usunier 等[59]?利用全通信自主決策架構,通過參數共享的方式訓練單個網絡對多個同類Agent 進行控制,使用無梯度估計對策略網絡進行更新,相對其他算法,該方法最多可以控制15 個單元.Peng 等[55]?利用雙向LSTM 網絡,搭建了全通信集中決策架構,集中的網絡決策輸出每個Agent 的動作,在不同尺度上具有較好的效果,學習的動作部分具有較好的可解釋性.Kong等[57]?結合了集中決策和自主決策的優勢,采用主-從架構的全通信集中決策架構,在十個以上單位的對抗中,超越了之前的所有算法.Foerster 等[65]?通過指紋法和重要性權重的方法,重用歷史經歷,采用欠通信的自主決策架構在較小的戰斗場景中取得了不錯的成績.在之后的研究中,Foerster 等[71]?使用了集中的Critic 和分散的Actor 架構的Actorcritic 算法,采用反事實的基線獲得動作優勢函數,解決了多Agent 問題中的信用分配,在欠通信自主決策架構中取得了最好的效果,而且能夠控制十個以上的單元.
上海交通大學開發了一種支持多Agent 強化學習研究和發展的MAgent 平臺[76],該平臺聚焦含成千上萬Agent 的任務和應用.在Agent 間的相互作用中,該平臺不僅能夠開展Agent 最優策略學習的算法研究,而且能夠觀察和理解AI 社會中出現的個體行為和社會現象,包括溝通語言、領導力、利他主義.同時,MAgent 具有高度的可擴展性,可以在單個GPU 服務器上托管多達一百萬個代理,還為AI 研究人員提供靈活的配置,以設計他們的定制環境和Agent,該平臺給出了基于欠通信自主決策的獨立Q 學習和A2C 的基線算法(https://github.com/geek-ai/MAgent).在MAgent 平臺中,Yang 等[61]?構建了混合合作-競爭的戰斗游戲,兩支包含64 個Agent 的隊伍進行對抗,每個Agent 的狀態觀測來自于全局狀態觀測,Q 值對自身動作和周圍鄰居平均動作的組合進行評估,有效的將多體問題轉換為二體問題,并使用了平均場Q 學習和平均場AC 同平臺的獨立Q 學習和A2C 基線算法進行了對比,平均場算法在勝率和累積獎賞值中遠超基線算法.Khan 等[77]?在MAgent 平臺中構建了合作、競爭以及合競等3 種多Agent 環境,采用全通信的自主決策架構的分布式多Agent 策略梯度算法,環境中的每個Agent 可以獲得其他Agent 的相對位置與速度、靜態障礙物的位置,在所有實驗中使用包含100 個隱藏單元的兩層全連接層對值網絡和策略網絡進行估計.所有算法同全通信集中決策的A3C 和TRPO 的基線算法進行比較,3 種環境下收斂速度明顯優于基線算法.Chen 等[78]?提出了一種全通信自主決策下的多Agent 分散Q 學習架構,將全局觀測與聯合動作進行分解,利用分解的Agent 的值函數和剩余Agent 的聯合值函數獲得當前狀態的值函數,采用Duling 架構的設計思想,采用分解Agent 的Q 值函數與當前狀態值函數獲得當前聯合動作Q 值函數.在MAgent 平臺下的戰斗場景中,同基線算法以及平均場Q 學習算法進行了對比,從殺敵數量、單Agent 單步平均獎賞和全體累積獎賞等方面進行分析,該算法架構取得了很好的效果.
Brodeur 等[79]?提出了一個面向人工Agent 的家庭多模態環境(Household multimodal environment,HoME),在逼真的環境下,從視覺、音頻、語義、物理以及與對象和其他Agent 的交互等方面進行學習.HoME 基于SUNCG 數據集,集合了超過45 000 種不同的3D 房屋布局,這個尺度可以促進學習,泛化和遷移.該環境是一個開放源代碼,與OpenAI Gym 平臺兼容,可擴展到強化學習、基于聲音的導航、機器人以及多Agent 學習等任務(https://github.com/HoMEPlatform/home-platform).HoME 側重于室內3D環境下的圖像研究,利用該平臺進行多Agent 研究的學者較少,但隨著圖像技術的發展,室內異質多Agent 協同也將是通用人工智能的熱點之一.
此外,Facebook AI 研究室提出一個面向即時戰略游戲(Real-time strategy game,RTS) 的廣泛的、輕量級的和靈活得多的Agent 強化學習平臺ELF (Extensive,lightweight and flexible research platform)[80],實現了具有3 種游戲環境(Mini-RTS、奪旗和塔防) 的高度可定制的RTS 引擎.該平臺在Environment-agent 通信拓撲,強化學習方法選擇游戲參數變化等方面靈活多樣,并且可以托管現有基于C/C++的游戲環境,如ALF(Arcade learning environment).同樣開發了相應的Python 接口,利用Python 接口可以返回經歷樣本,方便進行強化學習訓練(https://github.com/facebookresearch/ELF).ELF 提供的為兩人對抗的視頻游戲場景,同Starcraft 相比,Agent 數量較少,不是多Agent 研究的主流,多為對抗游戲的測試環境.
3 MADRL 中的關鍵問題及其展望
MADRL 決策架構研究對當前MAS 的強化學習決策結構進行了分析與討論,但MADRL 仍面臨著多Agent 訓練要素的研究,即構建何種訓練結構可以使得Agent 能夠不依賴人類知識而由弱到強的進行學習,如何構建合適的模型能夠更加準確的描述MAS,針對特定的MAS 采用何種決策架構等;此外,PS 機制雖然使得單個Agent 擁有足量的訓練樣本,但當前MAS 系統仿真難度大,總體樣本數量依然有限,數據效率低,因而,需要利用已有樣本對整體樣本進行增強,滿足訓練的樣本量需求以及如何提高數據效率; 同時,DRL 訓練通常面臨著對環境過擬合的問題,而MADRL 則面臨著對對手和環境的雙重過擬合問題,需要采用對抗機制提高MADRL 算法的魯棒性; 在自主決策架構中,受限于不完全環境信息,需要充分考慮對手模型,學習對手行為,進而產生協同行為; 另外,當前多Agent 逆強化學習的研究仍是一片空白.本節針對這些實用技術展開分析與研究.
3.1 多Agent 訓練要素研究
單個Agent 的DRL 任務,只需要一個環境和部分環境參數,經過一定時間的訓練就可以獲得“令人滿意” 的Agent.多Agent 任務相比單Agent 任務復雜許多,往往包含較多的因素,并且構建復雜的多Agent 環境往往是不切實際的,而真實環境又難以獲得DRL 訓練所需的大樣本.
AlphaGo Zero[7-8]?利用自博弈的學習方式,不依賴人類知識,從零開始,訓練出強大的圍棋Agent.雖然AlphaGo Zero 是面向單Agent 的強化學習,但從訓練過程分析,其采用了競爭環境的多Agent共享參數訓練框架,自博弈的雙方Agent 共用一套網絡參數,增加了訓練的樣本量,并通過對抗式的訓練架構,在19×19 的簡單環境中獲得了遠遠超越環境復雜度的強大Agent.在多Agent 學習中,可以使用類似的訓練過程.Bansal 等[81]?針對Agent的行為容量受限于環境容量問題,即環境的復雜度限制了訓練Agent 的復雜度上限,提出了一種同AlphaGo Zero 相似的對抗式的訓練架構,該架構是無模型的強化學習方法,通過從零開始的課程學習,使得帶自博弈的對抗多Agent 環境可以訓練出遠比環境本身更復雜的行為.盡管這種對抗訓練方式在單個獨立Agent 環境中取得很大成功,在多Agent也取得一些進展,但并沒有類似AlphaGo Zero 的重大的突破.
除了對抗學習架構,博弈論方法為多Agent 研究提供了另外一種思路.Lanctot 等[82]?提出了基于近似最優響應的廣義MARL 算法,該算法利用聯合策略相關性評估策略的泛化能力,將DRL 策略和實證博弈論分析進行混合,計算策略選擇的元策略,對自主強化學習、迭代最優響應、Double Oracle 以及虛構對抗等工作進行了泛化研究.
除了訓練架構的研究外,對如何構建MADRL的模型也存在一定的討論.在對序貫決策的任務建模中,MDP 是當前強化學習算法的主要模型,POMDP 則是多Agent 任務中的一種常見模型.但這一模型不是絕對的.演化博弈論同樣可以針對MADRL 進行有效建模.在將博弈理論引入MAS的早期研究中,已經建立了一般強化學習和演化博弈論核心的模仿者動態(Replicator dynamics) 間的形式化聯系,在Bloembergen 的綜述[52]?中,他們對這一關系進行了討論,采用無限學習率的極限,研究了由此產生的動力學系統,并深入了解了多Agent 系統的行為,如收斂性、穩定性和魯棒性,對每個均衡的關注點和產生的回報給予額外的關注,同時對預期的聯合交互結果進行評估.
在多Agent 任務的3 種決策架構中,集中決策利用集中方法對多Agent 進行協同,具有無法比擬的優勢,在實際的問題研究中,業界人士多采用這種架構[16-19,22].但從理論研究上,研究者們更加關注多Agent 自主決策,希望通過學習、設定目標,使得Agent 在執行任務時能夠自發形成期望的協同動作.即便在未能預先知曉對手的任務中,訓練出自治的Agent 也能夠有效、魯棒的進行協作,對其他對手提供協同輔助.針對這種“點對點” 的協作已開展了部分研究[83-86],但仍留有很大的研究空間,而且在DRL 領域中還沒展開該“點對點” 的協作模式.
3.2 樣本增強技術研究
在真實系統上應用強化學習,數據采樣速度有限,導致強化學習訓練樣本不足.Huang 等[87]?提出了增強生成對抗網絡(Enhanced GAN,EGAN)初始化強化學習Agent,EGAN 利用狀態-行為與后繼狀態-獎賞之間的關系提高由GAN 生成的樣本的質量,以實現更快的學習.Kumar 等[88]為更好理解在線商務中顧客與產品間的關系,利用GAN 生成仿真交易訂單,針對在線商務交易的特點,對在線訂單構建了密集的低維表示,訓練出ecGAN (e-Commerce GAN) 驗證框架的合理性,并結合條件GAN 生成指定商品的訂單.該方法對多Agent 環境中的數據樣本生成提供了行之有效的架構.Andersen[89]?在其碩士畢業論文中研究了用于強化學習的人工訓練樣本生成模型,利用膠囊網絡[90],結合條件GAN 對環境中的圖片類狀態進行了生成,展示了生成數據對DQN 訓練的好處.Corneil 等[91]?介紹了變分狀態表(Variational state tabulation,VaST),能夠將具有高維狀態空間(例如視覺輸入空間) 的環境映射到抽象表格環境,使用高效的優先掃描規劃方法更新狀態操作值.Nishio等[92]?提出了結合神經情景控制(Neural episodic control)[93]?的NEC2DQN 架構,在學習的初始階段,加速了樣本匱乏任務的學習速度.這些方法使用現有的GAN 技術對樣本進行生成,并不依賴環境的真實動態性,適用于經歷重放機制下的強化學習算法.
上述方法關注于樣本的真偽,雖然也有考慮生成樣本間的相關性,但并沒有考慮環境本身的轉移關系.在DRL 研究中,無模型方法數據利用低效,僅僅使用了轉移中的獎賞信號,忽視了樣本的轉移過程; 基于模型的方法有較高的數據效率,但所獲得的策略往往不是最優解.Ha 等[94]?將無模型和基于模型的方法進行結合-“世界模型”,利用少數轉移樣本,通過混合高斯分布的RNN 學習了虛擬環境模型,在虛擬環境中利用進化算法求解策略取得很好的效果.在此基礎上,相關學者[95-97]?將“世界模型” 概念推廣到更廣闊的環境中進行驗證,這種夢境下的學習彌補了Agent 同環境的多頻次交互.這一學習方式,為克服多Agent 環境中樣本不足提供了一種解決思路,但是如何對多Agent 環境中的非平穩性進行刻畫,還留有相當大的研究空間.
3.3 魯棒性研究
在MAS 中,仿真環境同現實環境的差距巨大,這一困境導致在仿真環境中的策略學習的結果難以遷移; 另外,即使策略的學習樣本來自于現實環境,學習數據的不足也使得強化學習難以收斂.Pinto等[98]?利用存在對抗對手的環境,對Agent 進行對抗訓練操作,對手的對抗性隨Agent 能力增強而增強以此提高Agent 的魯棒性.Pattanaik 等[99]?發現即便很簡單的干擾,都會使得DRL 算法性能大幅衰退,針對該問題他們提出了對抗攻擊的強化學習算法,設計了簡單擾動和基于梯度擾動的兩種擾動方式,并對DQN 和DDPG 情況下的擾動以及對抗訓練進行了研究,提高算法在參數不確定環境中的魯棒性.Mhamdi 等[100]?認為在仿真中可能產生的中斷是學習過程的一部分,Agent 要有能力在安全的中斷中進行學習,并將這些影響它們獎勵的干擾與特定的狀態聯系起來,從而有效避免中斷,在聯合行動學習者和自主學習者兩個學習框架中研究這個概念,并對動態安全可中斷性進行了定義,實驗證明如果Agent 可以檢測到中斷,那么即使對于自主學習者,也可以修剪狀態以確保動態安全中斷.上述研究通過建立帶有擾動的環境提高Agent 的魯棒性.現有研究認為在有限的時間內,DRL 總能在單Agent 任務中尋找到較優的策略,這一學習過程的本質是對訓練環境的過擬合,因而在DL 用于克服過擬合的方法在單Agent 的DRL 任務中仍舊適用.而在多Agent 研究中的過擬合問題更加嚴重,不僅存在對環境的過擬合,同樣也存在著對對手的過擬合.雙重過擬合問題是MADRL 中的一大難點,決定著MAS 能不能進行可靠的應用.
另外,從遷移學習派生出來的信息也可以推廣到多Agent 情景來克服MADRL 的弱魯棒性,如課程學習.遷移學習算法利用學習中獲得的經歷來對模型進行泛化,以改善Agent 在不同但相關的任務中的學習效果.遷移泛化能力在非平穩環境中的表現尤為重要,特別是多Agent 中對抗對手模型變化帶來的環境的不可預知的變化(協同Agent 的策略變化處于一種可獲知的變化).例如,如果對手經常發生變化,已有的先驗信息(以模型、規則或策略等形式)將有助于快速制定Agent 的策略.在現有的多Agent 學習中,重復使用對手過去的策略也有體現,是當前克服模型過擬合的一種通用手段[63,81,101].現有技術適用于單個獨立的Agent,重用遷移不同Agent 的信息仍是一個有待解決的問題,向Agent提供建議也是一個待發展的方向.
此外,在MAS 中,環境中的Agent 在交互中產生和消亡也是可能的(例如,星際爭霸游戲中己方Agent 死亡),這將影響環境以及其他Agent 的策略.針對這類場景,是將每個可能消失/產生的Agent 單獨建模,或者利用參數共享,搭建可擴展的訓練架構[55,59-60,71,102-103].同時,在大多數多Agent 學習算法中通常假定Agent 間的交互在所有的Agent間同時發生.然而,在現實世界的情況下,情況并非總是如此,這種通信交互往往是異步的,而不同的Agent 具有不同的響應時間.目前的學習算法能否在這些條件下工作仍然是一個懸而未決的問題.
與數量較大的Agent 進行交互往往帶來很大的問題,因而現有的大多數算法在環境中僅設置了較少的Agent 進行算法驗證.然而,將這些算法應用到大規模Agent 環境中,往往面臨著無法適應的問題.為了獲得高效和可擴展的算法,人們需要犧牲某些細節,更加關注Agent 對整體最佳響應,而不是個體Agent 的最佳響應.想要克服這一問題,可以通過確定Agent 間交互的程度,考慮Agent 是否應該同某一Agent 進行交互、還是僅將其當作環境的一部分而不進行交互[63,104].
3.4 對手建模研究
在多Agent 任務中,存在著動作探索的風險.當多Agent 同時進行探索時,各Agent 都要面臨這種噪聲,往往造成全盤皆輸的局面.同樣的問題也出現在多Agent 深度強化學習設置中[59],在不能進行通信協調的任務中,該問題顯得更加復雜.而且在MAS 中,Agent 是多種多樣的,在多Agent 系統中可能包含著各種各樣的Agent,它們的目標、感知以及獎賞都有可能是不同的.這種混雜的多Agent任務為最優行動的學習帶來了極大的挑戰.在多Agent 決策中,需要考慮對隊友與對抗對手的理解.在全通信中,Agent 通過通信完成了對己方協同Agent 的行為推斷,但對對抗Agent 仍需要進行觀察與學習; 在欠通信中,Agent 不僅要對協同Agent的行為進行分析與判斷,同時也要考慮對抗Agent的行為,對其進行分析與預測.Lowe 等[105]?利用對手的歷史行為對對手的策略進行推斷,通過最大化對手Agent 的動作概率來近似對手策略,定義損失函數為
其中oj?和aj?表示待近似的Agentj?的觀測和實際執行動作,
表示對于決策Agenti?而言的對手Agent?j?的近似策略,H?表示策略分布的熵.Rabinowitz等[106]?提出了一種使得機器可以學習他人心理狀態的心智理論神經網絡(Theory of mind network,ToMnet),通過觀察Agent 的行為,使用元學習對它們進行建模,得到一個對Agent 行為具備強大先驗知識的模型,該模型能夠利用少量的行為觀測,對Agent 特征和心理狀態進行更豐富的預測.如圖11所示,特征網絡從POMDP 集合中解析Agent 過去的軌跡,從而形成嵌入表示echar.心理狀態表示網絡的心智網絡解析當前片段中Agent 的軌跡,形成心理狀態嵌入emental.然后,這些嵌入被輸入至預測網絡Prediction net,結合當前狀態對Agent 未來行為進行預測,如下一步動作概率
、特定對象被消耗的概率
和預測后繼者表示
圖11 心智網絡
Fig.11 Mind theory neural network
上述對手建模研究聚焦于建立概率模型和參數化策略,He 等[107]?提出了同步學習對手策略和模型的神經網絡模型,將對手觀測嵌入編碼輸入DQN中,而不是顯式地預測對手動作.使用混合專家架構,無需額外的監督信息即可發現多種策略,并利用估計權重對多個策略Q 值進行加權求和,進而獲得最優的行動.Foerster 等[108]?針對合作-競爭的多Agent 學習環境,提出與對手-學習意識(Learning with opponent-learning awareness,LOLA)的學習方法,該模型考慮對手策略的策略更新方式,推理其他Agent 的預期學習,通過對狀態值V?1(θ1,θ2?+Δθ2)≈V?1(θ1,θ2)+(Δθ2)T?θ2V?1(θ1,θ2) 進行一階泰勒展開,獲得決策Agent 的值函數梯度,針對合作對手和競爭對手采用兩種不同的更新方式.Hong等[109]?根據預測對手動作的網絡,從隱藏層中提取對手的行動意圖作為決策依據,設計適應性的損失函數調整訓練的關注點,并將RNN 架構引入Q網絡的訓練中,提出了深度循環策略推斷Q 網絡(Deep recurrent policy inference Q-network,DRPIQN).Raileanu 等[110]?提出自主對手建模(Self other-modeling,SOM),通過觀測對手行動,根據已有的行動意圖集以及單獨的神經網絡在線構建對手模型,判斷對手的意圖,最終結合當前狀態以及自我意圖進行決策.
在上述學習算法中往往假設知曉對手的相關域知識,如可正確描述對手觀測的屬性和特征,然而現實世界中,總有許多事情是不可預知的,總有些實體是不期而遇的.在這種情況下,可以構建一組已知的不確定對手特征表示,通過特定的概率分布來推斷正確的對手行為.同樣也可以采用多任務學習,構建多個可能的環境和對手對Agent 進行訓練.然而在執行中,仍會存在一些之前沒有遇到過的對手,不可能構建一個包含全體要素的環境,但現實的世界卻有著種種不可預知的要素,如何克服這種不確定性為系統帶來的風險,也是值得研究的一個方向.
4 結論
盡管DRL 在一些單Agent 復雜序列決策任務中取得了卓越的效果,但多Agent 環境下的學習任務中任然面臨諸多挑戰,另一方面,人類社會中很多問題都可以抽象為復雜MAS 問題,所以,在這個領域需要進一步地深入探索.現有多Agent 學習綜述多同博弈論關聯,但伴隨著DRL 的產生與發展,國內外尚沒有一份關于MADRL 的綜述.我們通過總結近些年深度強化學習以及多Agent 深度強化學習方面的論文,從訓練架構以及實現技巧方面著手,撰寫此文.MADRL 是DRL 在多Agent 領域的擴展.本文首先對強化學習的基本方法以及DRL 的主要方法進行了介紹與分析; 在此基礎上,從通信和決策架構方面對MADRL 進行分類,抽象為全通信集中決策、全通信自主決策、欠通信自主決策三類,并對一些開放的多Agent 訓練環境進行了簡要介紹; 然后,對多Agent 深度強化學習中需要用到的實用技術進行了分析與討論,包含多Agent 訓練框架、樣本增強、魯棒性以及對手建模等一些關鍵問題,并根據對這些關鍵問題的認識,給出MADRL 領域的發展展望,對仍待研究的問題進行了探討.
隨著深度強化學習的繼續發展,在MAS 中的應用以及研究也將越來越廣泛,但其訓練和執行方式也將屬于這3 種形式之一.我們的研究旨在對當前的MADRL 研究現狀進行整理與歸納,為希望將DRL 應用于MAS 的學者或機構提供一份可供參考的概覽.
審核編輯:符乾江
評論
查看更多