智能體(agent)互相爭奪資源的多智能體環(huán)境是通向強人工智能(AGI)的必經(jīng)之路。多智能體環(huán)境具有兩種優(yōu)越的特質(zhì):首先,它具備自然的考驗——環(huán)境的難易程度取決于競爭對手的技能(如果你正與自己的克隆體對抗,環(huán)境則完全符合你的技術(shù)水平)。其次,多智能體環(huán)境沒有穩(wěn)定的平衡,即無論一個智能體多么聰明,想變得更聰明總是有困難的。這種環(huán)境與傳統(tǒng)模式有很大的不同,在達到目標之前需要進行更多研究。
OpenAI開發(fā)了一種名為MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)的新算法,用于實現(xiàn)多智能體環(huán)境中的集中式學習和分散式執(zhí)行,讓智能體學習互相合作、互相競爭。
用MADDPG算法訓練四個紅色圓點追逐兩個綠色圓點,紅色圓點已經(jīng)學會彼此合作追逐同一個綠色圓點,以獲得更高的獎勵。與此同時,綠色圓點學會了“分頭行動”,其中一個被紅點追逐,其他的則試圖接近藍色圓點獲得獎勵,同時避開紅色圓點
MADDPG對強化學習算法DDPG進行擴展,從actor-critic(玩家-評委)強化學習技術(shù)中獲得靈感;其他團隊也正探索這些想法的變體和并行實現(xiàn)。
研究人員將模擬中的每個智能體看作“actor”(玩家),每個玩家從評委那里獲得建議,讓它們在訓練過程中選擇應(yīng)該加強哪些動作的訓練。在傳統(tǒng)環(huán)境中,評委嘗試預測在某一特定情況下一種動作的價值(即我們期待未來獲得的獎勵),從而讓玩家更新策略。這種方法比直接使用獎勵更穩(wěn)定,獎勵會導致較大的差異。為了能讓智能體進行全局合作,研究者改進了評委,使它們能夠訪問智能體的觀察和行動,如下圖所示。
測試時,智能體無需具備中間的評委;它們根據(jù)觀察以及對其他智能體行為的預測,做出動作。由于一個中心化的評委是為每個智能體獨立學習的,這種方法也可以用來模擬多智能體之間的任意獎勵結(jié)構(gòu),包括擁有相反獎勵的對抗案例。
OpenAI研究者在多個任務(wù)上測試了他們的方法,結(jié)果均優(yōu)于DDPG上的表現(xiàn)。在上圖的動畫中,從上至下可以看到:兩個智能體試圖前往特定位置,并且學習分散,向?qū)κ蛛[藏真實的目的地;一個智能體將位置信息傳遞給另一個智能體,其他三個智能體協(xié)調(diào)前往此處,并且不會碰撞。
使用MADDPG訓練的紅色圓點比用DDPG訓練的智能體行為更復雜。在上面的動畫中可以看到,用MADDPG技術(shù)訓練的智能體和用DDPG訓練的智能體都試圖穿過綠色的圓圈追逐綠色的小圓點,同時不撞到黑色障礙物。新方法訓練出來的智能體抓到的綠色圓點更多,也比用DDPG方法訓練出的動作更協(xié)調(diào)。
傳統(tǒng)強化學習的困境
傳統(tǒng)的分散式強化學習方法,如DDPG、actor-critic學習、深度Q學習等,都難以在多智能體環(huán)境中學習,因為在每個時間段,每個智能體都要嘗試學習預測其他智能體的行為,同時還要分析自己的行為。在競爭的情況下尤其如此。MADDPG采用集中的critic為智能體提供有關(guān)同類的觀察和潛在行為的信息,將不可預測的環(huán)境轉(zhuǎn)化為可預測環(huán)境。
使用梯度策略的方法會帶來更多挑戰(zhàn):因為當獎勵不一致時,這種方法所得到的結(jié)果差別很大。另外,在提高穩(wěn)定性的同時,增加critic仍然不能解決一些環(huán)境問題,例如合作交流。這樣看來在培訓期間考慮其他智能體的行為對于學習協(xié)作策略是很重要的。
最初的研究
在開發(fā)MADDPG之前,當使用分散技術(shù)時,研究人員注意到如果speaker所發(fā)出的關(guān)于去哪里不一致的消息,那么listener常常會忽略speaker,智能體將把有關(guān)speaker的所有權(quán)中設(shè)置為0。一旦發(fā)生這種情況,就很難恢復訓練,因為沒有任何反饋,speaker永遠不會知道自己所說是否正確。為了解決這個問題,他們研究了最近一個分層強化學習項目中所提到的技術(shù),該技術(shù)可以讓強制讓listener在決策過程中考慮speaker的消息。這種修復方法并不奏效,因為它雖然強制listener關(guān)注speaker,但并不能幫助listener決定說出什么相關(guān)的內(nèi)容。通過幫助speaker學習哪些信息可能與其他智能體的位置信息有關(guān),集中式的critic方法有助于應(yīng)對這些挑戰(zhàn)。想了解更多結(jié)果,可點擊視頻觀看:
下一步
智能體建模在人工智能的研究中已經(jīng)有了豐富的成果,但之前的很多研究都只考慮了短時間內(nèi)簡單的游戲。深度學習能讓我們處理復雜的視覺輸入,強化學習為我們提供了長時間學習行為的工具。現(xiàn)在我們可以用這些功能一次性訓練多個代理,而無需了解環(huán)境的變化(即環(huán)境在每個時間段發(fā)生的變化),我們可以解決更廣泛的包括交流和語言的高維度信息,同時從環(huán)境的高維信息中學習。
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268887
原文標題:OpenAI公布MADDPG代碼,讓智能體學習合作、競爭和交流
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論