色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于MADDPG迭代的編隊協同控制框架

AI智勝未來 ? 來源:防務快訊 ? 2024-04-20 09:30 ? 次閱讀

作者:文永明,李博研,張寧寧,李小建,熊楚依,劉潔璽

采用深度強化學習算法解決了多智能體編隊協同控制問題。基于多智能體深度確定性策略梯度算法(MADDPG)構建分布式編隊控制架構,并結合集中式訓練-分布式執行框架進行求解。針對多智能體環境不穩定問題,依據單個智能體的局部信息構建對應獎勵函數。針對大規模編隊協同控制,實現了多個多智能體環境下的算法訓練與評估。試驗結果表明,應用該算法的多智能體能夠完成協同任務,且所有智能體都可得到合理的協同控制策略。

0引言

多智能體系統(MAS)由若干單獨控制的、通過無線網絡連接的智能體構成,在諸如控制、編隊、分配、博弈和分布式估計等問題中廣泛研究并取得了一定進展。在已知系統動力學模型基礎上,研究者們對多智能體系統基礎理論開展了大量研究。傳統的系統識別試驗依據輸入-輸出數據確定分析模型,但在實際應用中,復雜過程建模困難且昂貴。此外,傳統的控制方法在與復雜環境交互時存在局限性,固定策略不能應用于不同環境或任務場景中。深度強化學習關注一個智能體的策略模型,借鑒了不完全可知馬爾可夫決策中的最優控制思想,智能體通過與環境交互來最大化長期累積獎勵,控制優化與策略學習之間存在著緊密聯系。因此,深度強化學習技術在系統控制方面存在廣闊的應用前景。 深度強化學習算法分為基于值的強化學習算法和基于策略的強化學習算法2類。

1) Q學習及深度Q學習算法是最常用且直接的基于值的算法,它通過動作值函數來獲得最優策略。通過每個智能體學習一個獨立的最優方程,將基于值的算法直接應用于多智能體系統。然而,在學習過程中鄰居智能體更新時,當前智能體的獎勵和狀態轉移等信息也會發生改變。在這種情況下,環境就會出現不穩定性問題,并且也不再滿足馬爾可夫性,最終導致基于值的算法的收斂性得不到保證。

2) 基于策略的算法是另一類深度強化學習算法,該類算法通過獨立的神經網絡來近似隨機策略。執行者-評估者 (Actor-Critic, AC) 算法結合了基于值和基于策略的算法,其中執行者代表生成動作的策略函數,評估者代表評價動作獎勵的值逼近器。深度確定性策略梯度算法(DDPG)是一種無模型的AC算法,它結合了確定性策略梯度和深度Q學習算法,其中執行者和評估者均用深度神經網絡進行逼近。多智能體深度確定性策略梯度方法(MADDPG)將DDPG擴展到一個多智能體協同完成的任務環境,在這個環境中智能體智能獲得局部信息。MADDPG是一個針對多智能體場景重新設計的AC模型,旨在解決不斷變化的環境和多智能體間的復雜問題。

1理論基礎

1.1 代數圖論

5f2fa5f8-fe6b-11ee-a297-92fbcf53809c.png

5f3f9454-fe6b-11ee-a297-92fbcf53809c.png

1.2 問題描述

5f4c854c-fe6b-11ee-a297-92fbcf53809c.png

2基于MADDPG迭代的編隊協同控制框架

2.1 傳統控制設計

5f722932-fe6b-11ee-a297-92fbcf53809c.png

2.2 編隊協同控制算法框架設計

5f89d3c0-fe6b-11ee-a297-92fbcf53809c.png

5fa56b30-fe6b-11ee-a297-92fbcf53809c.png

圖1 編隊控制算法框架

2.3 學習目標設計

5fb3d940-fe6b-11ee-a297-92fbcf53809c.png

5fc6fdb8-fe6b-11ee-a297-92fbcf53809c.png

2.4 編隊協同控制算法流程

5fd67cf2-fe6b-11ee-a297-92fbcf53809c.png

5fe6f294-fe6b-11ee-a297-92fbcf53809c.png

3試驗結果與分析

3.1 試驗設置

600a7354-fe6b-11ee-a297-92fbcf53809c.png

圖2 試驗交互拓撲圖

3.2 結果與分析

本文在3.1節展示的環境中運行并評估本文算法,仿真結果如圖3所示,圖4給出了智能體訓練前后運動軌跡對比。 4個智能體的長期累計獎勵得分如圖3(a)所示。在學習過程中得分是逐漸增加的,并且在50?000次迭代后收斂到6以內,這意味著MAS在50?000次迭代后可以有效消除初始誤差;同時,這個得分也意味著MAS實現理想編隊和到達目標位置所需的代價。圖3(b)是智能體最后50次訓練收斂時的穩定獎勵。由圖可見,4個智能體可以快速實現穩定編隊,且跟蹤誤差同樣意味著獎懲可以在1?s內收斂至接近于0。 4個智能體在訓練前后的初始、1?s、2?s、3?s和4?s編隊狀態如圖4所示。圖中藍色點為領航者,對應圖2中0號藍色點,粉色、灰色和綠色點分別對應圖2中1號粉色點、2號紫色點和3號橙色點。試驗結果表明,由于缺乏環境的先驗知識,MAS在首次嘗試時會偏離隊形。當智能體通過在環境中反復試錯積累經驗,MAS會收斂形成一個穩定的編隊。最終,領航者可以到達目標位置且追隨者可以與領航者保持編隊位置穩定。

601ba912-fe6b-11ee-a297-92fbcf53809c.png

圖 3 試驗環境下仿真結果

60288ec0-fe6b-11ee-a297-92fbcf53809c.png

圖 4 智能體訓練前后狀態對比

4結束語

本文采用多智能體策略梯度算法,結合集中訓練和分布執行的框架,研究并求解多智能體協同編隊控制問題,設計構建了一種基于多智能體深度確定性策略梯度算法的分布式編隊控制框架,并給出了算法的訓練流程。通過對多智能體合作環境的仿真訓練與評估,驗證了本文算法的有效性。試驗結果表明,本文算法能夠使智能體在動力學模型先驗知識未知的情況下協同完成任務,有助于解決數學模型過于復雜而難以識別的控制問題。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100715
  • 算法
    +關注

    關注

    23

    文章

    4607

    瀏覽量

    92840
  • 無線網絡
    +關注

    關注

    6

    文章

    1432

    瀏覽量

    65926
  • 深度學習
    +關注

    關注

    73

    文章

    5500

    瀏覽量

    121113

原文標題:基于深度強化學習的多智能體編隊協同控制

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問迭代器的實現原理是什么?

    什么是集合框架?LIST接口的實際應用?迭代器的實現原理是什么?
    發表于 11-04 09:45

    【飛控開發高級篇7】瘋殼·開源編隊無人機-編隊飛行

    COCOFLY教程——瘋殼無人機·系列編隊飛行圖1 一、編隊飛行 COCOFLY 支持編隊飛行,編隊飛行需要依托編隊的圖形碼地圖以及CO
    發表于 06-14 18:41

    【飛控開發高級教程7】瘋殼·開源編隊無人機-編隊飛行

    COCOFLY教程——瘋殼·無人機·系列編隊飛行 圖1 一、編隊飛行 COCOFLY 支持編隊飛行,編隊飛行需要依托編隊的圖形碼地圖以
    發表于 07-25 19:06

    【瘋殼·無人機教程29】開源編隊無人機-編隊飛行

    COCOFLY教程——瘋殼·無人機·系列編隊飛行圖1 一、編隊飛行 COCOFLY 支持編隊飛行,編隊飛行需要依托編隊的圖形碼地圖以及CO
    發表于 09-05 17:40

    多機器人的積分滑模編隊控制_錢殿偉

    多機器人的積分滑模編隊控制_錢殿偉
    發表于 01-08 13:26 ?1次下載

    一種欠驅動船舶編隊滑模魯棒控制方法_楊震

    一種欠驅動船舶編隊滑模魯棒控制方法_楊震
    發表于 01-08 13:58 ?1次下載

    無線通信網絡的多智能小車編隊控制系統_申忠宇

    無線通信網絡的多智能小車編隊控制系統_申忠宇
    發表于 01-12 22:26 ?3次下載

    無線通信網絡的多小車編隊控制系統

    無線通信網絡的多小車編隊控制系統
    發表于 09-01 10:51 ?3次下載
    無線通信網絡的多小車<b class='flag-5'>編隊</b><b class='flag-5'>控制</b>系統

    基于二層鄰居信息的多智能體系統編隊控制

    為了加快多智能體編隊控制過程中的狀態收斂,提出基于多跳式網絡技術的編隊控制方法。首先將多智能體系統(MAS)中的每個智能體之間的相對速度偏移引入到
    發表于 11-29 15:34 ?3次下載
    基于二層鄰居信息的多智能體系統<b class='flag-5'>編隊</b><b class='flag-5'>控制</b>

    基于迭代填充的內存計算框架分區映射算法

    針對內存計算框架Spark在作業Shuffle階段一次分區產生的數據傾斜問題,提出一種內存計算框架迭代填充分區映射算法(IFPM)。首先,分析Spark作業的執行機制,建立作業效率模型和分區映射
    發表于 12-05 16:32 ?0次下載
    基于<b class='flag-5'>迭代</b>填充的內存計算<b class='flag-5'>框架</b>分區映射算法

    多無人機協同編隊飛行控制的關鍵技術和發展展望

    搭建滿足多無人機協同編隊仿真的多無人機仿真平臺,對于加快開發周期,降低多無人機編隊試驗成本,具有十分重要的意義。當前國內外已有一些針對無人機編隊或多無人機仿真系統的研究,主要分為如下4
    發表于 07-26 10:09 ?9802次閱讀
    多無人機<b class='flag-5'>協同</b><b class='flag-5'>編隊</b>飛行<b class='flag-5'>控制</b>的關鍵技術和發展展望

    基于改進一致性的多無人機編隊控制算法

    基于改進一致性的多無人機編隊控制算法
    發表于 06-22 16:02 ?16次下載

    基于虛擬結構的機器人編隊控制方法

    目前,實現多 AUV 系統編隊航行的控制方法主要包括基于領航者-跟隨者的方法。
    的頭像 發表于 10-10 17:39 ?2679次閱讀

    集群無人艇協同微波網絡通信技術探討

    通信互聯 、協同控制、工業化量產的系統工程; 探討了海上無人艇微波通信組網的解決方案,為無人艇編隊在軍事領域的深入研究提供了一定的參考價值。?
    發表于 05-18 09:49 ?0次下載

    想做無人機編隊表演?需要掌握哪些?

    最近”低空經濟“火了,嵌入式工程師應該學習哪些技術棧才能做無人機編隊表演?一、什么是無人機編隊表演?無人機編隊表演是一種通過多架無人機協同飛行和執行各種精確動作和
    的頭像 發表于 03-29 08:09 ?1099次閱讀
    想做無人機<b class='flag-5'>編隊</b>表演?需要掌握哪些?
    主站蜘蛛池模板: 学生无码AV一区二区三区| 久久99亚洲AV无码四区碰碰| 最近日本MV字幕免费观看在线| 天天久久狠狠色综合| 青娱乐极品视觉盛宴av| 麻豆Av国产在线播放| 久久大香萑太香蕉av| 韩日午夜在线资源一区二区| 国产福利一区二区精品| 赤兔CHINESE最新男18GUY| 美女扒开尿口直播| 久久99r66热这里有精品| 好看AV中文字幕在线观看| 国产亚洲精品AV麻豆狂野| 国产啪精品视频网免费| 3D漫画H精品啪啪无码| 在线看片韩国免费人成视频| 曰本aaaaa毛片午夜网站| 伊人影院亚洲| 18禁三级黄| 999视频在线观看| 99国产精品| yellow在线观看免费观看大全 | 好男人好资源在线观看| 国产在线观看香蕉视频| 激情欧美日韩一区二区| 久久人妻无码毛片A片麻豆| 美女张开让男生桶| 漂亮的保姆5电影免费观看完整版中文 | 羞羞在线观看| 野花日本韩国视频免费高清观看 | 男人的天堂黄色片| 欧美性色xo影院69| 涩涩在线观看免费视频| 午夜视频体内射.COM.COM| 亚洲免费中文| 18日本人XXXXXX18| 成人免费网址在线| 国产亚洲精品久久久999蜜臀 | 芳草地社区在线视频| 国产麻豆剧看黄在线观看|