色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

【重磅】DeepMind發布通用強化學習新范式,自主機器人可學會任何任務

DPVg_AI_era ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-19 14:45 ? 次閱讀


新智元報道

來源:DeepMind

編譯:Marvin

【新智元導讀】DeepMind今天發表博客文章,提出一種稱為SAC-X(計劃輔助控制)的新學習范式,旨在解決讓AI以最少的先驗知識,從頭開始學習復雜控制問題的挑戰。這在真實環境中成功讓機械臂從頭開始學習拾放物體。研究者認為,SAC-X是一種通用的強化學習方法,未來可以應用于機器人以外的更廣泛領域。

讓孩子(甚至成年人)在使用物品之后自己收拾可能是頗有挑戰性的事情,但我們面臨一個更大的挑戰:試圖讓我們的AI也這樣做。成功與否取決于AI是否掌握幾個核心的視覺運動技能:接近一個物體,抓住并舉起它,然后打開一個盒子并把物體放進里面。使事情更復雜的是,這些技能還必須用正確的順序做。

控制任務(control tasks),例如整理桌子或堆放物體,要求agent能夠確定如何、何時以及在哪里協調它的模擬手臂和手指的9個關節,以正確地移動物體,實現它的目標。在任何給定一段時間里,可能的運動組合數量會非常龐大,并且需要執行一系列正確的操作,這就構成了一個嚴峻的探索性問題——使得這成為強化學習研究的一個特別有趣的領域。

獎賞塑形(reward shaping)、學徒學習(apprenticeship learning)以及示范學習等技巧可以幫助解決這個問題。但是,這些方法依賴于大量的關于任務的知識——以最少的先驗知識,從頭開始學習復雜控制問題,仍然是一個公開的挑戰。

DeepMind近日發表的新論文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一種新的學習范式,稱為“Scheduled Auxiliary Control (SAC-X)”(計劃輔助控制),旨在解決這個問題。SAC-X的想法是要從頭開始學習復雜的任務,那么agent必須先學習探索和掌握一套基本的技能。就像嬰兒在學會爬行和走路之前必須先發展協調和平衡的能力一樣,向agent提供一些與簡單的技能相對應的內部(輔助)目標可以增加它理解和成功執行更復雜任務的機會。

我們在幾個模擬的和真實的機器人任務中演示了SAC-X的方法,包含各種任務,例如不同類物體的堆疊問題,場地整理問題(需要將物體放入盒子)。 我們定義的輔助任務遵循一個總原則:它們鼓勵agent去探索它的感知空間( sensor space)。 例如,激活它的手指上的觸摸傳感器,感知其手腕受到的力,使其本體感受傳感器( proprioceptive sensors)中的關節角度達到最大,或強制物體在其視覺相機傳感器中移動。如果達到了目標,每個任務會關聯到一個簡單的獎勵,否則獎勵為零。

圖2:agent學習的第一件事是激活手指上的觸摸傳感器,并移動兩個物體。

圖3:模擬agent最終掌握了“堆疊”物體這個復雜任務。

然后,agent就可以自行決定它當前的“意圖”(intention),即接下來的目標。目標可以是輔助任務或外部定義的目標任務。更重要的是,agent可以通過充分利用off-policy learning來檢測并從其他任務的獎勵信號學習。例如,在拾取或移動一個物體時,agent可能會順便把它堆疊起來,從而得到“堆疊”的獎勵。由于一系列簡單的任務可以導致觀察到罕見的外部獎勵,所以將“意圖”進行安排(schedule)的能力是至關重要的。這可以根據所收集到的所有相關知識創建一個個性化的學習課程。

事實證明,這是在如此大的一個領域中充分利用知識的一種有效方法,而且在只有很少的外部獎勵信號的情況下尤其有用。我們的agent通過一個 scheduling 模塊來決定遵循那個意圖。在訓練過程中,scheduler通過一個meta-learning算法進行優化,該算法試圖使主任務的進度最大化,從而顯著提高數據效率。

圖4:在探索了許多內部輔助任務之后,agent學習如何堆疊和整理物體。

我們的評估顯示,SAC-X能夠解決我們從頭設置的所有任務——使用相同的底層輔助任務集。更令人興奮的是,我們在實驗室的一個真實的機械臂上直接利用SAC-X,成功地從頭開始學會了拾取和放置任務。過去,這一點特別具有挑戰性,因為真實世界中機器人的學習需要數據效率,所以主流的方法是在模擬環境中預訓練(pre-train)一個agent,然后將agent轉移到真實的機械臂。

圖5:在真正的機械臂上,SAC-X學習如何從頭開始拾取和移動綠色方塊。它此前從未見過這一任務。

我們認為SAC-X是從頭開始學習控制任務的重要一步,只需指定一個總體目標。SAC-X允許你任意定義輔助任務:可以基于一般性認識(例如在個實驗中是故意激活傳感器),但最終可以包含研究人員認為重要的任何任務。從這個角度看,SAC-X是一種通用的強化學習方法,不止是控制和機器人領域,可以廣泛應用于一般的稀疏強化學習環境。

這一工作由以下研究者共同完成:Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.


【2018 新智元 AI 技術峰會倒計時28天】大會早鳥票已經售罄,現正式進入全額票階段。


2017 年,作為人工智能領域最具影響力的產業服務平臺——新智元成功舉辦了「新智元開源 · 生態技術峰會」和「2017AIWORLD 世界人工智能大會」。憑借超高活動人氣及行業影響力,獲得2017 年度活動行 “年度最具影響力主辦方”獎項。

其中「2017AIWORLD 世界人工智能大會」創人工智能領域活動先河,參會人次超 5000;開場視頻在騰訊視頻點播量超 100 萬;新華網圖文直播超 1200 萬;

2018 年的 3 月 29 日,新智元再匯 AI 之力,共筑產業躍遷之路,將在北京舉辦 2018 年中國 AI 開年盛典——2018 新智元 AI 技術峰會。本次峰會以 “產業 · 躍遷” 為主題,特邀諾貝爾獎評委 德國人工智能研究中心創始人兼 CEO Wolfgang Wahlster 親臨現場與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓,共同研討技術變革,助力領域融合發展。

新智元誠摯邀請關心人工智能行業發展的各界人士 3 月 29 日親臨峰會現場,共同參與這一跨領域的思維碰撞。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴

原文標題:【重磅】DeepMind發布通用強化學習新范式,自主機器人可學會任何任務

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「具身智能機器人系統」閱讀體驗】+初品的體驗

    解決許多技術的和非技術的挑戰,如提高智能體的自主性、處理復雜環境互動的能力及確保行為的倫理和安全性。 未來的研究需要將視覺、語音和其他傳感技術與機器人技術相結合,以探索更加先進的知識表示和記憶模塊,利用強化學習進一步優化決策過程
    發表于 12-20 19:17

    《具身智能機器人系統》第1-6章閱讀心得之具身智能機器人系統背景知識與基礎模塊

    物理交互納入智能系統的核心要素。 第3章是探討機器人計算系統。這一章節詳細闡述了自主機器人的軟硬件架構。計算系統需要滿足機器人任務對算法的精度、實時性和功耗要求。書中介紹的多傳感器融合
    發表于 12-19 22:26

    《人形機器人產業地圖(2024)》重磅發布

    在11月29日舉辦的2024高工人形機器人年會上,高工機器人產業研究所(GGII)重磅發布《人形機器人產業地圖(2024)》(以下簡稱“產業
    發表于 12-02 09:17 ?477次閱讀
    《人形<b class='flag-5'>機器人</b>產業地圖(2024)》<b class='flag-5'>重磅</b><b class='flag-5'>發布</b>!

    【書籍評測活動NO.51】具身智能機器人系統 | 了解AI的下一個浪潮!

    的。 這種理論強調,智能行為源于智能體的物理存在和行為能力,智能體必須具備感知環境并在其中執行任務的能力。 具身智能的實現涵蓋了機器學習、人工智能、機器人學、計算機視覺、自然語言處理和
    發表于 11-11 10:20

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源
    的頭像 發表于 11-05 17:34 ?281次閱讀

    “0元購”智元靈犀X1機器人,軟硬件全套圖紙和代碼全公開!資料免費下載!

    10月24日,智元機器人重磅宣布,其自主研發的全棧開源機器人智元靈犀X1面向全球開發者正式開源,智元機器人再次履行了其在8月18日新品
    發表于 10-25 15:20

    地瓜機器人發布一系列通用機器人套件

    在“機器人+”浪潮的推動下,地瓜機器人近日隆重推出了一系列面向未來的軟硬件產品組合,旨在賦能新一代通用機器人的發展。此次發布的亮點包括旭日5智能計算芯片、RDK X5
    的頭像 發表于 09-25 15:56 ?312次閱讀

    谷歌借助Gemini AI系統深化對機器人的訓練

    7月12日,國際科技界傳來新動態,谷歌正借助其先進的Gemini AI系統,深化對旗下機器人的訓練,旨在顯著提升它們的導航能力和任務執行能力。DeepMind機器人團隊最新
    的頭像 發表于 07-12 16:29 ?625次閱讀

    ROS讓機器人開發更便捷,基于RK3568J+Debian系統發布!

    本帖最后由 Tronlong創龍科技 于 2024-7-19 17:18 編輯 ROS系統是什么 ROS(Robot Operating System)是一個適用于機器人的開源的元操作系統。它
    發表于 07-09 11:38

    Al大模型機器人

    豐富的知識儲備。它們可以涵蓋各種領域的知識,并能夠回答相關問題。靈活性與通用性: AI大模型機器人具有很強的靈活性和通用性,能夠處理各種類型的任務和問題。持續
    發表于 07-05 08:52

    逐際動力攜手英偉達Isaac平臺, 助力通用機器人研發

    在近日舉行的年度計算機視覺與模式識別會議(CVPR)上,英偉達發布了其最新版本的NVIDIA Isaac Sim。與此同時,逐際動力也宣布將采用這一升級版的Isaac平臺,以強化學習和提升通用機器人的泛化能力為核心目標,推動
    的頭像 發表于 06-21 09:34 ?2391次閱讀

    通過強化學習策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構建機器學習模型過程中的決定性步驟。為模型和我們想要完成的任務選擇好的特征,可以提高性能。如果我們處理的是高維數據集,那么選擇特征就顯得尤為重要。它使模型能夠
    的頭像 發表于 06-05 08:27 ?346次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇

    現代戰場中地面機器人的應用與影響

    人工智能(AI)可以不斷提升自主機器人的能力,這意味著地面機器人越來越有能力與人類并肩執行任務。到2030年,預計全球無人地面車輛的數量將從目前的1.5萬輛增長到4萬輛。
    發表于 04-20 09:19 ?421次閱讀

    NVIDIA發布一款人形機器人通用基礎模型—Project GR00T

    NVIDIA 于今日發布人形機器人通用基礎模型 Project GR00T,旨在進一步推動其在機器人和具身智能方面的突破。
    的頭像 發表于 03-20 10:00 ?654次閱讀

    DeepMind引領機器人技術革新:從“機器人憲法”到高效決策

    機器人憲法”的靈感來自美國科幻小說家艾薩克·阿西莫夫(Isaac Asimov)提出的“機器人三定律”,它被描述為一組“以安全為重點的提示”,指示LLM避免選擇涉及人類、動物、尖銳物體甚至電器的任務
    發表于 01-12 10:32 ?201次閱讀
    <b class='flag-5'>DeepMind</b>引領<b class='flag-5'>機器人</b>技術革新:從“<b class='flag-5'>機器人</b>憲法”到高效決策
    主站蜘蛛池模板: 美女胸禁止18以下看| 99久久久免费精品免费| 色宅男看片午夜大片免费看| 恋夜影院安卓免费列表uc| 国产亚洲精品97在线视频一| 成人免费在线视频| av无码在线日本天堂| 最近免费中文字幕MV免费高清| 野花韩国在线观看| 亚洲视频区| 亚洲精品自在在线观看| 袖珍人与大黑人性视频| 午夜精品久久久久久久99蜜桃| 偷偷要色偷偷| 袖珍人与大黑人性视频| 亚洲福利网站| 亚洲精品色情APP在线下载观看| 亚洲电影不卡| 一本色道久久综合亚洲精品| 伊人青青草| 18国产精品白浆在线观看免费| 中文人妻熟妇精品乱又伦| 中文字幕成人| 99久久久久国产精品免费| 把她带到密室调教性奴| 俄罗斯女人Z0Z0极品| 国产av久久免费观看| 国产日韩亚洲精品视频| 国产午夜一级淫片| 精品国产乱码久久久久久软件| 久久亚洲精品无码A片大香大香| 美女露出撒尿的部位| 人成片在线观看亚洲无遮拦| 帅哥操帅哥| 亚洲高清在线天堂精品| 在线播放无码字幕亚洲| 99久久综合国产精品免费| 丰满大屁俄罗斯肥女| 国产在线中文字幕| 久久人人爽人人片AV人成| 强上轮流内射高NP男男|