色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepMind提出SAC-X學習范式,無需先驗知識就能解決稀疏獎勵任務

zhKF_jqr_AI ? 來源:未知 ? 作者:李建兵 ? 2018-03-17 10:51 ? 次閱讀

讓兒童(和成年人)整理東西已經是件難事了,但是想讓AI像人一樣整理東西是個不小的挑戰。一些視覺運動的核心技能是取得成功的關鍵:接近一個物體,抓住并且提起它,然后打開一個盒子,將其放入盒中。要完成更復雜的動作,必須按照正確順序應用這些技能。

控制任務,比如整理桌子或堆疊物體,都需要智能體決定如何、何時并且在哪里協調機械臂和手指的六個關節以移動并實現目標。在某一特定時刻,可能的動作會有多種組合,并且要想把它們按順序組合好,就產生了嚴重的問題——這也使得強化學習成為一個有趣的領域。

類似獎勵塑造(reward shaping)、學徒式學習(apprenticeship learning)或從展示中學習有助于解決上述問題。但是,這些方法需要對任務有足夠的了解——利用很少的先驗知識學習復雜的控制任務仍然是未解決的挑戰。

昨天,DeepMind提出了一種新的學習模式,名為“計劃輔助控制(SAC-X)”以解決上述問題。SAC-X的工作原理是,為了從零開始掌握復雜任務,智能體必須先學習探索一系列基礎技能,并掌握他們。正如嬰兒在學會爬行和走路前必須學會保持平衡一樣,讓智能體學習簡單技能以增強內部協調性,有助于它們理解并執行復雜任務。

研究人員在一些模擬環境和真實機器人上試驗了SAC-X方法,其中包括堆疊不同目標物體和整理桌子(其中需要移動對象)。他們所指的輔助任務的通用原則是:鼓勵智能體探索它的感應空間。例如,激活手指的觸覺感應器、在腕部的感應器感受力度的大小、將本體感應器的關節角度最大化或強制物體在其視覺相機傳感器中移動。如果達到目標,每個任務都會得到一個簡單的獎勵,否則沒有獎勵。

模擬智能體最終掌握了“堆疊”這一復雜任務

智能體最后能自己決定它現在的“目的”,即下一步要完成什么目標,這有可能是一項輔助任務,或是外部決定的目標任務。重要的是,通過廣泛使用off-policy學習,智能體可以檢測到獎勵信號并從中學習。比如,在撿起或移動目標物體時,智能體可能會不經意間完成堆疊動作,這樣會使獎勵觀察到這一動作。由于一系列簡單任務能導致稀有的外部獎勵,所以對目標進行規劃是十分重要的。它可以根據收集的相關知識創建個性化的學習課程。事實證明這是在如此寬廣的領域開發知識的有效方式,并且當只有少量外部獎勵信號可用時,這種方法更加有用。我們的智能體通過調度模塊決定下一個目標。調度器在訓練過程中通過元學習算法得到改進,該算法試圖讓主任務的進度實現最大化,顯著提高數據效率。

探索了一些內部輔助任務后,智能體學會了如何堆疊及清理物品

對SAC-X的評估表示,使用相同的底層輔助任務,SAC-X能從零開始解決問題。令人興奮的是,在實驗室里,SAC-X能在真實的機械臂上從零學習拾取和放置任務。這在過去是很有難度的,因為在真實的機械臂上學習需要數據效率。所以人們通常會訓練一個模擬智能體,然后再轉移到真正的機械臂上。

DeepMind的研究人員認為SAC-X的誕生是從零學習控制任務的重要一步(只需要確定任務的最終目標)。SAC-X允許你設定任意的輔助任務:它可以是一般的任務(如激活傳感器),也可以是研究人員需要的任何任務。也就是說在這方面,SAC-X是一種通用的強化學習方法,除了用于控制任務和機器人任務之外,能廣泛適用于一般的稀疏強化學習環境。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • DeepMind
    +關注

    關注

    0

    文章

    130

    瀏覽量

    10883

原文標題:DeepMind提出SAC-X學習范式,無需先驗知識就能解決稀疏獎勵任務

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于稀疏編碼的遷移學習及其在行人檢測中的應用

    一定進展,但大都需要大量的訓練數據.針對這一問題,提出了一種基于遷移學習的半監督行人分類方法:首先基于稀疏編碼,從任意的未標記樣本中,學習到一個緊湊、有效的特征表示;然后通過遷移
    發表于 04-24 09:48

    電腦硬件知識大全 大小問題自己就能解決 DOC文檔

    電腦硬件知識大全大小問題自己就能解決DOC文檔下載附件:
    發表于 02-18 15:29

    稀疏表示和字典學習是什么

    稀疏表示和字典學習的簡單理解
    發表于 08-27 14:44

    未來的AI 深挖谷歌 DeepMind 和它背后的技術

    學習從非結構化數據中學習來編寫分析報告或執行無人監督的任務。所有這些發展都為不同的公司發揮作用并證明他們的價值奠定了基礎。因此,很多像DeepMind這樣的公司成立了,來繼續發展這一領
    發表于 08-26 12:04

    一種融合節點先驗信息的圖表示學習方法

    基于深度學習提出了融合節點先驗信息的圖表示學習方法,該方法將節點特征作為先驗知識。要求
    發表于 12-18 16:53 ?0次下載
    一種融合節點<b class='flag-5'>先驗</b>信息的圖表示<b class='flag-5'>學習</b>方法

    先驗置信傳播的圖像修復算法

    先驗置信傳播( priority-BP)算法很難在實際中達到實時處理的要求,計算效率也有很大的提升空間。針對先驗BP算法在圖像修復上的應用,改進算法主要在信息傳遞以及標簽搜索方面提出改進措施。在信息
    發表于 12-21 09:26 ?0次下載
    <b class='flag-5'>先驗</b>置信傳播的圖像修復算法

    DeepMind通過SAC-X推新算法教AI從零學起

    SAC-X 是基于從頭開始學習復雜的任務這種想法,即一個智能體首先應該學習并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協調能力和平衡能力,為智能體提供與簡單技能相對應的內在目標(
    發表于 03-09 12:51 ?1309次閱讀

    DeepMind提出強化學習新算法,教智能體從零學控制

    3月2日,DeepMind發表博客文章,提出一種稱為SAC-X(計劃輔助控制)的新學習范式,旨在解決讓AI以最少的
    的頭像 發表于 03-17 09:12 ?3818次閱讀

    【重磅】DeepMind發布通用強化學習范式,自主機器人可學會任何任務

    SAC-X是一種通用的強化學習方法,未來可以應用于機器人以外的更廣泛領域
    的頭像 發表于 03-19 14:45 ?1913次閱讀

    DeepMind開發了PopArt,解決了不同游戲獎勵機制規范化的問題

    我們將PopArt應用于Importance-weighted Actor-Learner Architecture (IMPALA),這是DeepMind最流行的深度強化學習智能體之一。在實驗中
    的頭像 發表于 09-16 10:04 ?3176次閱讀

    谷歌、DeepMind重磅推出PlaNet 強化學習新突破

    Google AI 與 DeepMind 合作推出深度規劃網絡 (PlaNet),這是一個純粹基于模型的智能體,能從圖像輸入中學習世界模型,完成多項規劃任務,數據效率平均提升50倍,強化學習
    的頭像 發表于 02-17 09:30 ?3352次閱讀
    谷歌、<b class='flag-5'>DeepMind</b>重磅推出PlaNet 強化<b class='flag-5'>學習</b>新突破

    無需數學就能寫AI,MIT提出AI專用編程語言Gen

    無需數學就能寫AI,MIT提出AI專用編程語言Gen,為使AI算法開發初學者更容易進行編程設計,MIT的研究人員開發出一種名為“Gen.”的新型概率編程系統,無需處理方程式或手動編寫高
    發表于 07-01 09:58 ?1448次閱讀

    DeepMind的最新AI無需知曉規則就能掌握游戲

    2016年,Alphabet的DeepMind與AlphaGo一起問世,該AI一直領先于人類最佳Go players。一年后,該子公司繼續完善其工作,創建了AlphaGo Zero。 在
    的頭像 發表于 01-05 09:19 ?1514次閱讀

    ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2

    大模型時代,模型壓縮和加速顯得尤為重要。傳統監督學習可通過稀疏神經網絡實現模型壓縮和加速,那么同樣需要大量計算開銷的強化學習任務可以基于稀疏
    的頭像 發表于 06-11 21:40 ?695次閱讀
    ICLR 2023 Spotlight|節省95%訓練開銷,清華黃隆波團隊<b class='flag-5'>提出</b>強化<b class='flag-5'>學習</b>專用<b class='flag-5'>稀疏</b>訓練框架RLx2

    語言模型做先驗,統一強化學習智能體,DeepMind選擇走這條通用AI之路

    的發展,從最早的 AlphaGo、AlphaZero 到后來的多模態、多任務、多具身 AI 智能體 Gato,智能體的訓練方法和能力都在不斷演進。 從中不難發現,隨著大模型越來越成為人工智能發展的主流趨勢,DeepMind 在智能體的開發中不斷嘗試將強化
    的頭像 發表于 07-24 16:55 ?542次閱讀
    語言模型做<b class='flag-5'>先驗</b>,統一強化<b class='flag-5'>學習</b>智能體,<b class='flag-5'>DeepMind</b>選擇走這條通用AI之路
    主站蜘蛛池模板: 久久国产亚洲电影天堂| 国产精品国产三级国产an| 1788福利视频在视频线| 国产一卡 二卡三卡四卡无卡乱码视频| 两个人在线观看的视频720| 亚洲精品电影天堂网| 国产日韩精品一区二区在线观看 | 九九免费高清在线观看视频| 婷婷精品国产亚洲AV在线观看 | 同房交换4p好爽| 国产成人拍精品免费视频爱情岛| 日本乱子人伦在线视频| np高h肉辣一女多男| 奇米精品一区二区三区在线观看| SM脚奴调教丨踩踏贱奴| 人和拘一级毛片| 国产69精品久久久久无码麻豆| 日本欧美久久久久免费播放网 | 午夜精品久久久久久99热蜜桃| 国产精品成久久久久三级四虎| 少妇内射兰兰久久| 国产精品外围在线观看| 亚洲XXX午休国产熟女屁| 国产亚洲精品AAAAAAA片| 亚洲乱亚洲乱妇在线观看| 果冻传媒在线完整免费播放| 永久精品视频无码一区| 蜜桃传媒星空传媒在线播放| 9位美女厕所撒尿11分| 色爱区综合激情五月综合激情| 高清国产mv视频在线观看| 香蕉久久夜色精品国产小说| 国产揄拍国产精品| 中文字幕一区在线观看视频| 欧美日韩在线成人看片a| 纯肉腐文高H总受男男| 亚洲黄色成人| 美女挑战50厘米长的黑人 | 美女挑战50厘米长的黑人| 红色机尾快播| 4399日本电影完整版在线观看免费 |