色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

讓強化學習智能體像人類一樣穿短袖、襯衫等衣服

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-05 15:07 ? 次閱讀

穿衣服是我們每天都會做的動作,對人類來說非常容易,比如在穿襯衫時,我們一手打開襯衫,另一只手會穿到袖子中,連同整個手臂穿入袖子,再換另一只手穿好另一邊的袖子。整個過程中,我們都會依靠觸覺,保證動作不會破壞衣服。但是目前還沒有能讓智能體自己穿衣的機器學習案例,想將人物和衣服之間這樣復雜的交互動作制作成動畫,依然是很大的挑戰。

最近,佐治亞理工學院的研究人員們提出了一種模型,可以讓強化學習智能體像人類一樣穿短袖、襯衫等衣服。以下是論智對原論文做的大致介紹:

為了用動畫模擬人們穿衣的動作,我們用到了物理模擬和機器學習,我們使用了一個物理引擎模擬人物和衣服的動作。為了生成任務動作,我們用強化學習訓練了一個神經網絡,執行人物控制衣服的策略。

由于每個人在穿衣服時的控制策略不同,每個策略的動作都是由任務和環境的狀態決定的。和其他運動或控制動作不同,穿衣服的動作并不遵循特定的運動軌跡,同時環境狀態也在高度變換,難以表示。所以我們用無模型的深度強化學習方法,用深度網絡自動探索穿衣控制策略。

深度強化學習最近受到很大關注,因為它可以大大減少降維需求,也無需選擇狀態空間和動作空間的特征。但是,直接在高維空間中學習、輸入狀態空間,對穿衣問題來說比較棘手,因為在這種場景下的計算成本非常大。所以,直接生成“穿衣策略”會嚴重影響獎勵函數、狀態和動作的設計,使得端到端學習方法變得不切實際。在這篇論文中,我們首次證明了,利用合適的輸入狀態空間和獎勵函數,是可以將模擬衣物嵌入到強化學習框架中的,從而學習一種穩定的穿衣控制策略的。

觸覺感知

雖然穿衣的過程類似“移動”和“抓取”任務,但是與常見的操控任務不同的是,穿衣過程是依靠觸覺判斷任務的進行的。智能體需要學習用觸覺完成兩個相反的任務:施加力量將身體套在衣服上,同時還要避免力量過大損壞衣服。

在這一過程中,我們提出了一種可以表示觸覺信息的方法,用來指引穿衣過程。輸入到控制策略中的一部分環境狀態是一張觸覺地圖(haptic map),它可以測量智能體和模擬衣物之間接觸部分的力度。我們在智能體身上安置了一系列觸覺感應器,然后收集身體和衣服之間的接觸力量。感應器分布如下所示:

分辨正反

人們在穿衣時,會讓身體和衣服的內側接觸,也就是說人類能很容易地分辨衣服的正反面,這對不具備視覺感應器的機器人來說也是個難題。為此,我們對每個觸覺感應器提供了相應的策略,可以區分衣物的內側和外側。

如果感應器上的接觸力與該位置上面向外的頂點法線相反,那么就是-1,反之則為1.如果最后感應器收集的值為正數,那么我們就認為與感應器接觸的是衣服的內里,反之則是外側。

除此之外,訓練期間的獎勵函數會根據觸覺狀態和采取的動作提供學習信號。例如,如果模型檢測到衣服發生變形,就會用獎勵函數進行懲罰。

策略程序算法

另一個遇到的挑戰就是,智能體在穿衣服時需要做一系列動作,例如先抓起襯衫,將手對準袖口,再將手穿過去。想讓單一的控制策略學習每一個步驟,并且一氣呵成是不可能的,原因仍然與計算成本有關。于是,我們將一整套穿衣流程分解成不同的子任務,對每個任務學習控制策略。每個穿衣動作的子任務都被設計成部分可觀測的馬爾可夫決策過程(POMDP),每個POMDP的解決方法都是隨機控制策略:π:O × A →[0, 1]。一個馬爾可夫決策過程是(S, A, r, ρ, Psas’, γ)的組合,其中S表示狀態空間,A表示動作空間,r是獎勵函數,ρ表示初始狀態s0的分布,Psas’是過渡概率,γ是折扣因子。我們的目標是優化表示神經網絡的策略π,讓積累的獎勵達到最大。

為了保證任務效果不會因為策略的改變而改變,我們提出了一種策略程序(Policy sequencing)算法,它可以將一種子任務中的輸出狀態分布與下一個子任務的輸入分布按順序相匹配。

要為一個子任務生成成功策略需要數小時的模擬和優化。高計算成本也有好處,這樣一來,最終結果就不是單一的動畫,而是智能體的控制策略,可以處理多種情況,比如不同的衣服位置和人物動作,如果過程中有干擾,會利用控制策略進行修正。

結果

模擬小人穿t-shirt

模擬小人穿對開式衣服

模擬小人在輔助工具下穿衣

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能體
    +關注

    關注

    1

    文章

    158

    瀏覽量

    10596
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11270

原文標題:效果驚艷!強化學習讓智能體像人類一樣穿衣服

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    深度強化學習實戰

    測試)三、主講內容1:課程強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多智能
    發表于 01-10 13:42

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工
    發表于 06-29 18:36 ?2.8w次閱讀

    高明!OpenAI提出HER算法,人工智能人類一樣認識錯誤汲取教訓

    OpenAI的研究人員集中精力于構建具有更強的學習能力的人工智能。得益于他們的增強學習系統OpenAI baselines,機器學習算法可以進行自主
    的頭像 發表于 05-01 16:35 ?4167次閱讀

    機器能嬰兒一樣通過眼睛學習世界?

    在Facebook人工智能實驗室負責人楊樂昆(Yann LeCun)看來,人類既然已經教會機器辨別圖片,甚至能做到人臉識別,那么機器也能識別視頻。而教會機器學習視頻的方法與嬰兒學習相似
    發表于 05-17 19:21 ?612次閱讀

    人工智能機器學習強化學習

    強化學習智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習
    發表于 05-30 06:53 ?1425次閱讀

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領域之,在強化學習的框架中,智能通過與環境互動,來
    的頭像 發表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    強化學習環境研究,智能玩游戲為什么厲害

    強化學習作為種常用的訓練智能的方法,能夠完成很多復雜的任務。在強化學習中,智能
    的頭像 發表于 08-18 11:38 ?3637次閱讀

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能強化學習算法,但是也有很多重要的應用場景牽涉到多個智能
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    如何測試強化學習智能適應性

    強化學習(RL)能通過獎勵或懲罰使智能實現目標,并將它們學習到的經驗轉移到新環境中。
    的頭像 發表于 12-24 09:29 ?3246次閱讀

    深度強化學習能讓機器人擁有人一樣的意識

    種人工智能系統,即通過深度強化學習學習走路,簡單來說,就是教“個四足機器人來穿越熟悉和不熟悉的地形”。
    發表于 01-03 09:50 ?3437次閱讀

    人工智能人類看到的東西一樣

    為了深度學習算法人類一樣用形狀來識別物體,研究人員用涂有不相干紋理的圖片來訓練這些系統。結果表明:系統的表現得到了提高,這同時也為我們視
    的頭像 發表于 08-29 15:59 ?2286次閱讀

    DeepMind發布強化學習庫RLax

    RLax(發音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能的有用構建塊。。報道:深度強化學習實驗室作者:DeepRL ...
    的頭像 發表于 12-10 18:43 ?745次閱讀

    種新型的多智能深度強化學習算法

    種新型的多智能深度強化學習算法
    發表于 06-23 10:42 ?36次下載

    語言模型做先驗,統強化學習智能,DeepMind選擇走這條通用AI之路

    智能的開發中,強化學習與大語言模型、視覺語言模型基礎模型的進步融合究竟能擦出怎樣的火花?谷歌 DeepMind 給了我們新的答案。
    的頭像 發表于 07-24 16:55 ?542次閱讀
    語言模型做先驗,統<b class='flag-5'>一</b><b class='flag-5'>強化學習</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>,DeepMind選擇走這條通用AI之路

    什么是強化學習

    的AlphaStar,他們都是強化學習模型。諸如此類的模型還有 AlphaGo Zero 強化學習的原理非常簡單,它非常心理學中新行為主義派的斯金納發現的操作性條件反射。 操作
    的頭像 發表于 10-30 11:36 ?4124次閱讀
    什么是<b class='flag-5'>強化學習</b>
    主站蜘蛛池模板: 国产69精品久久久久无码麻豆| 99在线精品国自产拍不卡| 老师xxxx69动漫| 和美女啪啪啪动态图| 国产国产乱老熟女视频网站97| 爱情岛论坛免费在线观看| 99视频免费看| CHINA中国东北GURMA| 99国产精品免费视频| 6080YYY午夜理论片在线观看| 中文字幕久精品视频在线观看 | www亚洲欲色成人久久精品| 99精品国产在热久久| 99久久精品国产亚洲AV| 99久久婷婷国产麻豆精品电影| 99热都是精品| 伧理片午夜伧理片| 菲律宾毛片| 国产精品视频yy9099| 国产中文视频| 精品无码国产污污污免费网站2| 精品国产高清自在线看| 久久电影精品| 免费果冻传媒在线完整观看| 欧美jizz19性欧美| 日本久久不射| 小泽玛丽av无码观看| 亚洲人成www在线播放| 中文无码不卡的岛国片国产片| 91原创在线| 粗壮挺进邻居人妻无码| 国产精品自在在线午夜精品| 接吻吃胸摸下面啪啪教程| 久久学生精品国产自在拍| 男神插曲女生软件完整版| 日韩欧美亚洲精品综合在线| 性欧美videosex18嫩| 又黄又肉到湿的爽文| 啊灬啊别停灬用力啊老师| 国产伦精品一区二区三区| 久久精品电影院|