只用一個神經(jīng)網(wǎng)絡(luò)實現(xiàn)操縱,四足機器人的重大技術(shù)突破。
跑酷是一項極限運動,需要參與者以高度動態(tài)的方式跨越障礙,對于大多數(shù)時候「笨手笨腳」的機器人來說,這似乎是件遙不可及的事,不過最近在機器人控制領(lǐng)域里出現(xiàn)了一些技術(shù)突破的趨勢。幾周前,機器之心曾報道過一個使用強化學(xué)習(xí)方法讓機器狗實現(xiàn)跑酷的研究,實現(xiàn)了不錯的效果。
最近,卡內(nèi)基梅隆大學(xué)(CMU)的一項新研究也針對機器狗跑酷的挑戰(zhàn)提出了新方法,效果又上了一個臺階,以至于人們的評價一致是:amazing.
觀眾:「是《黑鏡》里面演的樣子」。
CMU 的這項研究讓機器狗可以像狗狗障礙賽里的選手一樣,自動越過不連續(xù)的箱子,在不同角度傾斜的坡面之間輕松地跑跳:
而且通過這些障礙的速度也很快。
輕松跳過 0.8 米(機器狗長度的 2 倍)的間距:
爬上 0.51 米高(機器狗高度的 2 倍)的障礙物:
這回沒有一把站穩(wěn),它還用后腿進行了補救,動作像真的狗一樣。
機器狗還可以做一些真實世界里動物難以完成的事,比如僅用兩條前腿行走,相當(dāng)于倒立行走:
還能僅用兩條前腿下樓梯:
像在游戲里面卡了 bug,有點滑稽,又帶有一點點恐怖谷效應(yīng)。
該研究旨在讓小型低成本機器狗能夠完成跑酷任務(wù)。這類機器狗的驅(qū)動不精確,且僅有用于感知的單個前置深度攝像頭,頻率低、容易出現(xiàn)抖動和偽影。
基于此,該研究提出一種直接從原始深度和機載傳感到關(guān)節(jié)角度命令的神經(jīng)網(wǎng)絡(luò),并通過大規(guī)模強化學(xué)習(xí)進行模擬訓(xùn)練,以克服不精確的傳感和驅(qū)動帶來的問題,端到端地輸出高度精確的控制行為。研究項目已開源。
-
論文地址:https://extreme-parkour.github.io/resources/parkour.pdf
-
項目地址:https://github.com/chengxuxin/extreme-parkour
方法簡介
該研究通過端到端數(shù)據(jù)驅(qū)動的強化學(xué)習(xí)框架使機器狗具備「跑酷」的能力。為了讓機器狗在部署時根據(jù)障礙物類型進行自我調(diào)整,該研究提出了一種新穎的雙重蒸餾(dual distillation)方法。該策略不僅能輸出靈活的運動命令,還可以根據(jù)輸入深度圖像快速調(diào)整方向。
為了讓單個神經(jīng)網(wǎng)絡(luò)能夠表征不同的跑酷技能行為,該研究提出了一種基于內(nèi)積的簡單而有效的通用獎勵設(shè)計原則。
具體來說,該研究旨在訓(xùn)練一個直接從原始深度和機載傳感到關(guān)節(jié)角度命令的神經(jīng)網(wǎng)絡(luò)。為了訓(xùn)練適應(yīng)性運動策略,該研究采用了正則化在線適應(yīng)(ROA)方法,并針對極限跑酷任務(wù)進行了關(guān)鍵修改。
實驗結(jié)果
該研究主要讓機器狗掌握 4 種技能,包括攀爬、跳過間距、在斜坡上跑跳、倒立,與其他幾種方法的比較結(jié)果如下表 1 所示:
為了驗證系統(tǒng)中各部分的作用,該研究提出了兩組基線。該研究首先測試了獎勵設(shè)計和整體 pipeline,結(jié)果如下表 2 所示:
第二組基線旨在測試蒸餾設(shè)置,其中涉及用于方向預(yù)測的 BC 和用于動作的 dagger,實驗結(jié)果如下表 3 所示:
此外,該研究還進行了很多現(xiàn)實實驗(記錄成功率),并與 NoClear 和 NoDir 基線進行比較,實驗結(jié)果如下圖 7 所示:
原文標(biāo)題:讓人恐懼的是,機器狗已經(jīng)能做這種事了
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2910文章
44778瀏覽量
374724
原文標(biāo)題:讓人恐懼的是,機器狗已經(jīng)能做這種事了
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論