無(wú)論是日常簡(jiǎn)單的動(dòng)作還是令人驚嘆的雜技,人類(lèi)可以通過(guò)觀察別人的動(dòng)作學(xué)會(huì)一系列驚人的技能。今天如果你想要學(xué)習(xí)新的技能,像YouTube一樣的視頻網(wǎng)站上擁有豐富的資源供你學(xué)習(xí)。
但遺憾的是,對(duì)于機(jī)器來(lái)說(shuō)通過(guò)大量的視覺(jué)數(shù)據(jù)來(lái)進(jìn)行技能學(xué)習(xí)依然面臨著很大的挑戰(zhàn)。目前絕大多數(shù)的模仿學(xué)習(xí)需要精確的動(dòng)作記錄,例如精密的動(dòng)作捕捉系統(tǒng)。但獲取動(dòng)作捕捉數(shù)據(jù)很多時(shí)候十分復(fù)雜,極大的依賴于設(shè)備,將環(huán)境局限于于室內(nèi)無(wú)遮擋的場(chǎng)景,這限制了可以被記錄的技能類(lèi)型。那么如果存在一個(gè)智能體可以從視頻中學(xué)習(xí)技能就好了!
在這一工作中,伯克利BAIR的研究人員提出了一種從視頻中學(xué)習(xí)技能的框架(skills from videos,SFV),結(jié)合了前沿的計(jì)算機(jī)視覺(jué)和強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建的系統(tǒng)可以從視頻中學(xué)習(xí)種類(lèi)繁多的技能,包括后空翻和很滾翻等高難度動(dòng)作。同時(shí)智能體還學(xué)會(huì)了在仿真物理環(huán)境中復(fù)現(xiàn)這些技能的策略,而無(wú)需任何的手工位姿標(biāo)記。
SFV問(wèn)題在計(jì)算機(jī)圖形學(xué)領(lǐng)域一直受到廣泛關(guān)注,先前的技術(shù)主要依靠手工的控制結(jié)構(gòu)來(lái)限制可以產(chǎn)生的行為,這使得主體可以學(xué)習(xí)到的技能非常有限,同時(shí)表現(xiàn)出來(lái)的動(dòng)作也很不自然。近年來(lái),深度學(xué)習(xí)技術(shù)在視覺(jué)模仿鄰域取得了很大的進(jìn)展,包括Atari游戲和簡(jiǎn)單的機(jī)器人任務(wù)都取得的不錯(cuò)的成績(jī),但這些任務(wù)在所描述的與主體運(yùn)行的環(huán)境只有些許的不同,并且所得到的結(jié)果也只是相對(duì)簡(jiǎn)單的動(dòng)力學(xué)過(guò)程。
基于深度學(xué)習(xí)視覺(jué)模仿的Atrai和簡(jiǎn)單的機(jī)器人任務(wù)
框 架
研究人員提出的系統(tǒng)由三個(gè)部分構(gòu)成:位姿估計(jì)、運(yùn)動(dòng)重建和運(yùn)動(dòng)模仿。
-首先利用輸入的視頻實(shí)現(xiàn)位姿估計(jì),從每一幀中預(yù)測(cè)出主角的位姿;
-隨后在運(yùn)動(dòng)重建階段,將上一階段預(yù)測(cè)的位姿進(jìn)行銜接得到參考的運(yùn)動(dòng)過(guò)程,并修正一些在位姿估計(jì)階段的缺陷;
-最終將參考運(yùn)動(dòng)過(guò)程傳輸給模仿階段,模擬的主體將會(huì)利用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練模仿這些動(dòng)作。
這一框架主要包括位姿估計(jì)、運(yùn)動(dòng)重建和運(yùn)動(dòng)模仿三個(gè)過(guò)程
位姿估計(jì)
研究人員利用基于視覺(jué)的運(yùn)動(dòng)估計(jì)器來(lái)預(yù)測(cè)給定視頻中主角的在每一幀的運(yùn)動(dòng)。位姿估計(jì)器利用人體網(wǎng)格恢復(fù)中的方法來(lái)構(gòu)建,利用了弱監(jiān)督對(duì)抗的方法訓(xùn)練從單目圖像中預(yù)測(cè)出位姿。
從視頻中恢復(fù)人體位姿
雖然在訓(xùn)練位姿估計(jì)器的時(shí)候需要進(jìn)行位姿標(biāo)記,但在訓(xùn)練完成后它就可以用于新的圖像而無(wú)需額外的標(biāo)記。
基于視覺(jué)的位姿估計(jì)器從每一幀中預(yù)測(cè)出主角的動(dòng)作
運(yùn)動(dòng)重建
由于基于單幀圖像預(yù)測(cè)的位姿是不連續(xù)的,在上圖中可以看到明顯不連貫的動(dòng)作。同時(shí)由于估計(jì)器某些錯(cuò)誤估計(jì)的存在會(huì)產(chǎn)生一系列奇異結(jié)果造成估計(jì)的位姿出現(xiàn)跳變。這會(huì)造成智能體在物理上無(wú)法模仿。所以運(yùn)動(dòng)重建的目的就在于減輕上述原因帶來(lái)的影響,得到更為符合物理實(shí)際的參考運(yùn)動(dòng),以便于智能體模擬。所以研究人員提出了下面的目標(biāo)函數(shù)來(lái)優(yōu)化新的參考運(yùn)動(dòng):
其中保證了參考運(yùn)動(dòng)與原始運(yùn)動(dòng)接近,而則保證了相鄰幀之間運(yùn)動(dòng)相近以便得到更加平滑的運(yùn)動(dòng)結(jié)果,這兩個(gè)損失對(duì)應(yīng)了不同的權(quán)重w。
經(jīng)過(guò)優(yōu)化后的參考運(yùn)動(dòng)結(jié)果如下,可以看到明顯地改善了位姿之間的連續(xù)性,讓生成的運(yùn)動(dòng)估計(jì)更為平滑。
運(yùn)動(dòng)模仿
在獲取了參考運(yùn)動(dòng)序列后,就可以訓(xùn)練智能體來(lái)模擬這些技能了。研究人員使用了強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練智能體學(xué)習(xí)這些技能,其中獎(jiǎng)勵(lì)函數(shù)也十分簡(jiǎn)單,主要用于鼓勵(lì)智能體采取不斷減小t時(shí)刻與每一幀參考運(yùn)動(dòng)位姿之間差距的策略。
雖然簡(jiǎn)單,但得到了很好的結(jié)果。智能體學(xué)會(huì)了一系列高難度動(dòng)作,從不同的技能視頻片段中學(xué)會(huì)了不同的技能。
來(lái)一個(gè)側(cè)手翻
再來(lái)一個(gè)前空翻
鯉魚(yú)打挺也不賴
嘿!看我的回旋踢!
結(jié)果
在訓(xùn)練完成后,這一智能體可以學(xué)會(huì)從youtube中收集的20中不同的技能。
能唱能跳、能翻滾跳躍、武術(shù)也不在話下。
甚至對(duì)于與視頻中主角人類(lèi)在形態(tài)上很不相似的Atlas機(jī)器,這一策略依然十分有效。
研究人員同時(shí)還發(fā)現(xiàn),模擬智能體學(xué)習(xí)到的行為具有很強(qiáng)的泛化性。在新的環(huán)境中依舊可以學(xué)習(xí)如何適應(yīng)崎嶇的地面。
運(yùn)動(dòng)平滑而又穩(wěn)定
這一研究取得良好效果的關(guān)鍵在于,將SFV這一復(fù)雜問(wèn)題分解成多個(gè)可控的部分,并選取合適的方法來(lái)解決這些問(wèn)題,并將他們有機(jī)高效的結(jié)合起來(lái)。然而這一領(lǐng)域依舊面臨著很大挑戰(zhàn),下面就是一個(gè)學(xué)習(xí)失敗的例子:
但這一工作依舊表明,充分合理地利用已有的技術(shù)我們可以在充滿挑戰(zhàn)的問(wèn)題中得到不錯(cuò)的結(jié)果。希望這一研究可以啟發(fā)小伙伴們對(duì)于相關(guān)領(lǐng)域的研究。
-
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45985 -
智能體
+關(guān)注
關(guān)注
1文章
147瀏覽量
10576 -
Youtube
+關(guān)注
關(guān)注
0文章
143瀏覽量
15543
原文標(biāo)題:看看Youtube就能學(xué)會(huì)雜技,伯克利新算法讓智能體學(xué)會(huì)高難度動(dòng)作
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論