來自英特爾AI實驗室和俄勒岡州立大學(xué)工程學(xué)院協(xié)作機器人和智能系統(tǒng)研究所的研究人員結(jié)合了多種方法,制作了性能更好的強化學(xué)習(xí)系統(tǒng),可應(yīng)用于機器人控制,控制自主車輛功能的系統(tǒng)和其他復(fù)雜系統(tǒng)。
協(xié)同進化強化學(xué)習(xí)(CERL)可以在類人、Hopper、Swimmer、HalfCheetah和Walker2D等基準測試中獲得更好的性能。使用CERL方法,研究人員能夠基于OpenAI的Humanoid基準測試使3D人形機器人直立行走。
這些成果在一定程度上是通過訓(xùn)練系統(tǒng)實現(xiàn)的,該系統(tǒng)探索了更多的強化學(xué)習(xí)訓(xùn)練環(huán)境,以尋求獎勵并完成特定的任務(wù)。
環(huán)境探索對于確保記錄各種經(jīng)驗并考慮行動方案非常重要。研究人員在一篇解釋CERL工作原理的論文中說,與環(huán)境探索相關(guān)的問題已經(jīng)出現(xiàn),特別是在使用深度強化學(xué)習(xí)來完成具有挑戰(zhàn)性的現(xiàn)實任務(wù)越來越普及的情況下。該論文寫道,“神經(jīng)進化將整個過程結(jié)合在一起,產(chǎn)生了一個超越任何個體學(xué)習(xí)者能力的學(xué)習(xí)者。”
CERL將基于策略梯度的強化學(xué)習(xí)和進化算法相結(jié)合,然后在每批或每一代訓(xùn)練系統(tǒng)中選擇表現(xiàn)最佳的神經(jīng)網(wǎng)絡(luò)。這樣,研究人員可以就可以使用最強大的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建新一代的系統(tǒng),并且可以將計算資源分配給實現(xiàn)最佳性能的算法。
CERL還結(jié)合了重放緩沖區(qū),用于存儲學(xué)習(xí)者在環(huán)境中的體驗,以便創(chuàng)建單個重放緩沖區(qū)并在系統(tǒng)之間共享體驗,從而實現(xiàn)比以前方法更高的樣本效率。
當(dāng)前,人工智能正在從多個方面賦予機器人越來越多的能力,相信隨著相關(guān)技術(shù)的不斷增強,人形機器人的應(yīng)用場景也將會大大拓展。
-
機器人
+關(guān)注
關(guān)注
211文章
28380瀏覽量
206918
發(fā)布評論請先 登錄
相關(guān)推薦
評論