盡管設計一套能夠在受控環境中有效執行重復任務的機器人系統(例如,在裝配線上組裝產品)十分平常,但設計一種能夠觀察周圍環境和確定最佳行動方案,同時對意外結果做出反應的機器人卻非常困難。
不過,有兩種工具可以幫助機器人從經驗中獲得這些技能:深度學習和強化學習。前者非常適合處理非結構化的現實世界場景,而后者可以實現更長期的推理,同時展現出更復雜、更強大的順序決策能力。如果將這兩種技術結合,將有可能讓機器人不斷地從經驗中學習,使它們能夠通過數據而非人為設計來掌握基本的感覺運動技能。
設計用于機器人學習的強化學習算法本身提出了一系列挑戰:現實世界的物體具有各種各樣的視覺和物理屬性,接觸力的細微差別都可能會使物體運動難以預測,并且相關物體可能會受到遮擋。此外,機器人傳感器本身具有噪聲,這也增加了復雜性。所有這些因素綜合到一起,使得學習一個通用解異常困難,除非訓練數據足夠多樣化,然而,收集這樣的數據又十分耗時。
這就促使人們去探索一種能夠有效重用過往經驗的學習算法,類似于我們之前一項關于抓取的研究,這項研究就受益于大數據集。不過,這項研究無法推斷動作的長期后果,而這一點對學習如何抓取十分重要。例如,如果多個物體聚集在一起,那么將其中一個分開(稱為“分割”)將使得抓取更容易,即使這樣做與成功抓取并無直接關聯。
分割示例
為了提高效率,我們需要采用脫策強化學習,這種算法可以從數小時、數天或數周前收集的數據中學習。為了設計這樣一種可以利用從歷史互動中獲得的大量不同經驗的脫策強化學習算法,我們將大規模分布式優化與一個新的擬合深度 Q 學習算法(我們稱之為 QT-Opt)相結合。arXiv 上提供了預印本。
QT-Opt 是一種分布式 Q 學習算法,支持連續動作空間,非常適合解決機器人問題。為了使用 QT-Opt,我們首先使用已收集的數據以完全離線的方式訓練模型。此過程不需要運行真正的機器人,因而更易于擴展。然后,我們在真正的機器人上部署并微調該模型,使用新收集的數據進一步訓練模型。通過運行 QT-Opt,我們得以積累更多的離線數據,這使得我們能夠訓練出更好的模型,而這反過來又有利于收集更好的數據,從而形成一個良性循環。
為了將這種方法應用于機器人抓取,我們使用了 7 個現實世界的機器人,在 4 個月的時間里,機器人總共運行了 800 個小時。為了引導收集過程,我們首先使用手動設計的策略,成功率為 15-30%。在表現提升后,數據收集轉向學到的模型。策略利用相機圖像并返回手臂和抓手的移動方式。離線數據包含對 1000 多種不同物體的抓取。
使用的一些訓練物體
通過過去的研究,我們已經發現在機器人之間共享經驗可以加快學習速度。我們將此訓練和數據收集過程擴展到 10 個 GPU、7 個機器人和多個 CPU,因此得以收集和處理包含超過 580,000 次抓取嘗試的大型數據集。在這個過程的最后,我們成功訓練了一種抓取策略,此策略在現實世界機器人上運行并且可以泛化到訓練時未見過的各種具有挑戰性的物體。
七個機器人正在收集抓取數據
從量化角度來看,在關于以前未見過物體的 700 次抓取試驗中,QT-Opt 方法的抓取成功率達到 96%。先前基于監督式學習的抓取方法的成功率為 78%,相比之下,新方法將錯誤率降低了五倍以上。
評估時使用的物體
為了使任務具有挑戰性,我們增加了物體尺寸、
紋理和形狀的多樣性
值得注意的是,策略展現出了標準機器人抓取系統中少見的各種閉環、反應性行為:
? 當面對一組無法一起拾起的聯鎖塊時,策略先將一個塊與其他塊分開,然后再將它拾起。
? 當面對難以抓取的物體時,策略會推算出它應該調整抓手位置并重新抓取,直到抓牢為止。
? 當在一堆物體中抓取時,策略會探測不同的物體,直到抓手緊緊握住一個物體時才會將它拾起。
? 當我們故意將物體從抓手上弄掉以擾亂機器人時(訓練期間未經歷過這種情況),它會自動重新調整抓手位置,進行另一次嘗試。
最重要的是,這些行為都并非人為設計。這些行為基于 QT-Opt 的自監督式訓練自動出現,因為它們提高了模型的長期抓取成功率。
學到的行為示例
在左側的 GIF 中,策略針對移動的球進行更正
在右側的 GIF 中,策略在多次抓取嘗試后
成功拾起難以抓握的物體
此外,我們發現 QT-Opt 使用較少的訓練數據達到了較高的成功率,盡管收斂時間較長。這對機器人技術來說尤其令人興奮,因為,此領域的瓶頸通常是收集現實機器人數據,而不是訓練時間。將此策略與其他數據效率技術(例如我們之前關于抓取領域自適應的研究)相結合,可以在機器人技術領域開辟一些有趣
總體而言,QT-Opt 算法是一種通用的強化學習方法,在現實世界機器人上表現非常出色。除獎勵定義外,QT-Opt 沒有任何特定于機器人抓取的限制。我們認為這是向更通用的機器人學習算法邁出的重要一步,并期待看到其他適用的機器人任務。
-
機器人
+關注
關注
211文章
28597瀏覽量
207836 -
深度學習
+關注
關注
73文章
5511瀏覽量
121376
發布評論請先 登錄
相關推薦
評論