人類的手是數百萬年進化過程中最了不起的成果之一。我們能夠拿起各種物體并將它們作為工具使用,這是我們與其他動物的最大區別之一,這也使我們能夠改變周圍的世界。
要想讓機器人在人類的日常生活中工作,機器人必須能夠與我們的工具和周圍的環境進行靈巧的互動。如果沒有這種能力,它們就只能繼續留在工廠、倉庫等專門的領域發揮作用。
雖然有腿的機器人只需要一段時間就可以學會如何行走,但實踐證明有手的機器人控制起來的難度要大得多。帶有手指的機器人手有更多的關節,它們的運動必須經過特定的協調后才能完成指定的任務。傳統的機器人控制方法需要預先對抓取和運動進行精確的編程,因此無法實現人類認為理所當然的那種“普通”精細運動控制技能。
解決這些問題的方法之一是采用深度強化學習(RL)技術訓練一個控制機器人關節的神經網絡。通過深度強化學習,機器人能夠從試驗和錯誤中學習,并在成功完成指定任務后得到獎勵。然而學習這種技術可能需要數百萬甚至數十億樣本,因此它幾乎不可能直接應用于現實中的機器人。
DeXtreme 將模擬環境中的靈巧操作轉移到現實世界
模擬的應用
NVIDIA 的 Isaac 機器人模擬器能夠創造一個用于訓練機器人的模擬空間,這個空間的運行速度比現實世界快 1 萬多倍,但是遵守物理法則。
從事 DeXtreme 項目的 NVIDIA 研究者們,利用 RL 機器人訓練模擬器 Isaac Gym 教機器人手如何將一個立方體擺放到指定的目標位置和方向或姿態。神經網絡大腦可以在模擬中學會這一操作之后,再被移植到現實世界中控制機器人。
之前,只有 OpenAI 的研究者們展示過一次類似的工作。不過,他們的工作需要一個更復雜、更昂貴的機器人手,一個帶有精確運動控制傳感器的立方體,而且需要使用由數百臺計算機組成的超級計算集群進行訓練。
靈巧性訓練的大眾化
為了使世界各地的研究者都能夠復制我們的實驗,DeXtreme 項目選擇了盡可能簡單、便宜的硬件。機器人本身是一臺 Allegro Hand,其成本只有其他一些機器人的 1/10,它有四根手指并且沒有可以移動的手腕。我們使用現成的 RGB 攝像頭作為追蹤立方體的“眼睛”,這樣就可以在不使用特殊硬件的情況下根據需要輕松移動立方體。立方體是 3D 打印的,每個面都有貼紙。
一個簡單、可負擔的現成系統是實現可復制性的關鍵。DeXtreme 使用的是三個 RGB 攝像頭、一個 3D 打印的立方體和一個高性價比的機器人手,所以大家也應該可以輕松嘗試。
DeXtreme 使用 Isaac Gym 進行訓練,該模擬器可提供一個用于強化學習的端到端 GPU 加速模擬環境。NVIDIA PhysX 在 GPU 上模擬出場景。在深度學習控制策略網絡的訓練過程中,結果會保留在 GPU 內存中。因此,這項訓練可以在一臺 Omniverse OVX 服務器上進行。在這個系統上訓練一個好的策略大約需要 32 小時,相當于一個機器人在現實世界中 42 年的經驗。
由于不需要單獨的 CPU 集群進行模擬,因此在目前的云租賃價格下,訓練所產生的計算成本降低了 10-200 倍。使用 Isaac Gym 訓練模型大大減少了訓練的時間和成本。
感知和合成數據
為了讓機器人知道它所持的立方體的位置和方向,需要為機器人加上一個感知系統。為了控制成本并為將來操控其他物體留出余地,DeXtreme使用了三個現成的攝像頭和一個可以解釋立方體姿態的神經網絡。
該網絡通過使用 Omniverse Replicator 生成的約 500 萬幀合成數據訓練而成,沒有使用任何真實的圖像。它學習了如何在具有挑戰性的真實環境中執行任務。為了使訓練更加有效,我們使用了一種叫做域隨機化的技術來改變照明和攝像機的位置,同時使用數據增強技術添加隨機裁剪、旋轉和背景。
DeXtreme NVIDIA Omniverse Replicator 合成數據通過隨機改變背景、照明和攝像機角度來訓練一個強大的感知網絡
DeXtreme 姿態估計系統非常可靠,即便是在目標物體被部分遮擋或者圖像有明顯運動模糊的情況下也能準確感知到姿態。
DeXtreme 姿態估計器的計算機視覺模型在立方體的一部分被人手遮擋時的輸出結果
現實世界中的機器人訓練依然困難重重
使用模擬的主要原因之一是直接在現實世界中訓練機器人會產生各種難題。例如機器人硬件在過度使用后容易損壞、實驗的迭代周期和周轉時間可能很長等。
除了模擬之外,機器人還必須解決所有現實中的機械和物理學問題
我們在實驗中經常發現在長期使用后需要對機械手進行修理,例如擰緊松動的螺絲、更換帶狀電纜、在進行 10-15 次試驗后需要讓機械手休息并等待它冷卻等。在模擬中,我們是在一個不會損壞的機器人上進行訓練,所以能夠避開許多這樣的問題,同時還能獲得學習高難度任務所需的大量數據。而且模擬的運行速度比實時訓練快得多,所以迭代周期大幅縮短。
在模擬環境中訓練的最大問題是需要縮小模擬和現實世界之間的差距。為了解決這個問題,DeXtreme 對模擬器中設置的物理屬性使用了域隨機化,可一次在超過十萬個模擬環境中大規模地改變物體的質量、摩擦水平和其他屬性。
隨機化所帶來的好處之一是讓我們可以使用各種不常見的場景組合來訓練人工智能,這能保證機器人在現實世界執行任務時的穩健性。例如,我們在現實機器人上的大部分實驗都是在由于電路板上的連接松動而導致拇指輕微失靈的情況下進行的。盡管如此,我們還是對這些策略能夠從模擬可靠地轉移到現實世界而感到驚訝。
經過超過 32 小時的強化學習,DeXtreme 機器人能夠在根據指定目標旋轉立方體的任務中反復取得成功
從模擬到現實
未來機器人操作領域的突破將催生出新一批不僅限于傳統工業用途的機器人應用。DeXtreme 項目所傳達的核心信息是:模擬可以成為訓練復雜機器人系統的一個非常有效的工具,包括需要不斷接觸環境中的物體的機器人系統。我們使用成本相對較低的硬件來證明這一點是為了鼓勵大家使用我們的模擬工具并在此基礎上繼續努力。
關于 DeXtreme 項目的更多細節,請查看論文并訪問項目網頁:https://dextreme.org/
原文標題:加強模擬的更大價值 —— 給真實機器人一雙靈巧的“手”
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3791瀏覽量
91290
原文標題:加強模擬的更大價值 —— 給真實機器人一雙靈巧的“手”
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論