創建動作自然并對各種控制輸入做出智能響應的交互式仿真人形機器人仍是計算機動畫和機器人技術領域最具挑戰性的問題之一。NVIDIA Isaac Sim等高性能 GPU 加速仿真器以及使用NVIDIA Isaac Lab的機器人策略訓練,使交互式人形機器人的訓練取得了顯著的進展。
最近推出的 Adversarial Motion Priors 和 Human2Humanoid 為仿真機器人和真實機器人帶來了重大的飛躍。但它們有一個共同的缺陷——每次改變人形機器人的控制方式,都需要重新訓練一個新的專用控制器。
本文將介紹 MaskedMimic,這是一個通過運動補全實現人形機器人統一全身控制的框架。MaskedMimic 是NVIDIA Project GR00T項目的一部分,該項目旨在推動通用人形機器人開發。這項研究工作為 GR00T-Control 做出了貢獻,GR00T-Control 是一套用于全身控制的先進運動規劃和控制程序庫、模型、策略與參考工作流。
克服任務特定控制
傳統的人形機器人控制方法因其任務特定性而存在固有局限。例如,專用于路徑跟蹤的控制器無法處理需要頭部和手部協調跟蹤的遠程操作任務。同樣,訓練用于追蹤演示者全身動作的控制器,也無法適應僅需追蹤部分關鍵點的場景。
這種局限性帶來了巨大的挑戰,包括:
修改控制方案需要設計新的訓練環境,并設置特定的獎勵和觀察指標,并從頭開始訓練一個新的控制器。
在不同控制模式之間切換變得不切實際。
開發和部署周期漫長,資源消耗大。
運動補全提供了整合性解決方案
生成式 AI 領域的最新進展表明,在文本、圖像甚至動畫等多個領域中使用補全 (inpainting)技術都取得了顯著的成功。這些方法的共同點是,它們通過訓練學習從掩碼(不完整)或局部視圖中重建完整數據。MaskedMimic 將這一模式應用于全身人形機器人控制任務。
MaskedMimic 接受多種類型的局部運動描述:
帶掩碼的關鍵幀:特定時間范圍內所選身體部位的位置數據(例如帶有頭部/手部位置的 VR 遠程操作數據)。
場景交互:自然物體交互指令(例如“坐在這張椅子上”)。
文本描述:自然語言運動描述(例如“用右手揮手”)。
混合輸入:上述輸入的組合(例如帶有文體文本限制的路徑跟蹤)。
圖 1. MaskedMimic 通過不同的控制方案生成全身運動
MaskedMimic 的工作原理
訓練MaskedMimic 經過兩個階段的流程,該流程依托于一個包含人類運動、運動文本描述和場景信息的龐大數據集。
這些數據展示了人類如何運動,但缺乏仿真機器人重現這些運動所需的電機動作。
在該流程的第一階段,將針對全身運動跟蹤任務,對強化學習智能體進行訓練。此模型會觀察機器人的本體感受、周圍地形以及它在不久的將來應當執行的動作。然后,它會預測重建所演示動作所需的電機動作。這可以被視為一個能夠適應周圍地形的逆向模型。
訓練的第二階段是教師-學生在線蒸餾(teacher-student distillation)過程。第一階段的模型被用作固定的專家模型,不再進行訓練。
在訓練過程中,人形機器人被初始化為一個隨機運動的隨機幀。當專家觀察未經修改的未來演示時,學生會得到一個隨機的掩碼版本。
掩碼可能非常密集,從而為學生模型提供所有信息,包括每幀中的每個關節、文本以及場景信息。它也可能非常稀疏,例如只有文本或幾秒的頭部位置。
學生(MaskedMimic)的目標是進行運動補全。MaskedMimic 在獲得局部(掩碼)運動描述后,需要成功預測專家動作,進而再現原始的無掩碼運動演示。
運動補全
通過將控制和運動生成看作一個補全問題可以實現廣泛的功能。例如,MaskedMimic 可以在仿真的虛擬世界中重建用戶的演示。
通過攝像頭推斷的運動可能包括所有的身體關鍵點。
另一方面,虛擬現實系統通常只包含一個跟蹤傳感器子集。Oculus 和 Apple Vision Pro 等常見系統可提供頭部和手部坐標。
我們還測量了 VR 跟蹤的成功率和跟蹤誤差。實證結果表明,與專門為此任務優化的控制器相比,性能有了很大提高。在沒有任何針對特定任務的訓練或微調時,MaskedMimic 統一控制器的性能優于之前的專用控制器。
表 1. 跟蹤從未曾見過的 AMASS 測試集中
提取的 VR 信號(頭部和手部位置)的成功率
交互控制
該控制方案可根據用戶輸入生成新的運動而被復用。MaskedMimic 的統一策略能夠解決多種任務,之前的研究則是通過訓練多個不同的專用控制器解決問題。
通過指定根節點(root)的未來位置和方向,就可以使用操縱桿控制器操縱 MaskedMimic。
同樣,可根據頭部位置和高度,指示 MaskedMimic 沿著一條路徑前進。
另一項重要功能是場景互動。基于某個物體對 MaskedMimic 進行調節,就好比指示它“自然地與該物體互動”。
MaskedMimic
統一控制系統的優勢
MaskedMimic 有兩大顯著優勢:
出眾的性能:在一系列控制輸入中,MaskedMimic 的性能均優于特定任務控制器。
零樣本泛化:MaskedMimic 展現出了整合通過不同訓練方式所獲知識的能力,這類似于生成式文本和圖像模型學習整合知識的方式。例如,雖然只在平坦和不受干擾的環境中接受過物體交互訓練,但它能學會與放置在不規則表面上的未曾見過的物體進行交互。
總結及未來的工作
MaskedMimic 代表了多功能人形機器人控制領域的一大進步,它通過運動修補統一了不同的控制模式,同時保持了物理真實性。這項研究可以擴展到幾個令人期待的領域,詳情如下。
機器人應用:這項研究將能夠成功擴展到真實機器人應用。在仿真機器人(如 Unitree H1)上進行訓練,能夠讓真實機器人系統的控制變得更加直觀。
增強交互能力:目前,這項工作展示了非復雜地形和靜態場景。下一個重要里程碑可能是更復雜的動態環境,如物體操縱和跑酷等。
技術改進:最后,這項工作已將動畫作為重點。它可以部署在實時游戲和機器人系統中用于優化推理速度,還可以部署在更加多樣化和不可預測的環境中,用于提高故障恢復能力。
欲了解包括源代碼和預訓練模型在內的更多信息,請訪問 MaskedMimic:通過掩碼運動補足實現基于物理學的統一角色控制。
開始使用
NVIDIA Project GR00T 是一項旨在加速人形機器人開發的研究計劃。如果您是人形機器人制造商或機器人軟件或硬件廠商,請申請加入 NVIDIA 人形機器人開發者計劃。
通過新的開發者入門指南和教程掌握 Isaac Lab 入門知識或從 Isaac Gym 遷移至 Isaac Lab。
查看 Isaac Lab 參考架構,了解使用 Isaac Lab 和 Isaac Sim 的端到端機器人學習流程。
了解更多有關頭部機器人公司如何使用 NVIDIA 平臺的信息,包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、波士頓動力、Field AI、傅利葉、銀河通用、Mentee Robotics、Skild AI、Swiss-Mile、宇樹科技和 XPENG Robotics。
北京時間 1 月 7 日(星期二)上午 10:30 觀看 NVIDIA CEO 黃仁勛在拉斯維加斯現場發表的 CES 開幕主題演講。
-
機器人
+關注
關注
211文章
28490瀏覽量
207448 -
NVIDIA
+關注
關注
14文章
5010瀏覽量
103238 -
仿真
+關注
關注
50文章
4099瀏覽量
133712
原文標題:物理仿真人形機器人的統一全身控制策略
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論