0. 筆者個(gè)人體會(huì)
今天筆者將為大家分享NVIDIA的最新開(kāi)源方案FoundationPose,是一個(gè)用于 6D 姿態(tài)估計(jì)和跟蹤的統(tǒng)一基礎(chǔ)模型。只要給出CAD模型或少量參考圖像,F(xiàn)oundationPose就可以在測(cè)試時(shí)立即應(yīng)用于新物體,無(wú)需任何微調(diào),關(guān)鍵是各項(xiàng)指標(biāo)明顯優(yōu)于專為每個(gè)任務(wù)設(shè)計(jì)的SOTA方案。
下面一起來(lái)閱讀一下這項(xiàng)工作,文末附論文和代碼鏈接~
1. 效果展示
FoundationPose實(shí)現(xiàn)了新物體的6D姿態(tài)估計(jì)和跟蹤,支持基于模型和無(wú)模型設(shè)置。在這四個(gè)任務(wù)中的每一個(gè)上,F(xiàn)oundationPose都優(yōu)于專用任務(wù)的SOTA方案。(·表示僅RGB,×表示RGBD)。這里也推薦工坊推出的新課程《單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)》。
2. 具體原理是什么?
為減少大規(guī)模訓(xùn)練的人工工作,F(xiàn)oundationPose利用3D模型數(shù)據(jù)庫(kù)、大型語(yǔ)言模型和擴(kuò)散模型等新技術(shù),開(kāi)發(fā)了一種新的合成數(shù)據(jù)生成Pipeline。為了彌補(bǔ)無(wú)模型和基于模型的設(shè)置之間的差距,F(xiàn)oundationPose利用以對(duì)象為中心的神經(jīng)場(chǎng)來(lái)進(jìn)行隨后的渲染和新視圖RGBD渲染。
對(duì)于姿態(tài)估計(jì),首先在物體周圍均勻地初始化全局姿態(tài),然后通過(guò)細(xì)化網(wǎng)絡(luò)對(duì)其進(jìn)行細(xì)化。最后將改進(jìn)的位姿轉(zhuǎn)發(fā)給姿態(tài)選擇模塊,預(yù)測(cè)位姿的分?jǐn)?shù),輸出得分最高的位姿。
3. 和其他SOTA方法對(duì)比如何?
YCB-Video數(shù)據(jù)集上Model-free方案的位姿估計(jì)定量結(jié)果對(duì)比。
YCB-Video數(shù)據(jù)集上位姿跟蹤的定量對(duì)比。這里也推薦工坊推出的新課程《單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)》。
對(duì)更多實(shí)驗(yàn)結(jié)果和文章細(xì)節(jié)感興趣的讀者,可以閱讀一下論文原文~
4. 論文信息
標(biāo)題:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
作者:Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
機(jī)構(gòu):NVIDIA
原文鏈接:https://arxiv.org/abs/2312.08344
代碼鏈接:https://github.com/NVlabs/FoundationPose
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5013瀏覽量
103246 -
RGB
+關(guān)注
關(guān)注
4文章
799瀏覽量
58569
原文標(biāo)題:通用性超強(qiáng)!同時(shí)實(shí)現(xiàn)6D位姿估計(jì)和跟蹤!
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論