本文提出了一種即插即用的單目SLAM系統,能夠在15FPS的幀率下生成全局一致的位姿和稠密幾何圖形。
01 本文核心內容
視覺SLAM乃是當今機器人技術與增強現實產品的基礎性構建模塊。通過精心設計的集成式硬件與軟件堆棧,實現穩健且精準的視覺SLAM已成為可能。然而,SLAM尚未能成為一種即插即用的算法,因其需要硬件方面的專業知識以及校準操作。即便對于僅配備單個攝像頭且無諸如IMU等額外傳感器的最簡設置而言,也不存在一種能夠在野外可靠地同時提供準確姿態和一致稠密地圖的SLAM解決方案。達成如此可靠的稠密SLAM系統將為空間智能研究開辟新的方向。
僅依靠2D圖像來執行稠密SLAM時,需要對隨時間變化的姿態、相機模型以及3D場景幾何進行推理。為解決這種高維度的逆問題,從手工構建到數據驅動的各類先驗知識已被提出。單視圖先驗,如單目深度和法向量,試圖從單張圖像預測幾何結構,但其中存在歧義并且在不同視圖間缺乏一致性。雖然諸如光流之類的多視圖先驗降低了歧義性,但要解耦姿態和幾何結構卻頗具挑戰,因為像素運動取決于外部參數和相機模型。盡管這些潛在原因可能會隨時間和不同觀察者而變化,但3D場景在不同視圖中保持不變。因此,從圖像中求解姿態、相機模型和稠密幾何所需的統一先驗必須處于共同坐標系下的3D幾何空間中。
近期,由DUSt3R及其后續的MASt3R開創的雙視圖3D重建先驗,通過利用精心整理的3D數據集,在結構從運動(SfM)領域引發了范式轉變。這些網絡能直接從處于共同坐標系的兩張圖像中輸出點圖,使得上述子問題在聯合框架中得以隱式求解。未來,這些先驗將在具有顯著失真的各類相機模型上接受訓練。雖然3D先驗可以納入更多視圖,但SfM和SLAM利用空間稀疏性并避免冗余以實現大規模一致性。雙視圖架構將雙視圖幾何作為SfM的構建模塊,這種模塊化特性為高效決策和后端的穩健共識開啟了大門。
在本項工作中,我們提出了首個以雙視圖3D重建先驗作為跟蹤、映射和重定位的統一基礎的實時SLAM框架,如圖1所示。盡管先前的工作已將這些先驗應用于無序圖像集合的離線SfM場景中,但SLAM是遞增式接收數據并且必須維持實時運行。這就需要對低延遲匹配、精心的地圖維護以及大規模優化的高效方法持有新的觀點。此外,受SLAM中的濾波和優化技術啟發,我們在前端對點圖進行局部濾波,以在后端實現大規模全局優化。我們的系統對每張圖像的相機模型除了所有光線都通過的唯一相機中心外不做任何假設。這造就了一個能夠重建具有通用、隨時間變化的相機模型場景的實時稠密單目SLAM系統。在給定校準的情況下,我們還在軌跡精度和稠密幾何估計方面展現出了最先進的性能。
02 主要貢獻
? 首個以雙視圖3D重建先驗MASt3R作為基礎的實時SLAM系統。
? 用于點圖匹配、跟蹤與局部融合、圖構建與閉環以及二階全局優化的高效技術。
? 一個能夠處理通用、隨時間變化的相機模型的最先進的稠密SLAM系統。
03 方法架構
在圖3中概述了該方法的主要組成部分:MASt3R預測和點云匹配、跟蹤和局部融合、閉環處理和全局優化。
新圖像通過MASt3R預測點圖,并利用我們高效的迭代投影點圖匹配來尋找像素匹配,從而與當前關鍵幀進行跟蹤。跟蹤過程會估計當前位姿并執行局部點圖融合。當新的關鍵幀添加到后端時,利用編碼的MASt3R特征對檢索數據庫進行查詢,從而選出閉環候選。隨后,MASt3R對候選進行解碼,若找到足夠數量的匹配,則向后端圖添加邊。大規模二階優化實現了位姿和密集幾何的全局一致性。
04 結果
4.1.相機位姿估計
TUMRGB-D:在TUM數據集上,如表1所示,當利用校準信息時,我們展現出了在軌跡誤差方面的最先進水平。許多此前表現最佳的算法,例如DROID-SLAM、DPV-SLAM以及GO-SLAM,都是基于DROID-SLAM所提出的基礎匹配和端到端系統構建的。相較而言,我們提出了一個獨特的系統,采用了現成的雙視圖幾何先驗,并表明其能夠在實時運行的情況下超越其他所有系統。此外,我們未校準的系統顯著優于一個基準,我們將其標記為DROID-SLAM*,該基準在序列的首張圖像上使用GeoCalib來校準內參,然后供DROID-SLAM使用。我們在無需在整個序列中假定固定相機模型的情況下實現了這一成果,并展示了在未校準的稠密SLAM中3D先驗相對于解決子問題的先驗的價值。我們未校準的SLAM結果也可與諸如DPV-SLAM等已知校準的其他近期學習技術的結果相媲美。
7-Scenes:我們依照NICER-SLAM的方式使用相同的序列進行評估,如表2所示。我們校準后的系統在性能上優于NICER-SLAM和DROIDSLAM。此外,我們使用單個3D重建先驗的實時未校準系統在性能上優于NICER-SLAM,后者在深度、法線和光流網絡中使用多個先驗且離線運行。
ETH3D-SLAM:由于其難度較大,ETH3D-SLAM僅針對RGB-D方法進行了評估。由于官方私有評估中的ATE閾值對于單目方法而言過于嚴格,我們在訓練序列上對幾款最先進的單目系統進行了評估,并生成了ATE曲線。該數據集包含具有快速相機運動的序列,因此對于所有方法,我們均未對幀進行下采樣。雖然其他方法可能具有更精確的軌跡,但我們的方法在魯棒性方面具有更出色的表現,在ATE和曲線下面積(AUC)方面均取得了最佳結果。
EuRoC:我們在表3中報告了所有11個EuRoC序列的平均ATE。對于未校準的情況,我們發現由于MASt3R尚未針對此類相機模型進行訓練,所以畸變過于顯著,因此我們對圖像進行了去畸變處理,但未向其余管道提供校準信息。總體而言,我們的系統在性能上不如DROID-SLAM,但其明確在訓練中加入了10%的灰度圖像。不過,0.041米的ATE仍然非常準確,從中的比較來看,所有優于DROID-SLAM的方法都建立在DROID-SLAM的基礎之上,而我們則提出了一種運用3D重建先驗的新穎方法。
4.2.稠密幾何評估
我們在EuRoCVicon房間序列和7-Scenesseq-01上,針對我們的幾何結果與DROID-SLAM和Spann3R進行評估。對于EuRoC,通過將估計軌跡與Vicon軌跡對齊,從而獲取參考點云和估計點云之間的對齊。需要注意的是,這種設置對DROID-SLAM有利,因其軌跡誤差更低。對于7-Scenes,我們利用數據集提供的位姿對深度圖像進行后投影以創建參考點云。由于未提供RGB和深度傳感器之間的外部校準,隨后使用ICP將其與估計點云對齊。
我們報告了用于評估準確性(定義為每個估計點與其最近參考點之間的距離)和完整性(定義為每個參考點與其最近估計點之間的距離)的均方根誤差(RMSE)。這兩個指標均在最大距離閾值為0.5米的情況下計算,并在所有序列上取平均值。我們還報告了倒角距離,即這兩個指標的平均值。
表3總結了在7-Scenes和EuRoC上的幾何評估結果。對于7-Scenes,我們無論是否進行校準的方法以及Spann3R相較于DROID-SLAM都實現了更精確的重建,突顯了3D先驗的優勢。我們在兩種不同設置下運行Spann3R。其一,每20張圖像獲取一個關鍵幀;其二,每2張圖像獲取一個關鍵幀。這兩種設置的差異顯示出無測試時間優化方法在泛化方面所面臨的挑戰。我們未校準的方法在準確性和倒角距離上表現最佳。這可歸因于7-Scenes提供的內在校準是默認的工廠校準。
對于EuRoC,Spann3R表現不佳,因為這些序列并非以物體為中心,所以被排除在外。如表3所總結,盡管在ATE方面DROID-SLAM優于我們的方法,但我們有/無校準的方法在幾何方面表現更優。DROID-SLAM由于估計出大量圍繞參考點云的噪聲點,從而獲得了更高的完整性,但我們的方法在準確性上顯著更優。有趣的是,我們未校準的系統ATE明顯更大,但在倒角距離上仍優于DROID-SLAM。
4.3.定性結果
圖中展示了具有挑戰性的Burghers序列的重建,該序列在鏡面圖形上幾乎沒有可匹配的特征。我們在圖中展示了TUM的姿態估計和密集重建的示例,在圖中展示了EuRoC的示例。此外,我們在圖7中展示了連續關鍵幀之間存在極端縮放變化的示例。
05 總結
我們提出了一種基于MASt3R的實時稠密SLAM系統,該系統能夠處理野外視頻并取得了最先進的性能。近期SLAM領域的諸多進展都遵循了DROID-SLAM的貢獻,其訓練了一個端到端的框架,通過流更新來求解姿態和幾何問題。我們采用了一種不同的方法,圍繞現成的幾何先驗構建了一個系統,首次實現了可與之媲美的姿態估計,同時還提供了一致的稠密幾何結構。
-
機器人
+關注
關注
211文章
28461瀏覽量
207270 -
SLAM
+關注
關注
23文章
425瀏覽量
31847
原文標題:即插即用!基于3D重建先驗,實時、魯棒、全局一致的稠密SLAM
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論