本文提出了一種即插即用的單目SLAM系統(tǒng),能夠在15FPS的幀率下生成全局一致的位姿和稠密幾何圖形。
01 本文核心內(nèi)容
視覺SLAM乃是當(dāng)今機(jī)器人技術(shù)與增強(qiáng)現(xiàn)實(shí)產(chǎn)品的基礎(chǔ)性構(gòu)建模塊。通過精心設(shè)計(jì)的集成式硬件與軟件堆棧,實(shí)現(xiàn)穩(wěn)健且精準(zhǔn)的視覺SLAM已成為可能。然而,SLAM尚未能成為一種即插即用的算法,因其需要硬件方面的專業(yè)知識(shí)以及校準(zhǔn)操作。即便對(duì)于僅配備單個(gè)攝像頭且無諸如IMU等額外傳感器的最簡(jiǎn)設(shè)置而言,也不存在一種能夠在野外可靠地同時(shí)提供準(zhǔn)確姿態(tài)和一致稠密地圖的SLAM解決方案。達(dá)成如此可靠的稠密SLAM系統(tǒng)將為空間智能研究開辟新的方向。
僅依靠2D圖像來執(zhí)行稠密SLAM時(shí),需要對(duì)隨時(shí)間變化的姿態(tài)、相機(jī)模型以及3D場(chǎng)景幾何進(jìn)行推理。為解決這種高維度的逆問題,從手工構(gòu)建到數(shù)據(jù)驅(qū)動(dòng)的各類先驗(yàn)知識(shí)已被提出。單視圖先驗(yàn),如單目深度和法向量,試圖從單張圖像預(yù)測(cè)幾何結(jié)構(gòu),但其中存在歧義并且在不同視圖間缺乏一致性。雖然諸如光流之類的多視圖先驗(yàn)降低了歧義性,但要解耦姿態(tài)和幾何結(jié)構(gòu)卻頗具挑戰(zhàn),因?yàn)橄袼剡\(yùn)動(dòng)取決于外部參數(shù)和相機(jī)模型。盡管這些潛在原因可能會(huì)隨時(shí)間和不同觀察者而變化,但3D場(chǎng)景在不同視圖中保持不變。因此,從圖像中求解姿態(tài)、相機(jī)模型和稠密幾何所需的統(tǒng)一先驗(yàn)必須處于共同坐標(biāo)系下的3D幾何空間中。
近期,由DUSt3R及其后續(xù)的MASt3R開創(chuàng)的雙視圖3D重建先驗(yàn),通過利用精心整理的3D數(shù)據(jù)集,在結(jié)構(gòu)從運(yùn)動(dòng)(SfM)領(lǐng)域引發(fā)了范式轉(zhuǎn)變。這些網(wǎng)絡(luò)能直接從處于共同坐標(biāo)系的兩張圖像中輸出點(diǎn)圖,使得上述子問題在聯(lián)合框架中得以隱式求解。未來,這些先驗(yàn)將在具有顯著失真的各類相機(jī)模型上接受訓(xùn)練。雖然3D先驗(yàn)可以納入更多視圖,但SfM和SLAM利用空間稀疏性并避免冗余以實(shí)現(xiàn)大規(guī)模一致性。雙視圖架構(gòu)將雙視圖幾何作為SfM的構(gòu)建模塊,這種模塊化特性為高效決策和后端的穩(wěn)健共識(shí)開啟了大門。
在本項(xiàng)工作中,我們提出了首個(gè)以雙視圖3D重建先驗(yàn)作為跟蹤、映射和重定位的統(tǒng)一基礎(chǔ)的實(shí)時(shí)SLAM框架,如圖1所示。盡管先前的工作已將這些先驗(yàn)應(yīng)用于無序圖像集合的離線SfM場(chǎng)景中,但SLAM是遞增式接收數(shù)據(jù)并且必須維持實(shí)時(shí)運(yùn)行。這就需要對(duì)低延遲匹配、精心的地圖維護(hù)以及大規(guī)模優(yōu)化的高效方法持有新的觀點(diǎn)。此外,受SLAM中的濾波和優(yōu)化技術(shù)啟發(fā),我們?cè)谇岸藢?duì)點(diǎn)圖進(jìn)行局部濾波,以在后端實(shí)現(xiàn)大規(guī)模全局優(yōu)化。我們的系統(tǒng)對(duì)每張圖像的相機(jī)模型除了所有光線都通過的唯一相機(jī)中心外不做任何假設(shè)。這造就了一個(gè)能夠重建具有通用、隨時(shí)間變化的相機(jī)模型場(chǎng)景的實(shí)時(shí)稠密單目SLAM系統(tǒng)。在給定校準(zhǔn)的情況下,我們還在軌跡精度和稠密幾何估計(jì)方面展現(xiàn)出了最先進(jìn)的性能。
02 主要貢獻(xiàn)
? 首個(gè)以雙視圖3D重建先驗(yàn)MASt3R作為基礎(chǔ)的實(shí)時(shí)SLAM系統(tǒng)。
? 用于點(diǎn)圖匹配、跟蹤與局部融合、圖構(gòu)建與閉環(huán)以及二階全局優(yōu)化的高效技術(shù)。
? 一個(gè)能夠處理通用、隨時(shí)間變化的相機(jī)模型的最先進(jìn)的稠密SLAM系統(tǒng)。
03 方法架構(gòu)
在圖3中概述了該方法的主要組成部分:MASt3R預(yù)測(cè)和點(diǎn)云匹配、跟蹤和局部融合、閉環(huán)處理和全局優(yōu)化。
新圖像通過MASt3R預(yù)測(cè)點(diǎn)圖,并利用我們高效的迭代投影點(diǎn)圖匹配來尋找像素匹配,從而與當(dāng)前關(guān)鍵幀進(jìn)行跟蹤。跟蹤過程會(huì)估計(jì)當(dāng)前位姿并執(zhí)行局部點(diǎn)圖融合。當(dāng)新的關(guān)鍵幀添加到后端時(shí),利用編碼的MASt3R特征對(duì)檢索數(shù)據(jù)庫進(jìn)行查詢,從而選出閉環(huán)候選。隨后,MASt3R對(duì)候選進(jìn)行解碼,若找到足夠數(shù)量的匹配,則向后端圖添加邊。大規(guī)模二階優(yōu)化實(shí)現(xiàn)了位姿和密集幾何的全局一致性。
04 結(jié)果
4.1.相機(jī)位姿估計(jì)
TUMRGB-D:在TUM數(shù)據(jù)集上,如表1所示,當(dāng)利用校準(zhǔn)信息時(shí),我們展現(xiàn)出了在軌跡誤差方面的最先進(jìn)水平。許多此前表現(xiàn)最佳的算法,例如DROID-SLAM、DPV-SLAM以及GO-SLAM,都是基于DROID-SLAM所提出的基礎(chǔ)匹配和端到端系統(tǒng)構(gòu)建的。相較而言,我們提出了一個(gè)獨(dú)特的系統(tǒng),采用了現(xiàn)成的雙視圖幾何先驗(yàn),并表明其能夠在實(shí)時(shí)運(yùn)行的情況下超越其他所有系統(tǒng)。此外,我們未校準(zhǔn)的系統(tǒng)顯著優(yōu)于一個(gè)基準(zhǔn),我們將其標(biāo)記為DROID-SLAM*,該基準(zhǔn)在序列的首張圖像上使用GeoCalib來校準(zhǔn)內(nèi)參,然后供DROID-SLAM使用。我們?cè)跓o需在整個(gè)序列中假定固定相機(jī)模型的情況下實(shí)現(xiàn)了這一成果,并展示了在未校準(zhǔn)的稠密SLAM中3D先驗(yàn)相對(duì)于解決子問題的先驗(yàn)的價(jià)值。我們未校準(zhǔn)的SLAM結(jié)果也可與諸如DPV-SLAM等已知校準(zhǔn)的其他近期學(xué)習(xí)技術(shù)的結(jié)果相媲美。
7-Scenes:我們依照NICER-SLAM的方式使用相同的序列進(jìn)行評(píng)估,如表2所示。我們校準(zhǔn)后的系統(tǒng)在性能上優(yōu)于NICER-SLAM和DROIDSLAM。此外,我們使用單個(gè)3D重建先驗(yàn)的實(shí)時(shí)未校準(zhǔn)系統(tǒng)在性能上優(yōu)于NICER-SLAM,后者在深度、法線和光流網(wǎng)絡(luò)中使用多個(gè)先驗(yàn)且離線運(yùn)行。
ETH3D-SLAM:由于其難度較大,ETH3D-SLAM僅針對(duì)RGB-D方法進(jìn)行了評(píng)估。由于官方私有評(píng)估中的ATE閾值對(duì)于單目方法而言過于嚴(yán)格,我們?cè)谟?xùn)練序列上對(duì)幾款最先進(jìn)的單目系統(tǒng)進(jìn)行了評(píng)估,并生成了ATE曲線。該數(shù)據(jù)集包含具有快速相機(jī)運(yùn)動(dòng)的序列,因此對(duì)于所有方法,我們均未對(duì)幀進(jìn)行下采樣。雖然其他方法可能具有更精確的軌跡,但我們的方法在魯棒性方面具有更出色的表現(xiàn),在ATE和曲線下面積(AUC)方面均取得了最佳結(jié)果。
EuRoC:我們?cè)诒?中報(bào)告了所有11個(gè)EuRoC序列的平均ATE。對(duì)于未校準(zhǔn)的情況,我們發(fā)現(xiàn)由于MASt3R尚未針對(duì)此類相機(jī)模型進(jìn)行訓(xùn)練,所以畸變過于顯著,因此我們對(duì)圖像進(jìn)行了去畸變處理,但未向其余管道提供校準(zhǔn)信息。總體而言,我們的系統(tǒng)在性能上不如DROID-SLAM,但其明確在訓(xùn)練中加入了10%的灰度圖像。不過,0.041米的ATE仍然非常準(zhǔn)確,從中的比較來看,所有優(yōu)于DROID-SLAM的方法都建立在DROID-SLAM的基礎(chǔ)之上,而我們則提出了一種運(yùn)用3D重建先驗(yàn)的新穎方法。
4.2.稠密幾何評(píng)估
我們?cè)贓uRoCVicon房間序列和7-Scenesseq-01上,針對(duì)我們的幾何結(jié)果與DROID-SLAM和Spann3R進(jìn)行評(píng)估。對(duì)于EuRoC,通過將估計(jì)軌跡與Vicon軌跡對(duì)齊,從而獲取參考點(diǎn)云和估計(jì)點(diǎn)云之間的對(duì)齊。需要注意的是,這種設(shè)置對(duì)DROID-SLAM有利,因其軌跡誤差更低。對(duì)于7-Scenes,我們利用數(shù)據(jù)集提供的位姿對(duì)深度圖像進(jìn)行后投影以創(chuàng)建參考點(diǎn)云。由于未提供RGB和深度傳感器之間的外部校準(zhǔn),隨后使用ICP將其與估計(jì)點(diǎn)云對(duì)齊。
我們報(bào)告了用于評(píng)估準(zhǔn)確性(定義為每個(gè)估計(jì)點(diǎn)與其最近參考點(diǎn)之間的距離)和完整性(定義為每個(gè)參考點(diǎn)與其最近估計(jì)點(diǎn)之間的距離)的均方根誤差(RMSE)。這兩個(gè)指標(biāo)均在最大距離閾值為0.5米的情況下計(jì)算,并在所有序列上取平均值。我們還報(bào)告了倒角距離,即這兩個(gè)指標(biāo)的平均值。
表3總結(jié)了在7-Scenes和EuRoC上的幾何評(píng)估結(jié)果。對(duì)于7-Scenes,我們無論是否進(jìn)行校準(zhǔn)的方法以及Spann3R相較于DROID-SLAM都實(shí)現(xiàn)了更精確的重建,突顯了3D先驗(yàn)的優(yōu)勢(shì)。我們?cè)趦煞N不同設(shè)置下運(yùn)行Spann3R。其一,每20張圖像獲取一個(gè)關(guān)鍵幀;其二,每2張圖像獲取一個(gè)關(guān)鍵幀。這兩種設(shè)置的差異顯示出無測(cè)試時(shí)間優(yōu)化方法在泛化方面所面臨的挑戰(zhàn)。我們未校準(zhǔn)的方法在準(zhǔn)確性和倒角距離上表現(xiàn)最佳。這可歸因于7-Scenes提供的內(nèi)在校準(zhǔn)是默認(rèn)的工廠校準(zhǔn)。
對(duì)于EuRoC,Spann3R表現(xiàn)不佳,因?yàn)檫@些序列并非以物體為中心,所以被排除在外。如表3所總結(jié),盡管在ATE方面DROID-SLAM優(yōu)于我們的方法,但我們有/無校準(zhǔn)的方法在幾何方面表現(xiàn)更優(yōu)。DROID-SLAM由于估計(jì)出大量圍繞參考點(diǎn)云的噪聲點(diǎn),從而獲得了更高的完整性,但我們的方法在準(zhǔn)確性上顯著更優(yōu)。有趣的是,我們未校準(zhǔn)的系統(tǒng)ATE明顯更大,但在倒角距離上仍優(yōu)于DROID-SLAM。
4.3.定性結(jié)果
圖中展示了具有挑戰(zhàn)性的Burghers序列的重建,該序列在鏡面圖形上幾乎沒有可匹配的特征。我們?cè)趫D中展示了TUM的姿態(tài)估計(jì)和密集重建的示例,在圖中展示了EuRoC的示例。此外,我們?cè)趫D7中展示了連續(xù)關(guān)鍵幀之間存在極端縮放變化的示例。
05 總結(jié)
我們提出了一種基于MASt3R的實(shí)時(shí)稠密SLAM系統(tǒng),該系統(tǒng)能夠處理野外視頻并取得了最先進(jìn)的性能。近期SLAM領(lǐng)域的諸多進(jìn)展都遵循了DROID-SLAM的貢獻(xiàn),其訓(xùn)練了一個(gè)端到端的框架,通過流更新來求解姿態(tài)和幾何問題。我們采用了一種不同的方法,圍繞現(xiàn)成的幾何先驗(yàn)構(gòu)建了一個(gè)系統(tǒng),首次實(shí)現(xiàn)了可與之媲美的姿態(tài)估計(jì),同時(shí)還提供了一致的稠密幾何結(jié)構(gòu)。
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
28888瀏覽量
209515 -
SLAM
+關(guān)注
關(guān)注
23文章
428瀏覽量
31995
原文標(biāo)題:即插即用!基于3D重建先驗(yàn),實(shí)時(shí)、魯棒、全局一致的稠密SLAM
文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
從基本原理到應(yīng)用的SLAM技術(shù)深度解析

SLAM技術(shù)的應(yīng)用及發(fā)展現(xiàn)狀
請(qǐng)問怎樣去設(shè)計(jì)一種天線實(shí)時(shí)測(cè)量系統(tǒng)?
如何去實(shí)現(xiàn)一種MP3實(shí)時(shí)解碼系統(tǒng)的設(shè)計(jì)?
如何去實(shí)現(xiàn)一種實(shí)時(shí)圖像采集系統(tǒng)的設(shè)計(jì)?
請(qǐng)問怎樣去設(shè)計(jì)一種實(shí)時(shí)視頻采集系統(tǒng)?
HOOFR-SLAM的系統(tǒng)框架及其特征提取
一種實(shí)時(shí)數(shù)據(jù)管理系統(tǒng)的開發(fā)
VIL-SLAM系統(tǒng)可實(shí)現(xiàn)獲得更好的回環(huán)約束

一種基于直接法的動(dòng)態(tài)稠密SLAM方案
一種智慧型水質(zhì)實(shí)時(shí)監(jiān)測(cè)系統(tǒng)設(shè)計(jì)

什么是SLAM?基于3D高斯輻射場(chǎng)的SLAM優(yōu)勢(shì)分析
一種適用于動(dòng)態(tài)環(huán)境的實(shí)時(shí)視覺SLAM系統(tǒng)

一種全新開源SfM框架MASt3R

評(píng)論