語義同步定位與建圖(SLAM)系統在對鄰近的語義相似物體進行建圖時面臨困境,特別是在復雜的室內環境中。本文提出了一種面向對象SLAM的語義增強(SEO-SLAM)的新型SLAM系統,借助視覺語言模型(VLM)和多模態大語言模型(MLLMs)來強化此類環境中的對象級語義映射。
? 文章:
Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models
? 作者:
Jungseok Hong, Ran Choi, John J. Leonard
? 論文鏈接:
https://arxiv.org/abs/2411.06752
? 編譯:
INDEMIND
? 數據集:
jungseokhong.com/SEO-SLAM
01 本文核心內容
SLAM已從專注于幾何精度演變為融合語義信息,增強了其在諸如導航、操作和規劃等下游任務中的效用。這一演進與計算機視覺和深度學習的進步相契合,引入了更豐富且更精確的環境表征。近期在基礎模型方面的發展,例如大語言模型(LLM)、視覺語言模型(VLM)、以及多模態大語言模型(MLLM),已表明它們能夠在開放式詞匯設定下從數據中提取語義信息。若干研究顯示,基礎模型能夠對給定的包含語義特征的場景或地圖進行空間推理。除了建圖,還有研究提出了運用基礎模型的語義SLAM。
盡管取得了這些進展,語義SLAM仍存在關鍵挑戰:(1)當探測器僅提供通用標簽(例如,所有鞋子均用“鞋”表示)時,難以區分緊鄰的相似物體。這導致相似物體融合為一個單一地標,如圖1a所示。(2)錯誤地標在長時間維持地圖一致性方面構成重大挑戰。此問題可能由傳感器測量的不確定性或場景變化引起,尤其在雜亂和動態的環境中。(3)對象探測器易受其訓練數據集中固有偏差的影響,導致某些對象存在持續的語義錯誤。
為應對這些挑戰,我們旨在利用基礎模型的語義理解能力和SLAM的空間精度來構建在語義和空間上均一致的地圖。基礎模型具有強大的語義理解能力,但在沒有預先構建且嵌入語義特征的地圖時,空間推理能力有限。相反,SLAM系統擅長捕獲空間信息,但往往難以維持可靠的語義信息。通過整合這些優勢,我們提出了對象SLAM的語義增強(SemanticEnhancementforObjectSLAM,SEO-SLAM)這一新穎方法,該方法利用VLM和MLLM實現語義SLAM。
我們在具有挑戰性的數據集上對SEO-SLAM進行評估,其在存在多個相似物體的環境中的準確性和穩健性明顯提升。我們的系統在路標匹配精度和語義一致性方面優于現有方法。結果表明,MLLM的反饋改進了以對象為中心的語義映射。
02 主要貢獻
1.將圖像標記、基于標簽的定位以及分割模型整合到SLAM流程中,以實現描述性開放式詞匯對象檢測,并優化地標的語義信息。
2.利用MLLMs為現有地標生成更具描述性的標簽,并校正錯誤地標以減少感知混淆。
3.提出一種使用MLLM響應來更新多類別預測混淆矩陣并識別重復地標的方法。
4.實驗結果表明,在具有多個緊鄰相似對象的具有挑戰性的場景中,對象語義映射精度得到了提高。
5.引入在單個場景中具有語義相似對象的數據集,其中包含里程計、真實軌跡數據和真實對象信息。
03 方法架構
SEO-SLAM旨在通過整合豐富的語義信息來解決MAP問題。為了適應開放式詞匯表的語義,我們僅使用幾何信息來優化MAP問題,并利用我們測量中的語義和幾何信息之間的聯系。這通過融合來自檢測器和深度圖像的語義信息來實現。我們的方法可以處理開放式詞匯表的語義類別,無需為多類預測混淆矩陣的類預測統計信息提供先驗知識。圖2展示了我們SEO-SLAM管道的整體架構。
04 實驗
A.數據采集
我們在室內房間環境中采集了六個涵蓋日常物品的數據集(見表II)。依據現存物體的數量,我們將這些數據集歸類為小(約10個)、中(約20個)或大(約30個)類別。我們采用ZED2i立體相機來收集RGB圖像及里程數據。通過OptiTrack運動捕捉系統獲取真實軌跡。為構建具有挑戰性的場景,我們將相同類別的物體放置得較為臨近。
B.實驗設置
我們運用RAM++大型模型(加上swin大型模型)進行圖像標注,并濾除那些過于寬泛且不代表單個物體的標簽(例如,“坐”、“白色”、“許多物體”)。對象定位由GroundingDINO大型模型(swinbcogcoor)處理,而分割任務則使用帶有ViT-H模型的SAM完成。在我們的RGS模型中,我們將置信度閾值設為0.5,將GroundingDINO的IoU閾值設為0.5。對于MLLMs,我們利用ChatGPTAPI(gpt-4o版本),在LandmarkEval和ClassLabelGen中均使用默認設置,并異步執行以優化我們的系統速度。
我們針對這六個數據集(見表II)開展了實驗。我們的評估指標涵蓋地標語義的準確性、錯誤地標的數量以及絕對位姿誤差(APE)。我們對三種方法進行了比較:我們的SEO-SLAM方法,其使用RGS作為對象檢測器,并結合基于MLLM的反饋來細化地標;單獨使用RGS的方法,其運用RAM-Grounded-SAM進行開放詞匯檢測,且無MLLM反饋;以及YOLO方法(基準線),使用預先訓練的YOLOv8進行對象檢測。這種實驗設置使我們能夠全面評估在開放詞匯環境中不同數據集和方法的語義映射性能以及軌跡精度。
C.結果
表III全面展示了在六個復雜程度各異的數據集上,我們的方法、RGS與YOLO之間語義映射性能的對比情況。結果表明,在語義準確性及地標數量估計方面,我們的方法始終優于其他兩種方法。在多數數據集中,我們的方法達到了最高的精度和F1分數,這表明借助反饋,語義準確性得到了提升。在SM1、MD1和LG2中這一情況尤為顯著,我們的方法保持了穩定的性能,而RGS和YOLO的表現則有所下降。值得注意的是,與其他方法相比,我們的方法通常產生的假陽性地標更少,這顯示出其在復雜環境中的更強魯棒性。我們的方法表現出色,這可歸因于其能夠利用MLLM反饋來細化地標描述并降低感知混疊。然而,在LG1中,我們的方法與RGS的表現相近,原因是每個幀中的物體數量較多,從而降低了MLLM反饋的質量。總體而言,結果證明了SEO-SLAM在提高語義映射準確性和減少假陽性方面,在各種環境復雜度下都是有效的。
我們還評估了每種方法相對于里程計的軌跡誤差(圖5)。在所有數據集中,我們的方法始終顯示出更低的中位APE。RGS也表現良好,其中位誤差較低,異常值少于YOLO。YOLO顯示出最高的中位誤差和異常值,因為YOLO只能檢測訓練數據集中的物體。這表明我們的開放式詞匯檢測器在各種條件下更具穩健性和準確性。圖4展示了MD1數據集的定性結果。SEO-SLAM成功區分了鄰近的物體,并展示了其根據場景變化更新語義地圖的能力。雖然SEO-SLAM能夠捕獲大多數物體,但當物體過于靠近時,有時也會遇到困難。例如,它在場景中僅繪制了一本書。
D.局限性
雖然SEO-SLAM在語義映射方面取得了顯著的改進,但仍需承認存在一些局限性。我們發現,在SEO-SLAM中,MLLM難以從顏色相近且同屬一類的物體中生成非基于顏色的獨特標簽。此外,其性能對環境光照條件敏感,這可能會影響基于顏色的物體識別性能。未來,我們計劃通過元提示,使MLLM能夠依據物體的獨特特征生成標簽,以解決這些問題。
05 總結
我們提出了一種被命名為 SEO-SLAM 的創新方法,旨在擁擠的室內環境中強化對象級語義映射。此方法借助基礎模型的語義理解能力,通過引入 MLLMs 的反饋來化解現有語義 SLAM 系統中的關鍵難題。借助反饋,SEO-SLAM 能夠生成更具描述性的開放式詞匯對象標簽,同步校正導致虛假地標的諸因素,并動態更新多類混淆矩陣。實驗結果顯示,SEO-SLAM 在不同復雜程度的數據集上始終優于基線方法,提升了語義準確性、地標估計精度和軌跡準確性。該方法尤其善于降低假陽性地標數量,并增強在存在多個相似對象環境中的穩健性。故而,SEO-SLAM 標志著將基礎模型的語義理解能力與 SLAM 系統的空間精度相融合的重大進展。本文為在復雜動態的環境中達成更精確且穩健的語義映射開辟了嶄新的路徑。(想要了解更多文章細節的讀者,可以閱讀一下論文原文~)
-
模型
+關注
關注
1文章
3226瀏覽量
48807 -
SLAM
+關注
關注
23文章
423瀏覽量
31820 -
LLM
+關注
關注
0文章
286瀏覽量
327
原文標題:更準確,更魯棒!利用VLM和MLLMs實現SLAM語義增強
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論