在計算機視覺領域,目標檢測是一項關鍵技術,旨在識別圖像或視頻中感興趣物體的位置與類別。傳統的閉集檢測長期占據主導地位,但近年來,開放詞匯檢測(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)嶄露頭角,為目標檢測帶來了新的活力與可能性。與閉集檢測相比,開放詞匯檢測打破了檢測類別固定的“枷鎖”,它在訓練時利用豐富多樣的文本 - 區域對(text-region pairs)數據,將文本作為類別標簽,大大拓寬了可檢測的范圍。尤其是在機器人感受周圍環境的任務中,能夠起到極大的幫助。
目前主流的開放詞匯檢測算法有Grounding-DINO系列和YOLO-World。在海量的私有數據集的加持下,前者具有非常強大的檢測能力,精度遙遙領先,其模型依賴參數量較大的Transformer結構,實時性較弱。后者依賴輕量級的Convolution結構,能夠達到實時推理的效率,精度上依然不錯。
DOSOD(Decoupled Open-Set Object Detection)是地瓜機器人最新發布的開放詞匯目標檢測算法,力求在低算力邊緣端實現更高的推理效率,同時帶來比YOLO-World更具競爭力的精度表現。在算法上,DOSOD采用了獨特的解耦特征對齊策略,摒棄了傳統的圖像-文本交互方式,通過基于MLPs的特征適配模塊對圖像與文本的特征進行優化與對齊,進一步提升了模型的推理效率和精度。
實驗結果顯示,DOSOD在多個公開數據集(如LVIS)上的表現超越了YOLO-World-v2,并在邊緣AI計算平臺上展現了壓倒性的效率優勢。
文章開源地址:https://arxiv.org/abs/2412.14680
代碼開源地址:https://github.com/D-Robotics-AI-Lab/DOSOD
文章由地瓜機器人應用算法部,中科院自動化所多模態人工智能系統全國重點實驗室,蘇州大學未來學院,上海科技大學信息科學技術學院聯合出品。
DOSOD的基本原理
目前主流的開放詞匯檢測對齊策略主要分為以下三種:
(a) 教師 - 學生蒸餾方法
- 描述:利用 VLM(視覺語言模型)的文本編碼器生成的文本嵌入來監督圖像特征和檢測器特征的對齊。也可以通過裁剪圖像區域來對齊特征。
- 總結:通過 VLM 的文本編碼器來指導圖像和檢測器特征的對齊。
(b) 基于交互的對齊策略
- 描述:文本嵌入與檢測器骨干網絡提取的圖像特征進行交互,以實現對齊。
- 總結:通過文本嵌入與圖像特征的交互來實現特征對齊。
(c) 提出的解耦對齊策略
- 描述:在不進行交互的情況下對齊特征,通過視覺 - 語言特征適配來實現。
- 總結:采用解耦方式,不依賴交互來進行特征對齊。
DOSOD(Decoupled Open-Set Object Detection) 屬于第三種開放詞匯檢測對齊策略——解耦對齊策略。該方法的核心思想是通過將文本和圖像模態的特征解耦,以實現更高效的對齊過程,從而在保證檢測精度的同時大幅提升推理速度。
在此基礎上,DOSOD洞察到了閉集檢測與開放詞匯檢測之間的本質聯系,提出了全新的結構框架(如上圖所示)。具體來說,DOSOD將傳統分類分支最后的卷積操作等價地解構為兩個模態的特征對齊操作,從而激發出解耦的特征學習和共同空間對齊的結構。
在該框架中,類別標簽文本首先通過一個文本編碼器(來自VLM)生成初步的Text Embedding,然后經過一個基于MLPs的特征適應模塊,對Text Embedding進行特征優化,為Joint Space中的對齊操作做準備。
在圖像側,DOSOD使用經典的單階段目標檢測器(文中使用了YOLOv8)來提取圖像的多尺度特征圖。每個特征點表示圖像中的一個區域特征。最后,在Joint Space中,通過計算Text Embedding與Region Feature之間的相似度,從而完成特征對齊。
DOSOD的實驗結果
在實驗部分,DOSOD在公開數據集上進行了預訓練,并在LVIS和COCO數據集上進行了Zero-shot驗證。DOSOD均擁有優秀的精度表現:
- 在LVIS數據集上,相較于YOLO-World-v2,DOSOD精度全面領先,并與YOLO-World-v1不分伯仲。
- 在COCO數據集上,DOSOD整體精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上說明,COCO由于詞匯豐富程度較低,不太適用于開放詞匯檢測任務評測。
在推理速度上,通過將DOSOD與YOLO-World在NVIDIA RTX 4090和D-Robotics RDK X5上進行全面對比,我們可以看到:
- DOSOD在主流的服務器級別的芯片上,推理效率是顯著高于YOLO-World。
- 在邊緣側的AI計算平臺上,DOSOD以碾壓式的效率提升,遠遠超越YOLO-World。
DOSOD的應用效果
DOSOD開放詞匯檢測算法有著廣泛的應用場景,既能用于常規檢測任務里的目標檢測,也可以應用在特殊場景下長尾目標類型的檢測任務當中。針對某些極端長尾的目標類型,只需收集少量相關數據進行微調,就能顯著提高模型的穩定性和檢測效果。
- DOSOD 在常規目標檢測上的檢測效果
在閉集目標檢測任務中,COCO數據集預先定義了80個固定類別。我們可以看到,在經過大數據量的開放詞匯數據集預訓練后,DOSOD能夠檢測出諸多長尾類別,如圖2左下角的“heater”,圖4中的“shoe”和“wheel”,而這些詞匯并未包含在COCO數據集的80個類別之內。
- DOSOD 在特殊場景的長尾類別上的檢測效果
以下展示的是掃地機視角下的圖像,任務要求是檢測出地面上的各類污漬或障礙物,這些類別并不是常規目標檢測任務中的標準類別。通過少量數據的微調,DOSOD成功識別了這些特殊類別,為在該場景中準確檢測出多樣化的長尾類別發揮了關鍵作用。
DOSOD作為一款新興的開放詞匯檢測算法,憑借創新的解耦特征對齊策略,在提升推理效率的同時,成功地保證了精度,展示出了極強的應用潛力。未來,隨著計算資源的提升與算法的不斷優化,DOSOD有望在機器人、自動駕駛、智能家居等領域提供更加高效精準的目標檢測解決方案。
作為地瓜機器人前沿算法研究的最新成果,DOSOD不僅在精度上超越了對標方法,更成功解決了推理效率與低算力設備適應性之間的挑戰,為智能機器人技術的普及與發展提供了有力支持。
未來,地瓜機器人將秉承“成為機器人時代的Wintel”的品牌初心,持續與客戶一同深入應用場景,在提供擁有極致性能表現的硬件的同時,為行業客戶和開發者提供豐富的具有實用價值的算法,加速機器人技術的落地和廣泛應用。
-
機器人
+關注
關注
211文章
28632瀏覽量
207979 -
算法
+關注
關注
23文章
4629瀏覽量
93192 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239629 -
RDK
+關注
關注
0文章
8瀏覽量
9057
發布評論請先 登錄
相關推薦
評論