本文是對(duì)我們ICCV 2023被接收的文章Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling的介紹。在這個(gè)工作中,我們通過生成可靠、多樣且類別平衡的偽3D物體,實(shí)現(xiàn)了單模型多類別同時(shí)自訓(xùn)練,從而將檢測(cè)器自適應(yīng)到目標(biāo)域的三維場(chǎng)景中。很榮幸地,我們的文章被ICCV 2023收錄,目前項(xiàng)目代碼已開源,歡迎大家試用。
論文:https://arxiv.org/abs/2307.07944
代碼(已開源): https://https://github.com/zhuoxiao-chen/ReDB-DA-3Ddet
概述
隨著基于激光雷達(dá)(LiDAR)的三維物體檢測(cè)在機(jī)器人系統(tǒng)和自動(dòng)駕駛汽車等各種應(yīng)用中不斷發(fā)展,解決在實(shí)際場(chǎng)景中部署檢測(cè)器所面臨的挑戰(zhàn)變得愈加重要。主要難題源于訓(xùn)練數(shù)據(jù)和測(cè)試點(diǎn)云數(shù)據(jù)之間的差異,這些數(shù)據(jù)通常來自不同的場(chǎng)景、位置、時(shí)間和傳感器類型,造成了“域差異”。
域差異主要來自于物體差異和環(huán)境差異,這些因素會(huì)顯著降低3D檢測(cè)器的預(yù)測(cè)精度。物體差異指的是訓(xùn)練和測(cè)試域之間物體的空間分布、點(diǎn)密度和尺度的變化。例如,Waymo數(shù)據(jù)集中汽車的平均長度與KITTI數(shù)據(jù)集中的平均長度相差約0.91米。另一方面,環(huán)境差異則源自于周圍環(huán)境的復(fù)合差異,如不一致的光束數(shù)量、角度、點(diǎn)云范圍和數(shù)據(jù)采集位置。
例如,在這個(gè)圖中,Waymo(右)利用64束激光雷達(dá)傳感器生成3D場(chǎng)景,而nuScenes(左)則由更稀疏的32束環(huán)境和雙大束角構(gòu)成。
重新審視領(lǐng)域自適應(yīng)3D檢測(cè)設(shè)置。已有的領(lǐng)域自適應(yīng)3D目標(biāo)檢測(cè)方法通常遵循單類別訓(xùn)練設(shè)置,即對(duì)模型進(jìn)行訓(xùn)練,使其分別適應(yīng)每一個(gè)類別。雖然同時(shí)用所有類別來訓(xùn)練一個(gè)模型更為實(shí)際和公平,但我們的實(shí)證研究表明,在切換到多類別設(shè)置時(shí),先前方法的檢測(cè)性能會(huì)顯著下降(如下圖)。這種平均精度(AP)的下降可以歸因于生成的偽標(biāo)簽的質(zhì)量較差(即錯(cuò)誤和冗余),以及稀有類別的較低識(shí)別準(zhǔn)確率(例如在Waymo中自行車比汽車少91倍)。
將多類別3D檢測(cè)器通過ST3D的方法進(jìn)行領(lǐng)域自適應(yīng)時(shí),平均精度(AP)的降低情況。左圖是從nuScenes到KITTI,右圖是從Waymo到KITTI。
我們的工作將領(lǐng)域自適應(yīng)三維檢測(cè)的設(shè)置修正為多類別情景,并提出了一種新穎的ReDB框架,用于在跨域三維目標(biāo)檢測(cè)中生成可靠、多樣和類平衡的偽標(biāo)簽。在三個(gè)大規(guī)模測(cè)試集上的大量實(shí)驗(yàn)證據(jù)表明,所提出的ReDB對(duì)于基于體素和基于點(diǎn)的現(xiàn)代3D檢測(cè)器在不同環(huán)境下都具有出色的適應(yīng)性,在nuScenes → KITTI任務(wù)中,分別相對(duì)于現(xiàn)有最先進(jìn)的方法提高了20.66%和23.15%的3D mAP。
方法
1)總體框架
在第一階段,3D檢測(cè)器(例如,SECOND或PointRCNN)在源域上進(jìn)行預(yù)訓(xùn)練,同時(shí)使用隨機(jī)物體縮放(ROS)進(jìn)行數(shù)據(jù)增強(qiáng)。在預(yù)訓(xùn)練收斂后,即第二階段,將未標(biāo)記的目標(biāo)域點(diǎn)云傳遞給預(yù)訓(xùn)練的檢測(cè)器,以為目標(biāo)域的數(shù)據(jù)生成高置信度的偽標(biāo)簽。具體而言,所產(chǎn)生的偽標(biāo)簽將經(jīng)過跨域檢查(Cross-Domain Examination,簡稱CDE),并由基于重疊框計(jì)數(shù)(Overlapped Box Counting,簡稱OBC)的多樣性模塊進(jìn)行下采樣,形成可靠且多樣化的(RED)的偽標(biāo)簽物體子集。在第三階段對(duì)目標(biāo)域進(jìn)行模型自訓(xùn)練時(shí),我們以類平衡的方式在每個(gè)點(diǎn)云中隨機(jī)注入RED目標(biāo)域物體和源域?qū)ο螅⑶以礃颖镜谋壤饾u降低。3D檢測(cè)器通過在第二階段和第三階段之間交替進(jìn)行,迭代地進(jìn)行以適應(yīng)目標(biāo)域的環(huán)境。
2)可靠性:跨域檢查(CDE)
為了消除高置信度的錯(cuò)誤偽標(biāo)簽并避免自訓(xùn)練中的錯(cuò)誤累積,我們引入了一種跨域檢查(CDE)策略來評(píng)估偽標(biāo)簽的可靠性。在將偽標(biāo)簽的目標(biāo)域的物體復(fù)制到模型所熟悉的源域環(huán)境中再進(jìn)行預(yù)測(cè),我們通過目標(biāo)域和源域中兩個(gè)預(yù)測(cè)框之間的一致性,即交并比(Intersection-over-Union,IoU)來衡量偽標(biāo)簽的可靠性。任何 IoU 值較低的物體都將被視為不可靠。為了防止源域和目標(biāo)域點(diǎn)云之間的點(diǎn)沖突,我們會(huì)刪除落在將復(fù)制偽標(biāo)簽物體區(qū)域內(nèi)的源域點(diǎn)。所提出的CDE策略確保接受的偽標(biāo)簽物體是領(lǐng)域無關(guān)的,并且受環(huán)境差異的影響較小。
所提出的跨域檢查(CDE)策略。藍(lán)色點(diǎn)為被復(fù)制到源域點(diǎn)云的偽標(biāo)簽物體。紅色和黃色框分別表示目標(biāo)域和源域中的預(yù)測(cè)框。綠色框?yàn)檎嬷担谶@里僅作參考。例子一:目標(biāo)域和源域的預(yù)測(cè)框之間IoU足夠大,該偽標(biāo)簽可靠性被接受;例子二和三:源域中未被檢測(cè)到,或IoU不夠大,該偽標(biāo)簽可靠性不被接受。
3)多樣性:基于OBC的下采樣
為了避免頻繁出現(xiàn)且在尺度上相似的冗余偽標(biāo)簽,必須防止訓(xùn)練的檢測(cè)器塌陷到一個(gè)固定的模式中,這種模式可能只會(huì)檢測(cè)到某些固定模式的物體(如小型汽車),而漏掉其他風(fēng)格特殊的物體(如公共汽車和卡車)。為了增強(qiáng)幾何多樣性,我們提出了一個(gè)稱為"重疊框計(jì)數(shù)(OBC)"的指標(biāo)來均勻地下采樣偽標(biāo)簽。該度量的設(shè)計(jì)靈感來自于以下觀察:3D檢測(cè)器傾向于為具有不常見幾何形狀的物體預(yù)測(cè)更多的邊界框,因?yàn)閮H使用少量緊密邊界框難以定位這些物體。我們將每個(gè)檢測(cè)到的物體周圍的回歸邊界框數(shù)目作為OBC,并使用核密度估計(jì)(KDE)來估計(jì)其經(jīng)驗(yàn)分布。然后,我們根據(jù) KDE 的反概率進(jìn)行下采樣,從而有效減少了高密度 OBC 區(qū)域的偽標(biāo)簽數(shù)量,因?yàn)檫@些區(qū)域的物體具有相似且頻繁的幾何形狀。通過從多樣化的偽標(biāo)簽子集中學(xué)習(xí),3D檢測(cè)器可以更好地識(shí)別不同尺度和點(diǎn)密度的物體,潛在地消除物體差異。
重疊框計(jì)數(shù)(OBC)示意圖。上半部分顯示的是在非極大值抑制(NMS)之前生成的圍繞三個(gè)具有不同OBC值的正預(yù)測(cè)物體的預(yù)測(cè)框。下圖展示了所有檢測(cè)到的物體的 OBC 值分布,以及用于多樣下采樣的擬合核密度估計(jì)(KDE,藍(lán)色)和反向核密度估計(jì)(inverse KDE,紅色)。
4)平衡性: 類平衡自訓(xùn)練
盡管前兩個(gè)模塊能夠選擇可靠且多樣化(ReD)的偽標(biāo)簽,但仍存在嚴(yán)重的類間不平衡。為了實(shí)現(xiàn)類平衡的自訓(xùn)練,我們隨機(jī)向每個(gè)目標(biāo)域的點(diǎn)云注入偽標(biāo)簽物體,每個(gè)類別中的樣本數(shù)量相等。通過從這種類別平衡的目標(biāo)域數(shù)據(jù)中學(xué)習(xí),模型能夠更好地掌握目標(biāo)域標(biāo)簽的整體語義。為了實(shí)現(xiàn)從源域數(shù)據(jù)到目標(biāo)域數(shù)據(jù)的平滑過渡,我們首先在最初的訓(xùn)練步中以類平衡的方式用真標(biāo)簽(Gound truth)的源域物體來增強(qiáng)目標(biāo)域數(shù)據(jù)。然后隨著自訓(xùn)練的進(jìn)行,我們逐漸減少源域物體的比例,增加ReD偽標(biāo)簽的數(shù)量。這種漸進(jìn)式的類平衡自訓(xùn)練使模型能夠穩(wěn)定地適應(yīng)目標(biāo)域,增強(qiáng)對(duì)頻繁出現(xiàn)和罕見類別的識(shí)別能力。
實(shí)驗(yàn)
1) SECOND在Waymo → KITTI, Waymo → nuScenes 以及nuScenes → KITTI三個(gè)領(lǐng)域自適應(yīng)任務(wù)上的結(jié)果對(duì)比。
所提出的ReDB在后兩個(gè)任務(wù)(即 Waymo → nuScenes 和 nuScenes → KITTI)中獲得的性能明顯高于第一個(gè)任務(wù)(即 Waymo → KITTI),這表明ReDB對(duì)于適應(yīng)具有較大環(huán)境差異的 3D 場(chǎng)景更加有效。更明顯的是,ReDB方法在所有類別中的表現(xiàn)都很均衡,而所有baslines方法都偏向于最常出現(xiàn)的類別(即汽車),在罕見類別(即行人和騎車人)中表現(xiàn)不佳。總體而言,在跨域三維目標(biāo)檢測(cè)任務(wù)的所有場(chǎng)景中,ReDB優(yōu)于所有baslines方法。
2) SECOND在Waymo → KITTI 以及nuScenes → KITTI 兩個(gè)領(lǐng)域自適應(yīng)任務(wù)上,用困難指標(biāo)來評(píng)估指標(biāo)計(jì)算的結(jié)果對(duì)比。
在從 Waymo 自適應(yīng)到 KITTI 的過程中,所提出的ReDB優(yōu)于SOTA方法ST3D++ 5.81%的3D mAP 。在更具挑戰(zhàn)性的跨域檢測(cè)任務(wù)中(即 nuScenes → KITTI),光束數(shù)量、角度和點(diǎn)云范圍都會(huì)發(fā)生顯著的環(huán)境變化,ReDB比SOTA方法的 mAP 3D 高出 16.55%。因此,當(dāng)使用KITTI指標(biāo)的困難難度指標(biāo)來評(píng)估時(shí),我們的方法遠(yuǎn)遠(yuǎn)超過了baseline方法,這表明ReDB能夠使3D檢測(cè)器有效地泛化到目標(biāo)域中困難的物體。
3) PointRCNN在nuScenes → KITTI 任務(wù)上結(jié)果對(duì)比。
值得注意的是,與MLC-Net和SF-UDA在單類別訓(xùn)練設(shè)定下得到的結(jié)果相比,我們的多類別方法ReDB甚至取得了更卓越的性能(分別提升了10.02%和19.8%),且這兩種方法都是專為基于點(diǎn)的3D檢測(cè)器設(shè)計(jì)的。
4) 重疊方框計(jì)數(shù)(OBC)的案例研究
我們可以看到,大多數(shù)具有較小OBC值(例如,介于5和8之間)的物體通常具備以下特點(diǎn):(1)通常更接近激光雷達(dá)傳感器,(2)具有完整的物體形狀,(3)通常是小尺寸的物體。這些物體通常具有高度相似且完整的幾何特征,構(gòu)成了數(shù)據(jù)集的大部分。相反,具有高OBC值的物體在幾何表示的一個(gè)或多個(gè)方面通常具有多樣性。在物體尺寸方面,大尺寸物體往往會(huì)產(chǎn)生較高的 OBC 分?jǐn)?shù)(如21和26)。除了物體體積外,我們還可以發(fā)現(xiàn)明顯遠(yuǎn)離激光雷達(dá)中心的物體也會(huì)產(chǎn)生較高的 OBC 值(從 16 到 23),而低密度和嚴(yán)重遮擋的物體也會(huì)產(chǎn)生較高的 OBC 值,分別為 18 和 19。因此,所提出的OBC指標(biāo)能夠有效地在幾何特征的多個(gè)維度上量化偽標(biāo)簽的多樣性,有助于三維檢測(cè)器學(xué)習(xí)更多樣化的目標(biāo)物體分布,從而緩解跨域目標(biāo)檢測(cè)中的多維度的物體差異問題。
方法不足與未來展望
盡管我們的方法在性能上相較于以往取得了顯著的提升,但在涉及到域差異極大的三維場(chǎng)景(例如Waymo → nuScenes)時(shí),性能仍然受到限制,距離實(shí)際應(yīng)用場(chǎng)景的要求仍有很大差距。除了域差異,另一個(gè)限制因素是當(dāng)前最先進(jìn)的三維目標(biāo)檢測(cè)器在nuScenes數(shù)據(jù)集上表現(xiàn)受限。因此,近期越來越多的研究方法開始將2D圖像與3D點(diǎn)云進(jìn)行融合,以在nuScenes等困難的數(shù)據(jù)集上獲得更出色的目標(biāo)檢測(cè)效果。工業(yè)界也在積極探索這一融合策略并投入實(shí)際生產(chǎn)應(yīng)用。
因此,未來的跨域目標(biāo)檢測(cè)任務(wù)可能需要考慮多模態(tài)信息,而不僅僅局限于使用單一的點(diǎn)云數(shù)據(jù)。這一發(fā)展趨勢(shì)對(duì)于實(shí)現(xiàn)更全面、魯棒的目標(biāo)檢測(cè)方法具有重要意義。
-
傳感器
+關(guān)注
關(guān)注
2551文章
51177瀏覽量
754275 -
檢測(cè)器
+關(guān)注
關(guān)注
1文章
865瀏覽量
47713 -
目標(biāo)檢測(cè)
+關(guān)注
關(guān)注
0文章
209瀏覽量
15622 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13839瀏覽量
166555
原文標(biāo)題:ICCV 2023 | ReDB:通過可靠、多樣和類平衡的偽標(biāo)簽重新審視跨域3D目標(biāo)檢測(cè)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論