色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepFusion:基于激光雷達(dá)和相機(jī)深度融合的多模態(tài)3D目標(biāo)檢測(cè)

3D視覺(jué)工坊 ? 來(lái)源:同濟(jì)智能汽車研究所 ? 2023-03-31 09:49 ? 次閱讀

編者按:不確定環(huán)境下的自動(dòng)駕駛的自主決策源于對(duì)當(dāng)前環(huán)境的準(zhǔn)確判斷,從根本上來(lái)說(shuō),環(huán)境感知技術(shù)是實(shí)現(xiàn)自動(dòng)駕駛需要解決的首要問(wèn)題。目前基于激光雷達(dá)與相機(jī)融合的目標(biāo)感知在高級(jí)別自動(dòng)駕駛汽車的環(huán)境感知領(lǐng)域中非常流行,依據(jù)傳感器到融合中心的數(shù)據(jù)處理程度從高到低可以劃分為后融合、深度融合和前融合,后融合在提升感知精度方面能力有限,前融合對(duì)硬件帶寬和算力要求高,因而深度融合成為實(shí)現(xiàn)準(zhǔn)確目標(biāo)檢測(cè)的主流趨勢(shì)。深度融合的難點(diǎn)之一在于如何解決兩種模態(tài)經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的特征對(duì)齊問(wèn)題,基于此本文提出了一種通用多模態(tài)融合3D目標(biāo)檢測(cè)模型DeepFusion,引入了兩種新技術(shù)InverseAug和LearnableAlign,能夠作為插件,應(yīng)用于現(xiàn)有的單激光雷達(dá)3D目標(biāo)檢測(cè)方法中,在Waymo數(shù)據(jù)集上驗(yàn)證了所提方法的有效性和魯棒性。

摘要:激光雷達(dá)和相機(jī)是為自動(dòng)駕駛中的3D目標(biāo)檢測(cè)提供互補(bǔ)信息的關(guān)鍵傳感器。流行的多模態(tài)方法[34,36]只是簡(jiǎn)單地用相機(jī)特征來(lái)裝飾原始激光雷達(dá)點(diǎn)云,并將其直接輸入現(xiàn)有的3D目標(biāo)檢測(cè)模型,但我們的研究表明,將相機(jī)特征與激光雷達(dá)深度特征而不是原始點(diǎn)融合,可以帶來(lái)更好的性能。然而,由于這些特征經(jīng)常被增廣和聚合,融合中的一個(gè)關(guān)鍵挑戰(zhàn)是如何有效地對(duì)齊來(lái)自兩種模態(tài)的轉(zhuǎn)換后的特征。在本文中,我們提出了兩種新技術(shù):InverseAug,其反轉(zhuǎn)與幾何相關(guān)的數(shù)據(jù)增強(qiáng)(例如:旋轉(zhuǎn)),以實(shí)現(xiàn)激光雷達(dá)點(diǎn)云與圖像像素之間的精確幾何對(duì)齊;LearnableAlign,其在融合期間利用交叉注意力動(dòng)態(tài)捕獲圖像與激光雷達(dá)特征之間的相關(guān)性。基于InverseAug和LearnableAlign,我們開(kāi)發(fā)了名為DeepFusion的通用多模態(tài)3D檢測(cè)模型,該模型比以前的方法更準(zhǔn)確。例如,DeepFusion分別提高了PointPillars、CenterPoint和3D-MAN行人檢測(cè)基準(zhǔn)為6.7、8.9和6.2 LEVEL_2 APH。值得注意的是,我們的模型在Waymo Open Dataset上實(shí)現(xiàn)了最先進(jìn)(SOTA)的性能,并對(duì)輸入損壞和分布外數(shù)據(jù)顯示出強(qiáng)大的模型魯棒性。

Ⅰ。 引言

激光雷達(dá)和相機(jī)是用于自動(dòng)駕駛的兩種互補(bǔ)傳感器。對(duì)于3D目標(biāo)檢測(cè),激光雷達(dá)提供低分辨率形狀和深度信息,而相機(jī)提供高分辨率形狀和紋理信息。雖然人們期望兩個(gè)傳感器的組合提供最好的3D目標(biāo)檢測(cè)器,但事實(shí)證明大多數(shù)最先進(jìn)(SOTA)的3D目標(biāo)檢測(cè)僅使用激光雷達(dá)作為輸入(Waymo挑戰(zhàn)排行榜,于2021年10月14日訪問(wèn))。這表明如何有效地融合來(lái)自這兩個(gè)傳感器的信息仍然具有挑戰(zhàn)性。在本文中,我們力求為這個(gè)問(wèn)題提供一個(gè)通用的、有效的解決方案。

現(xiàn)有的激光雷達(dá)和相機(jī)融合大致遵循兩種方法(圖1):它們要么在早期階段融合特征,例如通過(guò)使用相應(yīng)的相機(jī)特征裝飾激光雷達(dá)點(diǎn)云中的點(diǎn)[34,36],要么使用中期融合,在特征提取之后組合特征[13,17]。兩種方法的最大挑戰(zhàn)之一是找出激光雷達(dá)和相機(jī)特征之間的對(duì)應(yīng)關(guān)系。為了解決這個(gè)問(wèn)題,我們提出了兩種方法:InverseAug 和LearnableAlign 以實(shí)現(xiàn)有效的中級(jí)融合。InverseAug反轉(zhuǎn)與幾何相關(guān)的數(shù)據(jù)增強(qiáng)(例如,RandomRotation [46]),然后使用原始相機(jī)和激光雷達(dá)參數(shù)來(lái)關(guān)聯(lián)兩種模態(tài)。LearnableAlign 利用交叉注意力動(dòng)態(tài)學(xué)習(xí)激光雷達(dá)特征與其相應(yīng)的相機(jī)特征之間的相關(guān)性。這兩種技術(shù)都是簡(jiǎn)單、通用的和有效的。基于主流的3D點(diǎn)云檢測(cè)框架,例如PointPillars [16]和CenterPoint [44],InverseAug和LearnableAlign有助于相機(jī)圖像與的激光雷達(dá)點(diǎn)云有效對(duì)齊,且具有最低限度的計(jì)算成本(即僅一個(gè)交叉注意力層)。當(dāng)融合對(duì)齊的多模態(tài)特征時(shí),相機(jī)信息具有更高的分辨率,能顯著提高模型的識(shí)別和定位能力。這些優(yōu)點(diǎn)對(duì)于遠(yuǎn)距離物體檢測(cè)特別有益。

12c17e66-cf56-11ed-bfe3-dac502259ad0.png

圖1 我們的方法在深度特征級(jí)上融合兩種模態(tài),而以前的SOTA方法(例如PointPainting[34]和PointAugmenting[36])在輸入層用相機(jī)特征來(lái)裝飾激光雷達(dá)點(diǎn)云。為了解決深度特征融合的模態(tài)對(duì)齊問(wèn)題(參見(jiàn)第1節(jié)),我們提出了兩種技術(shù):InverseAug(參見(jiàn)圖2和3)和LearnableAlign,這是基于交叉注意力的特征級(jí)對(duì)齊技術(shù)。

我們開(kāi)發(fā)了一種稱為DeepFusion的多模態(tài)3D檢測(cè)模型,其優(yōu)勢(shì)如下:(1)可以端到端地訓(xùn)練;(2)能與許多現(xiàn)有的基于體素的3D檢測(cè)方法兼容的通用模塊。DeepFusion作為插件,可輕松應(yīng)用于大多數(shù)基于體素的3D檢測(cè)方法,如PointPillars [16]和CenterPoint [44]。

我們的大量實(shí)驗(yàn)表明,(1)有效的深度特征對(duì)齊是多模態(tài)3D目標(biāo)檢測(cè)的關(guān)鍵;(2)通過(guò)我們提出的InverseAug和LearnableAlign改進(jìn)對(duì)齊質(zhì)量,DeepFusion能顯著地提高了檢測(cè)精度;(3)與單模態(tài)基準(zhǔn)相比,DeepFusion對(duì)輸入損壞和分布外數(shù)據(jù)更魯棒。

在Waymo Open Dataset上,DeepFusion分別提高了幾種主流的3D檢測(cè)模型的精度,如PointPillars [16]、CenterPoints [44]和3D-MAN [43]分別提高了6.7、8.9和6.2 LEVEL_2 APH。我們?cè)赪aymo Open Dataset上獲得了SOTA的結(jié)果,即DeepFusion在驗(yàn)證集上比PointAugmenting [36](先前的最佳多模態(tài)方法)提高了7.4行人LEVEL_2 APH。結(jié)果表明,我們的方法能夠有效地將激光雷達(dá)和相機(jī)模態(tài)結(jié)合起來(lái),其中最大的改進(jìn)在于對(duì)遠(yuǎn)距離目標(biāo)的識(shí)別和定位。

我們的貢獻(xiàn)可以歸納為三個(gè)方面:

? 據(jù)我們所知,我們是第一個(gè)系統(tǒng)地研究深度特征對(duì)齊對(duì)多模態(tài)3D目標(biāo)檢測(cè)的影響;

? 通過(guò) InverseAug 和LearnableAlign 實(shí)現(xiàn)深度特征對(duì)齊,從而實(shí)現(xiàn)精確、魯棒的3D目標(biāo)檢測(cè)器;

? 我們提出的模型DeepFusion在Waymo Open Dataset上實(shí)現(xiàn)了SOTA的性能。

Ⅱ。相關(guān)工作

點(diǎn)云3D目標(biāo)檢測(cè)。激光雷達(dá)點(diǎn)云通常表現(xiàn)為無(wú)序的集合,許多3D目標(biāo)檢測(cè)方法傾向于直接處理這些原始的無(wú)序點(diǎn)。PointNet [25]和PointNet++ [26]是直接將神經(jīng)網(wǎng)絡(luò)應(yīng)用于點(diǎn)云的早期開(kāi)創(chuàng)性工作。隨后,[22、24、31、42]還學(xué)習(xí)了類似PointNet[25]層的特征。激光雷達(dá)點(diǎn)云也可以表示為密集的距離圖像,其中每個(gè)像素包含額外的深度信息。[1,18]直接在距離圖像上工作以預(yù)測(cè)3D邊界框。

另一種3D目標(biāo)檢測(cè)方法將激光雷達(dá)點(diǎn)云轉(zhuǎn)換為體素或垂直柱,從而出現(xiàn)兩種更常用的3D目標(biāo)檢測(cè)方法:基于體素和基于垂直柱的方法。VoxelNet [46]提出了一種基于體素的方法,該方法將點(diǎn)云離散化為3D網(wǎng)格,每個(gè)子空間稱為體素。然后可以將密集3D卷積網(wǎng)絡(luò)應(yīng)用于該網(wǎng)格以學(xué)習(xí)檢測(cè)特征。SECOND [40]建立在VoxelNet之上,并提出使用稀疏3D卷積來(lái)提高效率。由于3D體素的處理通常很耗時(shí),PointPillars [16]和PIXOR [41]進(jìn)一步將3D體素簡(jiǎn)化為鳥(niǎo)瞰2D垂直柱,其中具有相同z軸的所有體素被折疊成單個(gè)垂直柱。然后,可以利用現(xiàn)有的2D卷積網(wǎng)絡(luò)來(lái)處理這些2D垂直柱以產(chǎn)生鳥(niǎo)瞰圖邊界框。由于2D垂直柱通常易于且快速處理,因此最近的許多3D目標(biāo)檢測(cè)方法[34、38、43、44]建立在PointPillars之上。在本文中,我們還選擇了PointPillar作為處理激光雷達(dá)點(diǎn)云的基準(zhǔn)方法。

激光雷達(dá)和相機(jī)融合。與依賴激光雷達(dá)點(diǎn)云不同,單目檢測(cè)方法直接從2D圖像預(yù)測(cè)3D盒子[3,15,27]。這些方法的關(guān)鍵挑戰(zhàn)是2D圖像不具有深度信息,因此大多數(shù)單目檢測(cè)需要隱式或顯式地預(yù)測(cè)每個(gè)2D圖像像素的深度,這通常是另一個(gè)非常困難的任務(wù)。近來(lái),存在組合激光雷達(dá)和相機(jī)數(shù)據(jù)以改進(jìn)3D檢測(cè)的趨勢(shì)。一些方法[24,39]首先檢測(cè)2D圖像中的目標(biāo),然后使用該信息來(lái)進(jìn)一步處理點(diǎn)云。先前的工作[4,14]也使用兩階段框架來(lái)執(zhí)行以目標(biāo)為中心的模態(tài)融合。與這些方法相比,我們的方法更容易插入大多數(shù)現(xiàn)有的基于體素的3D目標(biāo)檢測(cè)方法。

點(diǎn)裝飾融合。PointPainting[34]提出用相機(jī)圖像的語(yǔ)義分?jǐn)?shù)來(lái)增強(qiáng)每個(gè)激光雷達(dá)點(diǎn),這些圖像是利用預(yù)先訓(xùn)練的語(yǔ)義來(lái)提取的。PointAugmenting [36]指出了語(yǔ)義分?jǐn)?shù)的局限性,并提出利用相機(jī)圖像的2D目標(biāo)檢測(cè)網(wǎng)絡(luò)提取的深度特征增強(qiáng)激光雷達(dá)點(diǎn)云。如圖1(a)所示,這些方法依賴于預(yù)訓(xùn)練模型(例如,2D檢測(cè)或分割模型)從相機(jī)圖像中提取特征,用于裝飾原始點(diǎn)云,然后送入激光雷達(dá)特征體素化網(wǎng)絡(luò)構(gòu)建鳥(niǎo)瞰偽圖像。

中級(jí)融合。Deep Continuous Fusion [17]、EPNet [13]和4D-Net [23]試圖通過(guò)在2D和3D backbones之間共享信息來(lái)融合兩種模態(tài)。然而,相機(jī)與激光雷達(dá)特征之間的有效對(duì)齊機(jī)制是這些工作中的一個(gè)重要遺漏,這在我們的實(shí)驗(yàn)中被證實(shí)是構(gòu)建高效的端到端多模態(tài)3D目標(biāo)檢測(cè)的關(guān)鍵。即使知道有效對(duì)齊的重要性,我們也指出,由于以下原因,這樣做具有挑戰(zhàn)性。第一,為了在現(xiàn)有基準(zhǔn)上實(shí)現(xiàn)最佳性能,如Waymo Open Dataset,在融合階段之前,對(duì)激光雷達(dá)點(diǎn)云和相機(jī)圖像應(yīng)用了各種數(shù)據(jù)增強(qiáng)策略。例如,沿z軸3D全局旋轉(zhuǎn)的RandomRotation[46]通常應(yīng)用于激光雷達(dá)點(diǎn)云,但不適用于相機(jī)圖像,這使得后續(xù)特征對(duì)齊變得困難。第二,由于多個(gè)激光雷達(dá)點(diǎn)被聚集到場(chǎng)景中的同一3D立方體中,即體素,所以一個(gè)體素對(duì)應(yīng)于多個(gè)相機(jī)特征,并且這些相機(jī)特征對(duì)于3D目標(biāo)檢測(cè)并不同等重要。

Ⅲ。 DeepFusion方法

在3.1節(jié)中,我們首先介紹了我們的深度特征融合流程。然后,我們進(jìn)行了一系列初步實(shí)驗(yàn),定量地說(shuō)明了3.2節(jié)中對(duì)齊對(duì)深度特征融合的重要性。最后,在3.3節(jié)中,我們提出了兩種改進(jìn)對(duì)齊質(zhì)量的方法:InverseAug和LearnableAlign。

3.1. 深度特征融合流程

如圖1(a)所示,先前的方法,例如PointPainting [34]和PointAugmenting [36],通常使用額外訓(xùn)練好的檢測(cè)或分割模型作為相機(jī)特征提取器。例如,PointPainting使用Deeplabv3+1生成每像素分割標(biāo)簽作為相機(jī)特征[34]。然后,用提取的相機(jī)特征來(lái)裝飾原始激光雷達(dá)點(diǎn)云。最后,將相機(jī)特征裝飾的激光雷達(dá)點(diǎn)云饋送到3D點(diǎn)云目標(biāo)檢測(cè)框架中。

由于以下原因,上述流程是可改進(jìn)的。首先,將相機(jī)特征輸入到專門為處理點(diǎn)云數(shù)據(jù)而設(shè)計(jì)的幾個(gè)模塊中。例如,如果采用PointPillars[16]作為3D檢測(cè)框架,則相機(jī)特征需要與原始點(diǎn)云一起進(jìn)行體素化,以構(gòu)建鳥(niǎo)瞰圖偽圖像。然而,體素化模塊不是設(shè)計(jì)用于處理相機(jī)信息。其次,相機(jī)特征從其他獨(dú)立任務(wù)(即2D檢測(cè)或分割)中學(xué)習(xí),這可能導(dǎo)致:(1)域間隙,(2)需要額外標(biāo)注,(3)引入額外計(jì)算,以及更重要的(4)非最優(yōu)特征提取,因?yàn)檫@些特征是以啟發(fā)式選擇而不是以端到端的方式學(xué)習(xí)的。

為了解決上述兩個(gè)問(wèn)題,我們提出了一種深度特征融合流程。為了解決第一個(gè)問(wèn)題,我們?nèi)诤狭讼鄼C(jī)和激光雷達(dá)的深度特征,而不是在輸入水平上裝飾原始激光雷達(dá)點(diǎn)云,以便相機(jī)信息不通過(guò)為點(diǎn)云設(shè)計(jì)的模塊。對(duì)于第二個(gè)問(wèn)題,我們使用卷積層來(lái)提取相機(jī)特征并以端到端的方式將這些卷積層與網(wǎng)絡(luò)的其它組件一起訓(xùn)練。總之,我們提出的深特征融合流程如圖1(b)所示:LIDAR點(diǎn)云被輸入到現(xiàn)有的LIDAR特征提取器(例如,來(lái)自PointPillars [16]的Pillar特征提取網(wǎng)絡(luò)),以獲得激光雷達(dá)特征(例如,來(lái)自PointPillars [16]的偽圖像);相機(jī)圖像被輸入到2D圖像特征提取器(例如,ResNet [10]),以獲得相機(jī)特征;然后,將相機(jī)特征融合到激光雷達(dá)特征;最后,由所選LIDAR目標(biāo)檢測(cè)框架的剩余組件(例如,Pointpillars的Backbone和檢測(cè)頭[16])獲得檢測(cè)結(jié)果。

與先前的設(shè)計(jì)相比,我們的方法具有兩大優(yōu)點(diǎn):(1)豐富上下文信息的高分辨率相機(jī)特征不會(huì)被錯(cuò)誤地體素化,并且不需要從透視圖轉(zhuǎn)換為鳥(niǎo)瞰圖;(2)緩解了域間隙和額外標(biāo)注的問(wèn)題,并且由于端到端訓(xùn)練,可以獲得更好的相機(jī)特征。然而,缺點(diǎn)也是顯而易見(jiàn)的:與輸入級(jí)裝飾相比,在深度特征級(jí)上將相機(jī)特征與激光雷達(dá)信息對(duì)齊變得不那么簡(jiǎn)單。例如,兩種模態(tài)的異構(gòu)數(shù)據(jù)增強(qiáng)導(dǎo)致的不準(zhǔn)確對(duì)齊可能對(duì)融合階段構(gòu)成潛在挑戰(zhàn)。在第3.2節(jié)中,我們驗(yàn)證了特征錯(cuò)位確實(shí)會(huì)損害檢測(cè)模型,并在第3.3節(jié)中提供我們的解決方案。

3.2. 對(duì)齊質(zhì)量的影響

為了定量評(píng)估對(duì)齊對(duì)深度特征融合的影響,我們禁用了所有其他數(shù)據(jù)增強(qiáng),但在訓(xùn)練期間僅將RandomRotation [46]的數(shù)據(jù)增強(qiáng)方式添加到深層融合流程的激光雷達(dá)點(diǎn)云中。有關(guān)實(shí)驗(yàn)設(shè)置的更多詳細(xì)信息,請(qǐng)參見(jiàn)附錄材料。因?yàn)槲覀冎辉鰪V激光雷達(dá)點(diǎn)云,但保持相機(jī)圖像不變,越強(qiáng)的幾何相關(guān)的數(shù)據(jù)增強(qiáng)會(huì)導(dǎo)致越差的特征對(duì)齊。如表1所示,多模態(tài)融合的優(yōu)勢(shì)隨著旋轉(zhuǎn)角度的增大而減少。例如,當(dāng)不施加增強(qiáng)時(shí)(最大旋轉(zhuǎn)=0°),改善最顯著(+2.6 AP);當(dāng)最大旋轉(zhuǎn)為45°時(shí),只有+0.4 AP增益。基于這些觀測(cè),我們得出結(jié)論,對(duì)齊對(duì)于深度特征融合是關(guān)鍵的,如果對(duì)齊不精確,則來(lái)自相機(jī)輸入的益處變得微不足道。

表1 多模態(tài)融合的性能增益隨著RandomRotation[46]的幅度增加而減小,這表明精確對(duì)齊的重要性(此處不使用InverseAug)。在Waymo Open Dataset的行人檢測(cè)任務(wù)中,顯示了從單模態(tài)到多模態(tài)的LEVEL_1 AP改進(jìn)。更多詳情見(jiàn)第3.2節(jié)。

12ebc360-cf56-11ed-bfe3-dac502259ad0.png

3.3. 提高對(duì)齊質(zhì)量

鑒于深度特征對(duì)齊的重要性,我們提出了兩種方法,InverseAug和LearnableAlign,以有效地對(duì)齊兩種模態(tài)的深度特征。

InverseAug為了在現(xiàn)有基準(zhǔn)上實(shí)現(xiàn)最佳性能,大多數(shù)方法都需要強(qiáng)大的數(shù)據(jù)增廣,因?yàn)橛?xùn)練通常會(huì)陷入過(guò)擬合的情況。數(shù)據(jù)增強(qiáng)的重要性可從表1中看出,數(shù)據(jù)增廣可以使精度提升5.0,適用于單模態(tài)。此外,Cheng等人[5]還提出數(shù)據(jù)增廣對(duì)于訓(xùn)練3D目標(biāo)檢測(cè)模型的重要性。然而,數(shù)據(jù)增廣的必要性在我們的DeepFusion流程中具有重要的挑戰(zhàn)。具體而言,通常使用不同的增廣策略(例如,針對(duì)3D點(diǎn)云沿z軸旋轉(zhuǎn)與針對(duì)2D圖像的隨機(jī)翻轉(zhuǎn)相結(jié)合)來(lái)增強(qiáng)來(lái)自兩種模態(tài)的數(shù)據(jù),這使得對(duì)齊具有挑戰(zhàn)性。

為了解決幾何相關(guān)數(shù)據(jù)增強(qiáng)引起的對(duì)齊問(wèn)題,我們提出了InverseAug。如圖2所示,在數(shù)據(jù)增廣應(yīng)用于點(diǎn)云之后,給定3D關(guān)鍵點(diǎn)(可以是任何3D坐標(biāo),例如激光雷達(dá)點(diǎn)、體素中心等)。在增強(qiáng)空間中,僅使用原始激光雷達(dá)和相機(jī)參數(shù),無(wú)法在2D空間中定位相應(yīng)的相機(jī)特征。為了使定位可行,當(dāng)應(yīng)用幾何相關(guān)數(shù)據(jù)增廣時(shí),InverseAug首先保存增廣參數(shù)(例如,RandomRotate的旋轉(zhuǎn)度[46])。在融合階段,它對(duì)所有這些數(shù)據(jù)進(jìn)行反向增強(qiáng)以獲得3D關(guān)鍵點(diǎn)的原始坐標(biāo)(圖2(c)),然后在相機(jī)空間中找到其對(duì)應(yīng)的2D坐標(biāo)。注意,我們的方法是通用的,因?yàn)樗梢詫?duì)齊不同類型的關(guān)鍵點(diǎn)(例如,體素中心),為了簡(jiǎn)單起見(jiàn),我們只采用圖2中的激光雷達(dá)點(diǎn),并且它還可以處理兩種模態(tài)都得到增強(qiáng)的情況。相比之下,現(xiàn)有的融合方法(如PointAugmenting [36])只能在增強(qiáng)之前處理數(shù)據(jù)。最后,我們?cè)趫D3(b)中展示了通過(guò)InverseAug改進(jìn)對(duì)齊質(zhì)量的示例。

1310e4ec-cf56-11ed-bfe3-dac502259ad0.png

圖2 InverseAug的流程。所提出的目標(biāo)是將數(shù)據(jù)增強(qiáng)后獲得的關(guān)鍵點(diǎn),即(a)→(b),投影到2D相機(jī)坐標(biāo)系中。關(guān)鍵點(diǎn)是一個(gè)通用的概念,它可以是任何3D坐標(biāo),如激光雷達(dá)點(diǎn)或體素中心。為了簡(jiǎn)單起見(jiàn),我們?cè)谶@里使用一個(gè)激光雷達(dá)點(diǎn)來(lái)說(shuō)明這個(gè)想法。利用相機(jī)和激光雷達(dá)參數(shù),即直接從(b)到(d)。在這里直接將關(guān)鍵點(diǎn)從增強(qiáng)的3D坐標(biāo)系投影到2D相機(jī)坐標(biāo)系的精度較低,我們建議首先將所有的數(shù)據(jù)增強(qiáng)反向應(yīng)用于3D關(guān)鍵點(diǎn),從而在原始坐標(biāo)中找到所有的關(guān)鍵點(diǎn),即(b)→(c)。然后,用激光雷達(dá)和相機(jī)參數(shù)將3D關(guān)鍵點(diǎn)投影到相機(jī)特征上,即(c)→(d)。如圖3所示,其顯著提高了對(duì)齊質(zhì)量。

132c0038-cf56-11ed-bfe3-dac502259ad0.png

圖3 相機(jī)和激光雷達(dá)對(duì)齊質(zhì)量應(yīng)用前后的比較。如(a)所示,如果沒(méi)有InverseAug,激光雷達(dá)點(diǎn)(標(biāo)記為白色)在相機(jī)視圖中沒(méi)有與行人和柱子很好地對(duì)齊。相比之下,如(b)所示,激光雷達(dá)點(diǎn)與相機(jī)數(shù)據(jù)對(duì)齊更好。請(qǐng)注意,我們?cè)谶@個(gè)圖中只添加了一小部分的數(shù)據(jù)增強(qiáng)。在訓(xùn)練中,如果沒(méi)有InverseAug,錯(cuò)位會(huì)更嚴(yán)重。

LearnableAlign。對(duì)于輸入級(jí)裝飾方法,如PointPainting[34]和PointAugmenting[36],給定3D激光雷達(dá)點(diǎn)云,只有相應(yīng)的相機(jī)像素可以精確定位,因?yàn)榇嬖谝粚?duì)一映射。相比之下,當(dāng)在我們的DeepFusion流程中融合深層特征時(shí),每個(gè)激光雷達(dá)特征表示一個(gè)包含點(diǎn)云子集的體素,因此其相應(yīng)的相機(jī)像素處于多邊形中。因此,對(duì)齊變成了一個(gè)單體素對(duì)多像素的問(wèn)題。一種簡(jiǎn)單的方法是對(duì)給定體素對(duì)應(yīng)的所有像素求平均。然而,直觀地,正如我們可視化結(jié)果所支持的,這些像素并不同樣重要,因?yàn)閬?lái)自激光雷達(dá)深度特征的信息與每個(gè)相機(jī)像素不相等地對(duì)齊。例如,一些像素可以包含用于檢測(cè)的關(guān)鍵信息,諸如要檢測(cè)的目標(biāo)對(duì)象,而其他像素可能較少提供信息,包括諸如道路、植物、遮光器等的背景。

為了更好地將來(lái)自激光雷達(dá)特征的信息與最相關(guān)的相機(jī)特征對(duì)齊,我們引入了LearnableAlign,它利用交叉注意力機(jī)制來(lái)動(dòng)態(tài)捕獲兩個(gè)模態(tài)之間的相關(guān)性,如圖1所示。具體地,輸入包含體素單元及其所有對(duì)應(yīng)的N個(gè)相機(jī)特征。LearnableAlign使用三個(gè)全連接層來(lái)分別將體素轉(zhuǎn)換為查詢q1,并將相機(jī)特征轉(zhuǎn)換為鍵kc和值vc。對(duì)于每個(gè)查詢(即,體素單元),我們進(jìn)行查詢和鍵之間的內(nèi)積,以獲得包含體素與其所有對(duì)應(yīng)的N個(gè)相機(jī)特征之間的1×N個(gè)相關(guān)性的注意力親和度矩陣。然后將,注意力親和矩陣由softmax歸一化后,用于加權(quán)和聚合包含相機(jī)信息的值vc。聚合的相機(jī)信息通過(guò)一個(gè)全連接層處理,并最終與原始激光雷達(dá)特征連接。最終的輸出可以輸入到任何標(biāo)準(zhǔn)的3D目標(biāo)檢測(cè)框架中,例如PointPillars或CenterPoint。

Ⅳ。 實(shí)驗(yàn)

我們?cè)谧詣?dòng)駕駛汽車的大規(guī)模3D目標(biāo)檢測(cè)數(shù)據(jù)集Waymo Open Dataset[32]上對(duì)DeepFusion進(jìn)行了評(píng)估。Waymo Open Dataset包含798個(gè)訓(xùn)練序列、202個(gè)驗(yàn)證序列和150個(gè)測(cè)試序列。每個(gè)序列有大約200幀,并且每幀都有激光雷達(dá)點(diǎn)云、相機(jī)圖像和標(biāo)注的3D邊界框。我們使用推薦的指標(biāo),即平均精度(AP)和通過(guò)Heading(APH)加權(quán)的平均精度對(duì)模型進(jìn)行評(píng)估和比較,并報(bào)告LEVEL_1(L1)和LEVEL_2(L2)困難目標(biāo)的結(jié)果。我們?cè)诒砀裰型怀隽薒EVEL_2 APH,因?yàn)槠涫窃赪aymo挑戰(zhàn)排行榜中排名的主要指標(biāo)。

4.1 實(shí)施細(xì)節(jié)

3D目標(biāo)檢測(cè)模型。我們利用三種流行的點(diǎn)云3D目標(biāo)檢測(cè)方法:PointPillars[16]、CenterPoint[44]和3D-MAN [43]作為基準(zhǔn)。此外,我們還發(fā)現(xiàn)他們的改進(jìn)本(即PointPillars++,CenterPoint++,3D-MAN++)是更好的基準(zhǔn),其使用3層hidden size為256的多層感知機(jī)(MLP)將輸入的點(diǎn)云構(gòu)造成偽圖像,并將非線性激活函數(shù)從ReLU[9,21]改成SILU[7,28]。默認(rèn)情況下,所有實(shí)驗(yàn)都采用3D-MAN++行人模型進(jìn)行。提交給測(cè)試服務(wù)器的最終模型還結(jié)合其他技術(shù),如模型集成(記為“Ens”),這些技術(shù)將在附錄A.2中進(jìn)行討論。

LearnableAlign。我們使用256個(gè)filters的全連接層來(lái)融合激光雷達(dá)特征與其相應(yīng)的相機(jī)特征。在激光雷達(dá)到相機(jī)的交叉注意力模塊中,訓(xùn)練過(guò)程將30%丟棄率的dropout操作應(yīng)用于注意親和矩陣作為正則化。交叉注意力模塊之后的MLP層是一個(gè)帶有192個(gè)filters的全連接層。最后,由另一個(gè)全連接層進(jìn)行特征拼接(Concatenate),以壓縮通道數(shù)。與標(biāo)準(zhǔn)的注意力模塊實(shí)現(xiàn)過(guò)程不同,我們實(shí)現(xiàn)的是將注意力模塊與動(dòng)態(tài)體素化[45]結(jié)合的方式。因此,我們?cè)诟戒洸牧现蟹帕嘶?a href="http://www.1cnz.cn/tags/tensorflow/" target="_blank">TensorFlow框架的偽代碼,其中包含了LearnableAlign實(shí)現(xiàn)的更多細(xì)節(jié)。

InverseAug。受PPBA[5]的啟發(fā),我們?cè)谟?xùn)練過(guò)程中依次將以下數(shù)據(jù)增強(qiáng)策略應(yīng)用于激光雷達(dá)點(diǎn)云:隨機(jī)旋轉(zhuǎn)→全局縮放→全局平移噪聲→隨機(jī)翻轉(zhuǎn)→Frustum-Dropout→隨機(jī)丟棄激光點(diǎn)。關(guān)于數(shù)據(jù)增強(qiáng)操作的更多細(xì)節(jié)可以在[5]中找到。與PPBA [5]和其他工作不同的是,這里我們保存所有隨機(jī)生成的與幾何變換相關(guān)的數(shù)據(jù)增強(qiáng)參數(shù)(即隨機(jī)旋轉(zhuǎn)、全局縮放、全局平移噪聲、隨機(jī)翻轉(zhuǎn))。在融合階段,我們將所有這些保存的參數(shù)反向應(yīng)用幾何增廣方法將3D關(guān)鍵點(diǎn)轉(zhuǎn)換到原始坐標(biāo)下。此外,我們還需要反轉(zhuǎn)增廣操作的順序(即隨機(jī)翻轉(zhuǎn)→全局平移噪聲→全局縮放→隨機(jī)旋轉(zhuǎn))。

4.2 Waymo數(shù)據(jù)集上的SOTA性能

將我們的方法與Waymo Open Dataset(驗(yàn)證集和測(cè)試集)上已發(fā)表和未發(fā)表的3D目標(biāo)檢測(cè)方法進(jìn)行了比較。

根據(jù)表2中的測(cè)試結(jié)果,DeepFusion在Waymo挑戰(zhàn)排行榜上取得了最好的結(jié)果,證明了我們方法的有效性。例如,DeepFusion-Ens在Waymo挑戰(zhàn)排行榜上取得了最好的結(jié)果;與之前最先進(jìn)的單模態(tài)方法AFDetV2[12]相比,深度融合提高了2.42 APH/L2。

表2 Waymo Open Dataset挑戰(zhàn)排行榜。?:據(jù)我們所知,這些方法(用淺藍(lán)色突顯)不使用模型集成。?:多模態(tài)的方法。

1361b872-cf56-11ed-bfe3-dac502259ad0.png

我們還比較了驗(yàn)證集上的不同方法,如表3所示。DeepFusion明顯優(yōu)于現(xiàn)有的方法,證明了我們方法的有效性。

表3 在Waymo驗(yàn)證集上的3D目標(biāo)檢測(cè)模型之間的性能比較。?:多模態(tài)的方法。

137ddf3e-cf56-11ed-bfe3-dac502259ad0.png

4.3 DeepFusion是一種通用的融合方法

將我們方法插入目前流行的3D目標(biāo)檢測(cè)框架中,以驗(yàn)證我們方法的通用性。我們比較了六對(duì),每對(duì)都有單模態(tài)方法和多模態(tài)方法。這六個(gè)單模態(tài)分別是只有激光雷達(dá)模態(tài)的PointPillars, CenterPoint, 3D-MAN和他們的改進(jìn)版本(標(biāo)記為“++”)。如表4所示,表明DeepFusion的插入能夠改進(jìn)單模態(tài)檢測(cè)基準(zhǔn)的性能。這些結(jié)果表明,DeepFusion是通用的,能夠應(yīng)用于其他3D目標(biāo)檢測(cè)框架。

表4 在Waymo驗(yàn)證集上將DeepFusion插入到不同的單模態(tài)基準(zhǔn)中。L表示僅有激光雷達(dá);L+C表示激光雷達(dá)+相機(jī)。我們對(duì)Pointpillar, CenterPoint, 3D-MAN和它們的改進(jìn)版本(用“++”表示)進(jìn)行了評(píng)估。通過(guò)添加相機(jī)信息,我們的DeepFusion能夠進(jìn)一步提高檢測(cè)性能,超過(guò)了只有激光雷達(dá)模態(tài)的方法。

13d03234-cf56-11ed-bfe3-dac502259ad0.png

4.4 改進(jìn)從何而來(lái)?

為了更好地理解DeepFusion是如何利用相機(jī)信息來(lái)改進(jìn)3D目標(biāo)檢測(cè)模型的,我們進(jìn)行了定性和定量的深入分析。

首先,根據(jù)目標(biāo)與自車的距離將目標(biāo)分為三組:30米以內(nèi),30米到50米,以及50米以上。圖4顯示了各組經(jīng)多模態(tài)融合后的相對(duì)增益。簡(jiǎn)而言之,DeepFusion可以在每一個(gè)距離范圍內(nèi)均勻地提高精度。特別是,其可實(shí)現(xiàn)遠(yuǎn)距離目標(biāo)(》50米的LEVEL_2目標(biāo)提高6.6%)比近距離目標(biāo)(《30米的LEVEL_2目標(biāo)提高1.5%)獲得更好的檢測(cè)精度,其原因可能是遠(yuǎn)距離目標(biāo)的激光雷達(dá)點(diǎn)云非常稀疏,而高分辨率的相機(jī)能夠填補(bǔ)信息空白。

13eb2c42-cf56-11ed-bfe3-dac502259ad0.png

圖4 通過(guò)展示不同真值深度范圍內(nèi)的AP指標(biāo)(所有藍(lán)條都?xì)w一化為100%),比較單模式基準(zhǔn)和DeepFusion。結(jié)果顯示,DeepFusion略微提高對(duì)近距離目標(biāo)(如在30米以內(nèi))的檢測(cè)性能,但顯著提高對(duì)遠(yuǎn)距離目標(biāo)(如超過(guò)50米)的檢測(cè)性能。

然后,圖5為L(zhǎng)earnableAlign的可視化注意力圖。我們觀察到,該模型傾向于關(guān)注具有較強(qiáng)辨別能力的區(qū)域,如行人的頭部,以及目標(biāo)的末端,如行人的背部。基于這些觀察結(jié)果,我們得出結(jié)論,高分辨率的相機(jī)信息能夠幫助識(shí)別和預(yù)測(cè)物體的邊界。

140c7cda-cf56-11ed-bfe3-dac502259ad0.png

圖5 LearnableAlign的可視化注意力圖。對(duì)于每個(gè)子圖,我們研究一個(gè)3D point pillar,并在2D圖像中用白框標(biāo)記。注意力圖上所顯示的重要區(qū)域用紅點(diǎn)標(biāo)記。我們有兩個(gè)有趣的觀察:首先,如(a)和(b)所示,LearnableAlign通常注意行人的頭部,可能是因?yàn)閺南鄼C(jī)圖像來(lái)看頭部是識(shí)別人類的重要部分(由于激光雷達(dá)信息很難識(shí)別頭部);第二,如(c)和(d)所示,LearnableAlign還關(guān)注目標(biāo)末端(如背部),利用高分辨率相機(jī)信息來(lái)預(yù)測(cè)目標(biāo)邊界,以獲得準(zhǔn)確的目標(biāo)大小。

4.5 InverseAug和LearnableAlign的效果

在本節(jié)中,我們將展示InverseAug和LearnableAlign這兩個(gè)組件的有效性。如表5所示,我們觀察到這兩個(gè)組件都可以提高單模態(tài)基準(zhǔn)的性能。特別是,InverseAug的提高效果更為突出。例如,如果沒(méi)有InverseAug,對(duì)LEVEL_2目標(biāo)檢測(cè)的性能從67.0 APH大幅下降到63.5 APH,這已經(jīng)非常接近僅激光雷達(dá)模態(tài)63.0 APH的性能。另一方面,雖然LearnableAlign提高比較小,但它的改進(jìn)也不容忽視。例如,LearnableAlign將LEVEL_2目標(biāo)檢測(cè)的最終性能從66.4 APH提高到67.0 APH。消融研究表明,這兩個(gè)組件都非常關(guān)鍵,我們不應(yīng)該去掉它們的任何一個(gè)。

表5 InverseAug(IA)和LearnableAlign(LA)的消融研究。這兩種技術(shù)都有助于提高性能,而InverseAug提高的比重更大。

1457820c-cf56-11ed-bfe3-dac502259ad0.png

4.6 DeepFusion是一種有效的融合策略

在本節(jié)中,將DeepFusion與其他融合策略進(jìn)行比較。具體來(lái)說(shuō),我們考慮的方法是:(1)InputFusion,在輸入階段融合相機(jī)特征和激光雷達(dá)點(diǎn)[34,36],(2)LateFusion,其中激光雷達(dá)點(diǎn)和相機(jī)特征分別通過(guò)體素網(wǎng)絡(luò)后進(jìn)行拼接(concatenation)[36],以及(3)我們提出的DeepFusion。

結(jié)果如表6所示。我們觀察到,DeepFusion明顯優(yōu)于其他融合策略。例如,DeepFusion比LateFusion提高了0.5 LEVEL_2 APH(從66.5提高到67.0)。值得注意的是,在我們的實(shí)驗(yàn)中,InputFusion與LateFusion相同,但在[36]中,LateFusion更好,因?yàn)槠浣鉀Q了激光雷達(dá)和相機(jī)之間的模態(tài)間隙問(wèn)題。我們假設(shè),在我們的設(shè)置中,模態(tài)間隙問(wèn)題已經(jīng)通過(guò)端到端訓(xùn)練來(lái)解決,無(wú)論何時(shí)進(jìn)行融合,它都將不再發(fā)生。

表6 與其他融合策略的比較。輸入融合來(lái)自點(diǎn)畫[34]和點(diǎn)增強(qiáng)[36]。延遲融合來(lái)自于點(diǎn)增強(qiáng)[36]。所有的延遲都在一個(gè)V100 GPU上測(cè)量,具有相同的Lingvo [29] 3D目標(biāo)檢測(cè)實(shí)現(xiàn),相同的3D檢測(cè)主干,和相同的相機(jī)特征提取器。DeepFusion在所有評(píng)估指標(biāo)上獲得最佳性能,而延遲與其他融合方法相當(dāng)。

146b409e-cf56-11ed-bfe3-dac502259ad0.png

4.7 DeepFusion的魯棒性

魯棒性是在自動(dòng)駕駛汽車上部署模型的一個(gè)重要指標(biāo)[20]。在本小節(jié)中,我們將研究模型對(duì)噪聲輸入[11]和分布外(OOD)數(shù)據(jù)[35]的魯棒性。

對(duì)損壞輸入的魯棒性。我們首先測(cè)試了兩種常見(jiàn)噪聲模型在驗(yàn)證集上的魯棒性,包括激光噪聲(隨機(jī)添加噪聲到激光雷達(dá)反射值中)和像素噪聲(隨機(jī)添加噪聲到相機(jī)像素中)。

對(duì)于單模態(tài)只用激光噪聲,而激光噪聲和像素噪聲用于多模態(tài)。如表7所示,在存在噪聲的情況下,多模態(tài)通常比單模態(tài)更穩(wěn)健。值得注意的是,激光/像素噪聲幾乎不能降低我們的多模態(tài)方法的性能(只有0.2 / 0.5 L2 APH的下降)。即使同時(shí)應(yīng)用激光和像素噪聲的情況下,性能下降仍然很低(0.4 L2 APH的下降)。同時(shí),單模態(tài)只應(yīng)用激光噪聲就使模型性能下降超過(guò)10 APH。

表7 模型對(duì)輸入噪聲的魯棒性。給定相同訓(xùn)練好的單模態(tài)(Lidar)和多模態(tài)(Lidar+Camera)模型,我們?cè)谠嫉腤aymo驗(yàn)證集(沒(méi)有噪聲)上進(jìn)行評(píng)估,并手動(dòng)添加來(lái)自激光和像素噪聲驗(yàn)證集中的樣本。對(duì)于激光噪聲,我們?cè)谒屑す恻c(diǎn)的反射值上添加擾動(dòng)。對(duì)于像素噪聲,我們對(duì)相機(jī)圖像添加擾動(dòng)。請(qǐng)注意,像素噪聲僅適用于使用相機(jī)圖像作為輸入的多模態(tài)模型。擾動(dòng)在激光和像素噪聲的均勻分布中采樣,最多為原始值的2.5%。我們觀察到,與單模態(tài)相比,DeepFusion對(duì)這些噪聲更魯棒。L表示僅激光雷達(dá);L+C表示激光雷達(dá)+相機(jī)。

14800e8e-cf56-11ed-bfe3-dac502259ad0.png

對(duì)OOD數(shù)據(jù)的魯棒性。為了測(cè)試我們的方法對(duì)OOD數(shù)據(jù)的魯棒性,我們利用Mountain View、San Francisco和Phoenix三個(gè)城市的數(shù)據(jù)訓(xùn)練我們的模型,并在Kirkland上評(píng)估模型。結(jié)果匯總見(jiàn)表8。我們觀察到多模態(tài)對(duì)OOD數(shù)據(jù)有更大的魯棒性。例如,DeepFusion在分布外數(shù)據(jù)上提高了8.0 LEVEL_2 APH,而在分布內(nèi)數(shù)據(jù)上只提高了4.0 LEVEL_2 APH。

表8 模型對(duì)分布外數(shù)據(jù)的魯棒性。我們?cè)诜植純?nèi)驗(yàn)證集(Default)和分布外驗(yàn)證集(Kirkland)上評(píng)估了單模態(tài)(Lidar)和多模態(tài)(Lidar + Camera)模型。DeepFusion在分布外驗(yàn)證集上實(shí)現(xiàn)了更大的提升。L表示僅激光雷達(dá);L+C表示激光雷達(dá)+相機(jī)。

149145a0-cf56-11ed-bfe3-dac502259ad0.png

Ⅴ。 結(jié)論

本文研究了如何有效地融合激光雷達(dá)和相機(jī)數(shù)據(jù)進(jìn)行多模態(tài)3D目標(biāo)檢測(cè)。我們的研究表明,當(dāng)兩個(gè)模態(tài)對(duì)齊后的最后階段的深度特征融合是更有效的,但要對(duì)齊不同模態(tài)的兩個(gè)深度特征具有挑戰(zhàn)性。為了解決這一挑戰(zhàn),我們提出了InverseAug和LearnableAlign兩種技術(shù),使多模態(tài)特征能夠有效對(duì)齊。基于這些技術(shù),我們開(kāi)發(fā)了一系列簡(jiǎn)單的、通用的、有效的多模態(tài)3D目標(biāo)檢測(cè)方法,稱為DeepFusions,其在Waymo Open Dataset上實(shí)現(xiàn)了SOTA的性能。

A. 附錄

A.1 對(duì)齊質(zhì)量的影響

在本節(jié)中,將為主論文的第3.2節(jié)提供更詳細(xì)的實(shí)驗(yàn)設(shè)置和更多的初步實(shí)驗(yàn)結(jié)果。

實(shí)驗(yàn)設(shè)置。我們使用了第4.1節(jié)和第A.2節(jié)中提到的3D-MAN++行人模型。為了檢查對(duì)齊質(zhì)量,將刪除InverseAug和所有數(shù)據(jù)增強(qiáng)。然后,我們將不同幅度的隨機(jī)旋轉(zhuǎn)[46]應(yīng)用于單模態(tài)和多模態(tài)模型。最后,對(duì)于相同的擾動(dòng)量級(jí),我們計(jì)算了來(lái)自單模態(tài)和多模態(tài)模型的最佳驗(yàn)證結(jié)果的性能差距。

其他結(jié)果。除了使用隨機(jī)旋轉(zhuǎn)[46]進(jìn)行測(cè)試外,我們還使用隨機(jī)翻轉(zhuǎn)[46]進(jìn)行測(cè)試,這是另一種在3D點(diǎn)云目標(biāo)檢測(cè)模型中常用的數(shù)據(jù)增強(qiáng)策略。具體來(lái)說(shuō),隨機(jī)翻轉(zhuǎn)以給定的概率p沿著Y軸翻轉(zhuǎn)3D場(chǎng)景。在這里,我們將概率分別設(shè)置為0%、50%和100%,結(jié)果如表9所示。觀察結(jié)果是相似的:當(dāng)應(yīng)用大幅度的數(shù)據(jù)增強(qiáng)時(shí),從多模態(tài)融合的好處減少。例如,當(dāng)用零概率隨機(jī)翻轉(zhuǎn)(即不用數(shù)據(jù)增強(qiáng))時(shí),改進(jìn)最顯著(+2.3 AP);當(dāng)翻轉(zhuǎn)概率為100%時(shí)(即每次翻轉(zhuǎn)3D場(chǎng)景),改進(jìn)幾乎為零(+0.03 AP)。

表9 多模態(tài)融合的性能增益隨著隨機(jī)翻轉(zhuǎn)[46]幅度的增加而降低,這表明了精確對(duì)齊的重要性。這里不使用InverseAug。在Waymo Open Dataset的行人檢測(cè)任務(wù)中,報(bào)告了從單模態(tài)到多模態(tài)的LEVEL 1 AP的改善。

14b0775e-cf56-11ed-bfe3-dac502259ad0.png

A.2 3D檢測(cè)器的實(shí)施細(xì)節(jié)

在本文中,由于空間的限制,我們主要提供關(guān)于DeepFusion的更多細(xì)節(jié)。在本節(jié)中,我們還將說(shuō)明構(gòu)建3D目標(biāo)檢測(cè)模型的其他重要實(shí)現(xiàn)細(xì)節(jié)。

點(diǎn)云3D目標(biāo)檢測(cè)方法。我們重新實(shí)現(xiàn)了三種經(jīng)典的點(diǎn)云3D目標(biāo)檢測(cè)方法,PointPillars[16]、CenterPoint[44]和3D-MAN[43]。如第2節(jié)所述,PointPillars將點(diǎn)云體素化,每個(gè)地圖網(wǎng)格位置有一個(gè)細(xì)高的體素,構(gòu)建鳥(niǎo)瞰偽圖像;最后,將偽圖像輸入基于anchor的目標(biāo)檢測(cè)流程。一個(gè)高級(jí)別的模型流程如圖6所示。CenterPoint也是一種基于PointPillars的方法,但使用無(wú)anchor的檢測(cè)頭。請(qǐng)注意,我們只實(shí)現(xiàn)了基于PointPillars的單階段版本的CenterPoint。3D-MAN與CenterPoint相似,主要的區(qū)別是在計(jì)算損失時(shí),3D-MAN使用匈牙利算法將預(yù)測(cè)結(jié)果和真值關(guān)聯(lián)起來(lái)(更多細(xì)節(jié)見(jiàn)Yang等[43]的3.1節(jié))。

基本方案的改進(jìn)。我們將介紹兩種簡(jiǎn)單但有效的發(fā)現(xiàn),能夠顯著改善點(diǎn)云3D目標(biāo)檢測(cè)基準(zhǔn)。我們以PointPillars框架為例來(lái)介紹,但這些技術(shù)可以自然地應(yīng)用于其他點(diǎn)云3D目標(biāo)檢測(cè)框架,如CenterPoint和3D-MAN。如圖6所示,我們的框架建立在PointPillars模型的基礎(chǔ)上,并用紅色虛線框表示我們的修改。NAS塊表示使用神經(jīng)架構(gòu)搜索找到的體素特征編碼。我們還用SILU [7,28]替換了原始框架中的ReLU [9,21]激活函數(shù)。我們改進(jìn)的模型(命名為PointPillars++、CenterPoint++和3D-MAN++)顯示出比基準(zhǔn)方法更好的性能,如主論文中的表4所示。例如,對(duì)3D-MAN使用這兩種技術(shù)后,LEVEL_2 APH從52.2提高到63.0。這種改進(jìn)是顯著的,并且從其他指標(biāo)和其他基準(zhǔn)中都可以觀察到一致地效果。

訓(xùn)練細(xì)節(jié)。我們同時(shí)使用LEVEL_1和LEVEL_2兩種困難數(shù)據(jù)進(jìn)行訓(xùn)練。由于模型難以對(duì)LEVEL_2數(shù)據(jù)進(jìn)行預(yù)測(cè),我們?cè)谟?xùn)練過(guò)程中使用不確定性損失[19]以容許模型檢測(cè)低精度低自信度的目標(biāo)。

提交模型的細(xì)節(jié)。我們將DeepFusion應(yīng)用于CenterPoint來(lái)提交我們的模型。我們將隨機(jī)旋轉(zhuǎn)數(shù)據(jù)增強(qiáng)的最大旋轉(zhuǎn)擴(kuò)大到180°(行人模型為120°),因?yàn)槲覀儚谋?發(fā)現(xiàn)其好處。我們還將偽圖像特征分辨率從512×512擴(kuò)大到704×704。我們通過(guò)簡(jiǎn)單地將最后N幀點(diǎn)云一起與之前幀的信息拼接(concatenate)。如圖7所示,為了防止在多幀配置下的過(guò)擬合問(wèn)題,我們提出了DropFrame,即從之前的幀中隨機(jī)刪除點(diǎn)云。最好的模型是進(jìn)行5幀拼接,在訓(xùn)練過(guò)程中DropFrame幀的概率為0.5。此外,我們還使用了模型集成和測(cè)試時(shí)間增強(qiáng)(TTA)的加權(quán)框融合(WBF)[12]。對(duì)于TTA,我們使用航向旋轉(zhuǎn)和全局縮放。具體地說(shuō),我們使用[0°,±22.5°,±45°,±135°,±157.5°,±180°]用于航向旋轉(zhuǎn),以及[0.95,1,1.05]用于全局縮放。對(duì)于模型集成,我們獲得了5種不同類型的模型,它們具有不同的偽圖像特征分辨率和不同的輸入模態(tài),即單模態(tài)分辨率為512/704/1024分辨率,多模態(tài)分辨率為512/704分辨率。對(duì)于每種類型的模型,我們用不同的隨機(jī)種子訓(xùn)練了5次。然后,我們根據(jù)驗(yàn)證集和集成top-k模型的性能對(duì)所有25個(gè)模型進(jìn)行排序,其中k是在驗(yàn)證集上得到最佳結(jié)果的最優(yōu)值。

A.3 與大型單模態(tài)方法比較

本節(jié)的目標(biāo)是在相同的計(jì)算開(kāi)銷下比較單模態(tài)基準(zhǔn)和深度融合。為了實(shí)現(xiàn)這一點(diǎn),我們首先擴(kuò)大單模態(tài)的模型。由于我們?cè)跇?gòu)建基準(zhǔn)模型時(shí)已經(jīng)充分?jǐn)U大了體素特征編碼和backbone,為了進(jìn)一步擴(kuò)大單模態(tài)以匹配多模態(tài)的延遲,擴(kuò)大偽圖像的分辨率可能是最有效的方式,因此我們采用這種策略。具體來(lái)說(shuō),我們?cè)?12到960的分辨率范圍下訓(xùn)練模型,并測(cè)試每個(gè)配置的性能。圖8清楚地展示了,DeepFusion的延遲為0.32s,具有67.0 L2 APH的檢測(cè)性能,而單模態(tài)在相同的延遲下只能達(dá)到65.7 L2 APH的檢測(cè)性能。進(jìn)一步擴(kuò)大單模態(tài)給性能帶來(lái)了邊際增益,上限為66.5 L2 APH,仍然比 DeepFusion更差。

14c6ded6-cf56-11ed-bfe3-dac502259ad0.png

圖8 模型延遲與檢測(cè)性能的關(guān)系。DeepFusion在所有延遲條件下都顯著優(yōu)于單模態(tài)。

局限性:本文主要關(guān)注激光雷達(dá)和相機(jī)信息的融合。然而,我們提出的方法也能夠擴(kuò)展到其他模態(tài),如深度圖像、毫米波雷達(dá)和高清地圖。此外,我們只采用了基于體素的方法,如PointPillars[16],但通過(guò)采用更強(qiáng)的基準(zhǔn)[33]可以進(jìn)一步提高性能。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 相機(jī)
    +關(guān)注

    關(guān)注

    4

    文章

    1414

    瀏覽量

    54369
  • 目標(biāo)檢測(cè)
    +關(guān)注

    關(guān)注

    0

    文章

    220

    瀏覽量

    15837
  • 激光雷達(dá)
    +關(guān)注

    關(guān)注

    970

    文章

    4129

    瀏覽量

    191493
  • 點(diǎn)云
    +關(guān)注

    關(guān)注

    0

    文章

    58

    瀏覽量

    3902

原文標(biāo)題:DeepFusion:基于激光雷達(dá)和相機(jī)深度融合的多模態(tài)3D目標(biāo)檢測(cè)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    淺析自動(dòng)駕駛發(fā)展趨勢(shì),激光雷達(dá)是未來(lái)?

    。據(jù)了解,在不同技術(shù)路線中,所使用到的傳感器主要有激光雷達(dá)、毫米波雷達(dá)以及攝像頭三類,且各具優(yōu)缺點(diǎn)。 一、主流傳感器對(duì)比激光雷達(dá)激光雷達(dá)具有高精度、高分辨率的優(yōu)勢(shì),同時(shí)具有建立周邊
    發(fā)表于 09-06 11:36

    激光雷達(dá)分類以及應(yīng)用

    束的回波信號(hào)來(lái)獲取目標(biāo)信息。激光雷達(dá)從線束上分可以分為:1、單線束激光雷達(dá)主要是應(yīng)用在掃地機(jī)器人2、線束激光雷達(dá)這里主要是應(yīng)用在汽車行業(yè)中
    發(fā)表于 09-19 15:51

    常見(jiàn)激光雷達(dá)種類

    雷達(dá)成像,但是由于價(jià)格高昂,一般車企不會(huì)選擇安裝。主要公司:Velodyne、Quanergy、Ibeo、速騰聚創(chuàng)3D激光雷達(dá)特點(diǎn):高效率、高精度3D
    發(fā)表于 09-25 11:30

    激光雷達(dá)除了可以激光測(cè)距外,還可以怎么應(yīng)用?

    運(yùn)用紅外激光設(shè)備把紅外線投影到屏幕上。當(dāng)屏幕被阻擋時(shí),紅外線便會(huì)反射,而屏幕下的攝影機(jī)則會(huì)捕捉反射去向,再經(jīng)系統(tǒng)分析,便可作出反應(yīng)。 激光雷達(dá)應(yīng)用之 3D建模與環(huán)境掃描RPLIDAR 3D
    發(fā)表于 05-11 15:33

    5 款激光雷達(dá):iDAR、高清3D LiDARInnovizPro、S3、SLAM on Chip、VLS-128

    3D),以此讓系統(tǒng)來(lái)探測(cè)并識(shí)別目標(biāo)。同樣的場(chǎng)景下,其效率是只配備激光雷達(dá)產(chǎn)品的 10-20 倍。除此之外,iDAR 還能將 2D 圖像覆蓋在 3D
    發(fā)表于 07-26 20:45

    最佳防護(hù)——激光雷達(dá)與安防監(jiān)控解決方案

    分辨率的環(huán)境3D地圖。此外,跟普通高清攝像頭不同,激光雷達(dá)無(wú)論白天還是夜晚都能正常工作。”O(jiān)uster市場(chǎng)總監(jiān)Derek Frome介紹說(shuō)。據(jù)Frome介紹,Ouster憑借其OS-1-64激光雷達(dá)傳感器而
    發(fā)表于 02-29 17:03

    自制低成本3d激光掃描測(cè)距儀激光雷達(dá)

    自制低成本3d激光掃描測(cè)距儀激光雷達(dá)
    發(fā)表于 05-27 16:23

    自制低成本3D激光掃描測(cè)距儀(3D激光雷達(dá))

    自制低成本3D激光掃描測(cè)距儀(3D激光雷達(dá))
    發(fā)表于 03-04 10:51

    3D激光雷達(dá)的現(xiàn)在和未來(lái)

    近年來(lái),激光雷達(dá)市場(chǎng)非常活躍,一些參與者在推出汽車級(jí)3D激光雷達(dá)傳感器模塊產(chǎn)品方面取得了出色的進(jìn)展。
    的頭像 發(fā)表于 03-23 16:19 ?8935次閱讀

    3D激光雷達(dá)相機(jī)校準(zhǔn)是如何考慮傳感器之間誤差的?

    (Set-Membership Extrinsic Calibration of a 3D LiDAR and a Camera)。 這篇文章與傳感器的融合相關(guān),主要介紹了3D激光雷達(dá)
    的頭像 發(fā)表于 05-26 09:15 ?5383次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>激光雷達(dá)</b>和<b class='flag-5'>相機(jī)</b>校準(zhǔn)是如何考慮傳感器之間誤差的?

    基于金字塔的激光雷達(dá)和攝像頭深度融合網(wǎng)絡(luò)

    和攝像頭深度融合網(wǎng)絡(luò),以改進(jìn)交通場(chǎng)景下的 3D 語(yǔ)義分割。單個(gè)傳感器主干提取相機(jī)圖像和激光雷達(dá)點(diǎn)云的特征圖。
    的頭像 發(fā)表于 10-09 15:24 ?2665次閱讀

    3D Flash 激光雷達(dá)測(cè)繪和手勢(shì)識(shí)別

    3D Flash 激光雷達(dá)測(cè)繪和手勢(shì)識(shí)別
    的頭像 發(fā)表于 01-05 09:43 ?1633次閱讀

    基于3D激光雷達(dá)的安全系統(tǒng)

    基于3D激光雷達(dá)的安全系統(tǒng)具有更高的可靠性,減少了誤報(bào),因此具有更高級(jí)別的安全性。激光雷達(dá)在安全和監(jiān)視應(yīng)用中越來(lái)越受歡迎,由于其高可靠性、遠(yuǎn)程、厘米級(jí)精度以及對(duì)具有挑戰(zhàn)性的天氣和照明條件不敏感等特點(diǎn),它很容易擊敗
    發(fā)表于 05-29 09:53 ?651次閱讀
    基于<b class='flag-5'>3D</b><b class='flag-5'>激光雷達(dá)</b>的安全系統(tǒng)

    自動(dòng)駕駛深度模態(tài)目標(biāo)檢測(cè)和語(yǔ)義分割:數(shù)據(jù)集、方法和挑戰(zhàn)

    深度學(xué)習(xí)推動(dòng)了自動(dòng)駕駛感知技術(shù)的最新進(jìn)展。為了實(shí)現(xiàn)魯棒和準(zhǔn)確的場(chǎng)景理解,自動(dòng)駕駛汽車通常配備不同的傳感器(如相機(jī)激光雷達(dá)、雷 達(dá)),多種傳感模式可以融合利用它們的互補(bǔ)特性。在此背景
    發(fā)表于 06-06 10:37 ?0次下載
    自動(dòng)駕駛<b class='flag-5'>深度</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>和語(yǔ)義分割:數(shù)據(jù)集、方法和挑戰(zhàn)

    基于Transformer的相機(jī)-毫米波雷達(dá)融合3D目標(biāo)檢測(cè)方法

    雷達(dá)以用于高級(jí)駕駛輔助系統(tǒng)(ADAS)多年。然而,盡管雷達(dá)在汽車行業(yè)中很流行,考慮到3D目標(biāo)檢測(cè)時(shí),大多數(shù)工作集中在
    的頭像 發(fā)表于 07-10 14:55 ?2958次閱讀
    基于Transformer的<b class='flag-5'>相機(jī)</b>-毫米波<b class='flag-5'>雷達(dá)</b><b class='flag-5'>融合</b><b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>方法
    主站蜘蛛池模板: 小妇人电影免费完整观看2021 | 国产精品亚洲第一区二区三区 | 我和妽妽在厨房里的激情区二区 | 麻豆精品传媒卡一卡二传媒短视频 | 在线精品国精品国产不卡 | 清冷受被CAO的合不拢 | 成年女人免费影院播放 | 欧美一区二区三区久久综 | 琪琪电影午夜理论片YY6080 | 国产精品久久久久一区二区三区 | 九九热这里有精品 | 国产成人mv 在线播放 | 中文字幕一区二区三区在线播放 | 亚洲 欧美 中文 日韩 另类 | 欧美性xxxx18 | yellow日本动漫免费观看 | 免费看欧美xxx片 | 翁止熄痒禁伦短文合集免费视频 | 美女撒尿无遮挡免费中国 | 韩国甜性涩爱 | 偷偷鲁青春草原视频分类 | 青青青伊人 | xxnx18日本| 女同给老师下媚药 | 动态抽插图视频 | 国产在线自天天人人 | 奶头从情趣内衣下露了出来AV | 日本十八禁无遮无挡漫画 | 熟女人妻-蜜臀AV-首页 | 91久久99久91天天拍拍 | 色欲AV亚洲情无码AV蜜桃 | 狠狠爱亚洲五月婷婷av | 午夜国产精品视频 | 久久中文字幕人妻熟AV女蜜柚M | 强开少妇嫩苞又嫩又紧九色 | 伊人AV一区二区三区夜色撩人 | 日日干夜夜爱 | 色吧电影院 | 色 花 堂 永久 网站 | 国产精品视频第一区二区三区 | 婷婷亚洲AV色香蕉蜜桃 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品