對(duì)自動(dòng)駕駛而言,BEV(鳥瞰圖)下的語義分割是一項(xiàng)重要任務(wù)。盡管這項(xiàng)工作已經(jīng)吸引了大量的研究,但靈活處理自動(dòng)駕駛車輛上的任意相機(jī)配置(單個(gè)或多個(gè)攝像頭),仍然是一項(xiàng)挑戰(zhàn)。
為此,Nullmax的感知團(tuán)隊(duì)提出了BEVSegFormer,這一基于Transformer的BEV語義分割方法,可面向任意配置的相機(jī)進(jìn)行BEV語義分割。
這項(xiàng)研究的題目為《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》,論文鏈接:https://arxiv.org/abs/2203.04050。
為了評(píng)估這一算法的效果,Nullmax在nuScenes公開數(shù)據(jù)集以及Nullmax的自采數(shù)據(jù)集上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,BEVSegFormer對(duì)任意相機(jī)配置的BEV語義分割,具有出色的性能表現(xiàn)。并且在nuScenes驗(yàn)證集上,BEVSegFormer創(chuàng)造了新的BEV分割SOTA。
在接下來的工作中,我們還計(jì)劃針對(duì)自動(dòng)駕駛以及BEV語義分割的一些其他挑戰(zhàn),展開進(jìn)一步的研究。
歡迎對(duì)計(jì)算機(jī)視覺及自動(dòng)駕駛感知感興趣的小伙伴加入我們,一起探索!
01
關(guān)于BEVSegFormer
在自動(dòng)駕駛或者機(jī)器人導(dǎo)航系統(tǒng)中,以BEV形式對(duì)感知信息進(jìn)行表征,具有至關(guān)重要的作用,因?yàn)樗梢詾橐?guī)劃和控制提供諸多的便利。
比如,在無地圖導(dǎo)航方案中,構(gòu)建本地BEV地圖,不僅成為了高精地圖外的另一種選擇,并且對(duì)于包括智體行為預(yù)測(cè)以及運(yùn)動(dòng)規(guī)劃等感知系統(tǒng)下游任務(wù)而言,也非常重要。而利用相機(jī)的輸入進(jìn)行BEV語義分割,通常被視為構(gòu)建本地BEV地圖的第一步。
為此,傳統(tǒng)方法一般會(huì)先在圖像空間生成分割結(jié)果,然后通過逆透視變換(IPM)函數(shù)轉(zhuǎn)換到BEV空間。雖然這是一種連接圖像空間和BEV空間的簡(jiǎn)單直接的方法,但它需要準(zhǔn)確的相機(jī)內(nèi)外參,或者實(shí)時(shí)的相機(jī)位姿估計(jì)。所以,視圖變換的實(shí)際效果有可能比較差。
以車道線分割為例,在一些挑戰(zhàn)性場(chǎng)景中,比如遮擋或者遠(yuǎn)處區(qū)域,使用IPM的傳統(tǒng)方法提供的結(jié)果就不夠準(zhǔn)確,如圖所示。
近年來,深度學(xué)習(xí)方法已被研究用于BEV語義分割。Lift-Splat-Shoot通過逐像素深度估計(jì)結(jié)果完成了從圖像視圖到BEV的視圖變換。不過使用深度估計(jì),也增加了視圖變換過程的復(fù)雜度。此外,有一些方法應(yīng)用MLP或者FC算子來進(jìn)行視圖變換。這些固定的視圖變換方法,學(xué)習(xí)圖像空間和BEV空間之間的固定映射,因此不依賴于輸入的數(shù)據(jù)。
而基于Transformer的方法,是在BEV空間下進(jìn)行感知的另一個(gè)研究方向。在目標(biāo)檢測(cè)任務(wù)中,DETR3D引入了一種3D邊界框檢測(cè)方法,直接從多個(gè)相機(jī)圖像的2D特征生成3D空間中的預(yù)測(cè)。3D空間和2D圖像空間之間的視圖變換,通過交叉注意模塊的3D到2D查詢來實(shí)現(xiàn)。
受此啟發(fā),我們提出了BEVSegFormer,通過在Transformer中使用交叉注意機(jī)制進(jìn)行BEV到圖像的查詢,來計(jì)算視圖變換。
BEVSegFormer由3個(gè)主要的組件組成:
共享的主干網(wǎng)絡(luò),用于提取任意相機(jī)的特征圖;
Transformer編碼器,通過自注意模塊嵌入特征圖;
BEV Transformer解碼器,通過交叉注意機(jī)制處理BEV查詢,輸出最終的BEV語義分割結(jié)果。
具體來說,BEVSegFormer首先是使用了共享的主干網(wǎng)絡(luò),對(duì)來自任意相機(jī)的圖像特征進(jìn)行編碼,然后通過基于可變形Transformer的編碼器對(duì)這些特征進(jìn)行增強(qiáng)。
除此之外,BEVSegFormer還引入了一個(gè)BEV Transformer解碼器模塊,對(duì)BEV語義分割的結(jié)果進(jìn)行解析,以及一種高效的多相機(jī)可變形注意單元,完成BEV到圖像的視圖變換。
最后,根據(jù)BEV中的網(wǎng)格布局對(duì)查詢進(jìn)行重塑,并進(jìn)行上采樣,以有監(jiān)督的方式生成語義分割結(jié)果。
我們分別在nuScenes公開數(shù)據(jù)集以及Nullmax的自采數(shù)據(jù)集上,檢驗(yàn)了BEVSegFormer的算法效果。實(shí)驗(yàn)結(jié)果表明,BEVSegFormer在nuScenes驗(yàn)證集上創(chuàng)造了新的BEV分割SOTA。通過消融實(shí)驗(yàn),當(dāng)中每個(gè)組件的效果也得到了驗(yàn)證。
02
加入我們
在這項(xiàng)研究中,我們?yōu)榱藨?yīng)對(duì)自動(dòng)駕駛車輛上任意相機(jī)配置的BEV語義分割挑戰(zhàn),提出了BEVSegFormer。
接下來,我們還計(jì)劃在自動(dòng)駕駛當(dāng)中,基于Transformer探索內(nèi)存效率更高、解釋性更強(qiáng)的BEV語義分割方法。
歡迎對(duì)BEV、Transformer在自動(dòng)駕駛中的感知任務(wù)感興趣,以及希望從事于計(jì)算機(jī)視覺和自動(dòng)駕駛感知研發(fā)的同學(xué),加入Nullmax感知團(tuán)隊(duì)。
在這里,你可以直接參與到大量自動(dòng)駕駛量產(chǎn)項(xiàng)目的落地,以及最前沿技術(shù)的預(yù)研當(dāng)中,為你的idea和技術(shù)找到一個(gè)充分施展的舞臺(tái)!
審核編輯 :李倩
-
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13784瀏覽量
166397 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121113
原文標(biāo)題:當(dāng)BEV語義分割遇上了Transformer,故事的結(jié)局是新的SOTA
文章出處:【微信號(hào):Nullmax,微信公眾號(hào):Nullmax紐勱】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論