四虎国产精品免费观看,午夜精品国产,亚洲精品久久激情影院

對(duì)自動(dòng)駕駛而言，BEV（鳥瞰圖）下的語義分割是一項(xiàng)重要任務(wù)。盡管這項(xiàng)工作已經(jīng)吸引了大量的研究，但靈活處理自動(dòng)駕駛車輛上的任意相機(jī)配置（單個(gè)或多個(gè)攝像頭），仍然是一項(xiàng)挑戰(zhàn)。

為此，Nullmax的感知團(tuán)隊(duì)提出了BEVSegFormer，這一基于Transformer的BEV語義分割方法，可面向任意配置的相機(jī)進(jìn)行BEV語義分割。

這項(xiàng)研究的題目為《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》，論文鏈接：https://arxiv.org/abs/2203.04050。

為了評(píng)估這一算法的效果，Nullmax在nuScenes公開數(shù)據(jù)集以及Nullmax的自采數(shù)據(jù)集上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，BEVSegFormer對(duì)任意相機(jī)配置的BEV語義分割，具有出色的性能表現(xiàn)。并且在nuScenes驗(yàn)證集上，BEVSegFormer創(chuàng)造了新的BEV分割SOTA。

在接下來的工作中，我們還計(jì)劃針對(duì)自動(dòng)駕駛以及BEV語義分割的一些其他挑戰(zhàn)，展開進(jìn)一步的研究。

歡迎對(duì)計(jì)算機(jī)視覺及自動(dòng)駕駛感知感興趣的小伙伴加入我們，一起探索！

關(guān)于BEVSegFormer

在自動(dòng)駕駛或者機(jī)器人導(dǎo)航系統(tǒng)中，以BEV形式對(duì)感知信息進(jìn)行表征，具有至關(guān)重要的作用，因?yàn)樗梢詾橐?guī)劃和控制提供諸多的便利。

比如，在無地圖導(dǎo)航方案中，構(gòu)建本地BEV地圖，不僅成為了高精地圖外的另一種選擇，并且對(duì)于包括智體行為預(yù)測(cè)以及運(yùn)動(dòng)規(guī)劃等感知系統(tǒng)下游任務(wù)而言，也非常重要。而利用相機(jī)的輸入進(jìn)行BEV語義分割，通常被視為構(gòu)建本地BEV地圖的第一步。

為此，傳統(tǒng)方法一般會(huì)先在圖像空間生成分割結(jié)果，然后通過逆透視變換（IPM）函數(shù)轉(zhuǎn)換到BEV空間。雖然這是一種連接圖像空間和BEV空間的簡(jiǎn)單直接的方法，但它需要準(zhǔn)確的相機(jī)內(nèi)外參，或者實(shí)時(shí)的相機(jī)位姿估計(jì)。所以，視圖變換的實(shí)際效果有可能比較差。

以車道線分割為例，在一些挑戰(zhàn)性場(chǎng)景中，比如遮擋或者遠(yuǎn)處區(qū)域，使用IPM的傳統(tǒng)方法提供的結(jié)果就不夠準(zhǔn)確，如圖所示。

近年來，深度學(xué)習(xí)方法已被研究用于BEV語義分割。Lift-Splat-Shoot通過逐像素深度估計(jì)結(jié)果完成了從圖像視圖到BEV的視圖變換。不過使用深度估計(jì)，也增加了視圖變換過程的復(fù)雜度。此外，有一些方法應(yīng)用MLP或者FC算子來進(jìn)行視圖變換。這些固定的視圖變換方法，學(xué)習(xí)圖像空間和BEV空間之間的固定映射，因此不依賴于輸入的數(shù)據(jù)。

而基于Transformer的方法，是在BEV空間下進(jìn)行感知的另一個(gè)研究方向。在目標(biāo)檢測(cè)任務(wù)中，DETR3D引入了一種3D邊界框檢測(cè)方法，直接從多個(gè)相機(jī)圖像的2D特征生成3D空間中的預(yù)測(cè)。3D空間和2D圖像空間之間的視圖變換，通過交叉注意模塊的3D到2D查詢來實(shí)現(xiàn)。

受此啟發(fā)，我們提出了BEVSegFormer，通過在Transformer中使用交叉注意機(jī)制進(jìn)行BEV到圖像的查詢，來計(jì)算視圖變換。

BEVSegFormer由3個(gè)主要的組件組成：

共享的主干網(wǎng)絡(luò)，用于提取任意相機(jī)的特征圖；

Transformer編碼器，通過自注意模塊嵌入特征圖；

BEV Transformer解碼器，通過交叉注意機(jī)制處理BEV查詢，輸出最終的BEV語義分割結(jié)果。

具體來說，BEVSegFormer首先是使用了共享的主干網(wǎng)絡(luò)，對(duì)來自任意相機(jī)的圖像特征進(jìn)行編碼，然后通過基于可變形Transformer的編碼器對(duì)這些特征進(jìn)行增強(qiáng)。

除此之外，BEVSegFormer還引入了一個(gè)BEV Transformer解碼器模塊，對(duì)BEV語義分割的結(jié)果進(jìn)行解析，以及一種高效的多相機(jī)可變形注意單元，完成BEV到圖像的視圖變換。

最后，根據(jù)BEV中的網(wǎng)格布局對(duì)查詢進(jìn)行重塑，并進(jìn)行上采樣，以有監(jiān)督的方式生成語義分割結(jié)果。

我們分別在nuScenes公開數(shù)據(jù)集以及Nullmax的自采數(shù)據(jù)集上，檢驗(yàn)了BEVSegFormer的算法效果。實(shí)驗(yàn)結(jié)果表明，BEVSegFormer在nuScenes驗(yàn)證集上創(chuàng)造了新的BEV分割SOTA。通過消融實(shí)驗(yàn)，當(dāng)中每個(gè)組件的效果也得到了驗(yàn)證。

加入我們

在這項(xiàng)研究中，我們?yōu)榱藨?yīng)對(duì)自動(dòng)駕駛車輛上任意相機(jī)配置的BEV語義分割挑戰(zhàn)，提出了BEVSegFormer。

接下來，我們還計(jì)劃在自動(dòng)駕駛當(dāng)中，基于Transformer探索內(nèi)存效率更高、解釋性更強(qiáng)的BEV語義分割方法。

歡迎對(duì)BEV、Transformer在自動(dòng)駕駛中的感知任務(wù)感興趣，以及希望從事于計(jì)算機(jī)視覺和自動(dòng)駕駛感知研發(fā)的同學(xué)，加入Nullmax感知團(tuán)隊(duì)。

在這里，你可以直接參與到大量自動(dòng)駕駛量產(chǎn)項(xiàng)目的落地，以及最前沿技術(shù)的預(yù)研當(dāng)中，為你的idea和技術(shù)找到一個(gè)充分施展的舞臺(tái)！

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
784

文章
13784

瀏覽量
166397
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121113

原文標(biāo)題：當(dāng)BEV語義分割遇上了Transformer，故事的結(jié)局是新的SOTA

文章出處：【微信號(hào)：Nullmax，微信公眾號(hào)：Nullmax紐勱】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

淺析基于自動(dòng)駕駛的4D-bev標(biāo)注技術(shù)

4D-bev標(biāo)注技術(shù)是指在3D空間中以時(shí)間作為第四個(gè)維度進(jìn)行標(biāo)注的過程。4D-bev通常在地場(chǎng)景較為復(fù)雜的自動(dòng)駕駛場(chǎng)景中使用，其可以通過精準(zhǔn)地跟蹤和記錄動(dòng)態(tài)對(duì)象的運(yùn)動(dòng)軌跡、姿勢(shì)變化以及速度等信息，全面理解和分析動(dòng)態(tài)對(duì)象在連續(xù)的時(shí)間序列中的變化，提升自動(dòng)駕駛系統(tǒng)的感知、決策

發(fā)表于 12-06 15:01 ?721次閱讀

淺析基于自動(dòng)駕駛的4D-<b class='flag-5'>bev</b>標(biāo)注技術(shù)

自動(dòng)駕駛中一直說的BEV+Transformer到底是個(gè)啥？

在很多車企的自動(dòng)駕駛介紹中，都會(huì)聽到一個(gè)關(guān)鍵技術(shù)，那就是BEV+Transformer，那BEV+Transformer到底是個(gè)啥？為什么很多車企在自動(dòng)駕駛技術(shù)中都十分追捧這項(xiàng)技術(shù)？其實(shí)“BEV

發(fā)表于 11-07 11:19 ?367次閱讀

自動(dòng)駕駛中一直說的<b class='flag-5'>BEV</b>+Transformer到底是個(gè)啥？

語義分割25種損失函數(shù)綜述和展望

本綜述提供了對(duì)25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類法，并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利

發(fā)表于 10-22 08:04 ?470次閱讀

語義<b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

畫面分割器怎么調(diào)試

畫面分割器，通常指的是視頻畫面分割器，它是一種可以將一個(gè)視頻信號(hào)分割成多個(gè)小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多畫面顯示等場(chǎng)景。調(diào)試畫面分割器是一個(gè)技術(shù)性很強(qiáng)的工作，需

發(fā)表于 10-17 09:32 ?366次閱讀

畫面分割器怎么連接

畫面分割器，也稱為視頻分割器或多畫面處理器，是一種可以將多個(gè)視頻信號(hào)源分割成單個(gè)畫面或多個(gè)畫面顯示在單個(gè)監(jiān)視器上的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多媒體展示等領(lǐng)域。一、畫面分割

發(fā)表于 10-17 09:29 ?299次閱讀

關(guān)于\"OPA615\"的SOTA的跨導(dǎo)大小的疑問求解

關(guān)于OPA615的SOTA部分，看datasheet的page9的figure22，我們可以知道跨導(dǎo)大小大概是35mA/V左右，并且可以知道其Chold輸出一般在5mA以內(nèi)，但是我從社區(qū)里面找到

發(fā)表于 09-13 06:25

圖像語義分割的實(shí)用性是什么

圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù)，它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用，如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。一、圖像語義分割的基本原理 1.1

發(fā)表于 07-17 09:56 ?415次閱讀

圖像分割和語義分割的區(qū)別與聯(lián)系

圖像分割和語義分割是計(jì)算機(jī)視覺領(lǐng)域中兩個(gè)重要的概念，它們?cè)趫D像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡(jiǎn)介圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
發(fā)表于 07-17 09:55 ?908次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο蟆＞矸e神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在圖像分割與語義分割中發(fā)揮著至關(guān)重要的

發(fā)表于 07-09 11:51 ?828次閱讀

NB81是否支持OneNet SOTA功能？應(yīng)該如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，應(yīng)該如何激活SOTA？

發(fā)表于 06-04 06:14

旋變位置不變的情況下，當(dāng)使能SOTA功能與關(guān)閉SOTA功能時(shí)，APP中DSADC采樣得到的旋變sin和cos兩者值不一樣，為什么？

旋變位置不變的情況下，當(dāng)使能SOTA功能與關(guān)閉SOTA功能時(shí)，APP中DSADC采樣得到的旋變sin和cos兩者值不一樣，用示波器采的輸入到MCU端的差分電壓是一樣的，難道是SOTA使能后影響了MCU芯片內(nèi)部的等效阻抗嗎，有專家

發(fā)表于 05-17 08:13

BEV和Occupancy自動(dòng)駕駛的作用

BEV是Bird's Eye View 的縮寫，意為鳥瞰視圖。在自動(dòng)駕駛領(lǐng)域，BEV 是指從車輛上方俯瞰的場(chǎng)景視圖。BEV 圖像可以提供車輛周圍環(huán)境的完整視圖，包括車輛前方、后方、兩側(cè)和頂部。

發(fā)表于 01-17 12:33 ?711次閱讀

頂刊TPAMI最全綜述！深入自動(dòng)駕駛BEV感知的魔力！

BEV感知的主要工作。在輸入模態(tài)下，" L "為LiDAR，" SC "為單相機(jī)，" MC "為多相機(jī)，" T "為時(shí)

發(fā)表于 01-14 09:53 ?1373次閱讀

自動(dòng)駕駛領(lǐng)域中，什么是BEV？什么是Occupancy？

BEV是Bird's Eye View 的縮寫，意為鳥瞰視圖。在自動(dòng)駕駛領(lǐng)域，BEV 是指從車輛上方俯瞰的場(chǎng)景視圖。

發(fā)表于 01-13 09:41 ?3362次閱讀

基于LSS范式的BEV感知算法優(yōu)化部署詳解

BEV即Bird's Eye View(鳥瞰視圖）是一種從空中俯視場(chǎng)景的視角。由多張不同視角采集的圖像通過不同的空間轉(zhuǎn)換方式形成，如下圖所示，左側(cè)為6張不同位置的相機(jī)采集的圖像，右側(cè)為轉(zhuǎn)換的BEV圖像。

發(fā)表于 01-02 14:13 ?4229次閱讀