基于雙向前置交互Transformer的BEV語義分割方法

背景

近年來，基于純視覺的感知方法由于其較高的信噪比和較低的成本，在自動駕駛領域占有重要地位。其中，鳥瞰圖（BEV）感知已成為主流的方法。在以視覺為中心的自動駕駛任務中，BEV表示學習是指將周圍多個攝像頭的連續幀作為輸入，然后將像平面視角轉換為鳥瞰圖視角，在得到的鳥瞰圖特征上執行諸如三維目標檢測、地圖視圖語義分割和運動預測等感知任務。

BEV感知性能的提高取決于如何快速且精準地獲取道路和物體特征表示。圖1中展示了現有的兩類基于不同交互機制的BEV感知管道：（a）后交互和（b）中間交互。后交互管道［1］在每個相機視角上獨立地進行感知，然后將感知結果在時間和空間上融合到一個統一的BEV特征空間中。中間交互管道［2，3，4］是最近使用得最廣泛的方案，它將所有的相機視角圖像耦合輸入到網絡中，通過網絡將它們轉換到BEV空間，然后直接輸出結果。中間交互管道中的特征提取、空間轉換和BEV空間的學習都有一個明確的順序。

圖1：后交互、中間交互和我們提出的前置交互框架示意圖

基于視覺的BEV感知的核心挑戰是從仿射視角（Perspective View， PV）向鳥瞰圖視角（BEV）的轉換。然而，利用現有的兩種交互策略將PV轉換到BEV仍然存在許多問題：

（1）圖像空間backbone只依次提取不同分辨率的圖像特征，而沒有融合任何跨分辨率的信息；

（2）現有的交互策略中核心模塊的計算量主要由圖像空間backbone占據，但它不包含任何BEV空間信息，導致大量的計算并沒有執行PV到BEV轉換這一關鍵任務；

（3）后交互策略和中間交互策略的前向處理中的信息流是單向的，信息從圖像空間流到BEV空間，而BEV空間中的信息并沒有有效地影響圖像空間中的特征。

為了解決這些問題，我們提出了一種新的基于Transformer的雙向前置交互框架，以有效地將多尺度圖像特征聚合成更好的BEV特征表示，并執行BEV語義分割任務。與現有的兩種策略相比，我們提出的前置交互方法具有明顯的優勢。首先，我們提出的雙向前置交互方法可以融合全局上下文信息和局部細節，從而能夠向BEV空間傳遞更豐富的語義信息。其次，我們提出PV到BEV的轉換不僅可以是圖像特征提取后，而且可以在提取過程中進行逐步轉換，于是，通過我們提出的雙向交叉注意力機制，信息流可以隱式地進行雙向交互，從而對齊PV和BEV中的特征。此外，我們的方法可以將跨空間對齊學習擴散到整個框架中，即圖像網絡學習不僅可以學習到良好的特征表示，而且可以起到跨空間對齊的作用。方法

　　整體框架

　　BAEFormer的整體框架如圖2所示，總共包含兩個部分：（1）雙向前置交互編碼器，用于提取圖像特征并將其從PV轉換為BEV；（2）將低分辨率BEV特征上采樣到高分辨率BEV特征的解碼器，用于執行下游任務。

圖2：BAEFormer整體框架圖

　　前置交互

　　對于前置交互模塊，我們使用EfficientNet［5］的預訓練模型來提取環視圖像的特征，特征提取器包含三層，分別提取圖像的4x，8x，16x分辨率的特征。4x分辨率的特征首先被提取出來，通過一個降采樣模塊之后和BEV特征進行交互得到更新之后的4x分辨率特征，將更新之后的4x特征上采樣，并作為特征提取器的下一層的輸入來提取8x分辨率特征。以此類推，我們得到更新之后的8x特征并作為特征提取器最后一層的輸入，由此得到16x圖像特征。我們的多尺度前置交互方法可以充分利用分層預訓練的模型來整合多尺度圖像特征。同時，BEV的空間信息可以流入主干網絡，使前置交互主干網絡承擔了部分異質空間對齊的功能。

　　雙向交叉注意力

　　如圖3中所示，我們提出的雙向交叉注意力模型包含兩個分支，一個用于多視圖圖像特征的精細化，另一個用于BEV特征的精細化。首先，N個環視圖像特征首先被編碼為查詢特征，鍵特征和值特征，其中c表示特征維度，h和w分別表示特征的高和寬。相似的，BEV特征編碼也被轉換為查詢特征，鍵特征和值特征。于是圖像特征和BEV特征的交叉注意力可以表示為：整個Transformer模塊就可以使用下式計算：其中，和表示第l層的輸入，和表示第l層的輸出。LN（?）表示層歸一化操作，MLP（?）表示有2個全連接層和一個非線性層的多層感知機模塊，MHBiCA（?）表示擁有多頭交叉注意力機制的BiCA（?）模塊。

圖3：雙向交叉注意力框架圖實驗結果

表1展示了BAEFormer方法和之前的方法在兩種設置下的性能、參數和推理速度的對比結果。可以看出，BAEFormer在使用相同輸入分辨率（224x480）的設置下，在精度上超過了現有的實時方法。同時，雖然先前的BEVFormer［2］實現了高性能，但它非常耗時，模型參數高達68.1M。我們的BAEFormer在大輸入圖像分辨率（504x1056）下的運行速度比BEVFormer快12倍，而參數量大約是它的1/12。

表1：nuScenes數據集上車輛類別的語義分割結果

　　消融實驗

　　表2展示了我們在nuScenes數據集上對車輛類別進行的不同交互方式的消融實驗。實驗結果表明，我們的BAEFormer方法可以將雙向交叉注意力機制和前置交互方式充分地結合以得到更好的BEV特征表示。

表2：不同交互方式的消融實驗

表3展示了具有不同輸入分辨率和圖像特征尺度的模型的mIoU性能和內存使用情況。結果說明，使用多尺度特征可以帶來更好的性能；增大輸入圖像分辨率可以提高性能，但會帶來顯存的劇增；我們發現，如（j）-（n）所示，在交互過程中，輸入圖像的分辨率對最終的精度沒有太大的影響；因此我們可以在提高輸入圖像分辨率來提升性能的同時，通過對交互時的圖像特征進行降采樣來保證計算量是可控的。

表3：不同輸入分辨率和不同圖像特征尺度的組合

　　可視化結果

　　圖4展示了BEV下的可視化結果，可以看出BAEFormer對比baseline模型，不僅對于近處物體漏檢（紅色圈）的數目有效減少，且對于遠處物體（綠色圈）也能進行有效的感知，進一步說明了我們方法的感知能力具有一定的優勢。

圖4：不同模型的可視化結果對比

結論

在本文中，我們提出了一種稱為BAEFormer的BEV語義分割新框架，采用雙向交叉注意力機制，通過對圖像特征空間和 BEV 特征空間中的信息流施加雙向約束來建立改進的跨空間對齊，同時利用前置交互方法來合并跨尺度信息，并實現更精細的語義表示。實驗結果表明，BAEFormer在保持實時推理速度的同時能夠提高BEV語義分割的性能。?

　

審核編輯：劉清

閱讀全文

解碼器(40054) 解碼器(40054)
編碼器(131226) 編碼器(131226)
信噪比(28277) 信噪比(28277)
自動駕駛技術(14920) 自動駕駛技術(14920)

基于多模態語義SLAM框架

本文提出了一個魯棒且快速的多模態語義 SLAM 框架，旨在解決復雜和動態環境中的 SLAM 問題。具體來說，將僅幾何聚類和視覺語義信息相結合，以減少由于小尺度對象、遮擋和運動模糊導致的分割誤差的影響。

2022-08-31 09:39:14

1302

深度解析計算機視覺的?語義分割網絡技術

與分類不同的是，語義分割需要判斷圖像每個像素點的類別，進行精確分割，圖像語義分割是像素級別的任務，但是由于CNN在進行convolution和pooling過程中丟失了圖像細節，即feature

2022-12-07 13:38:05

414

使用LabVIEW實現基于pytorch的DeepLabv3圖像語義分割

使用LabVIEW實現deeplabV3語義分割

2023-03-22 15:06:52

1253

使用LabVIEW實現 DeepLabv3+ 語義分割含源碼

2023-05-26 10:23:01

522

語義機器人

人工智能將迎來語義理解新時代。打破了傳統人工智能在語言交互方面反射式的應答方式，成功地通過獨創的中文語義理解算法，讓計算機可以準確理解語言環境，進行上下文處理、口語處理、省略處理。該平臺可用于構建

2016-03-10 16:52:17

van-自然和醫學圖像的深度語義分割：網絡結構

限制了感知域的大小。基于存在的這些問題，由Long等人在2015年提出的FCN結構，第一個全卷積神經網絡的語義分割模型。我們要了解到的是，FCN是基于VGG和AlexNet網絡上進行預訓練，然后將最后

2021-12-28 11:03:35

van-自然和醫學圖像的深度語義分割：網絡結構

2021-12-28 11:06:01

一種新的粘連字符圖像分割方法

候選粘連分割點，以雙向最短路徑確定合適的圖像分割線路。仿真實驗表明，該方法能有效解決粘連字符圖像的分割問題。　　關鍵詞：字符分割；連通狀況；粘連字符；輪廓；最短路徑　　隨著監視器等設備

2009-09-19 09:19:17

基于GAC模型實現交互式圖像分割的改進算法

基于GAC模型實現交互式圖像分割的改進算法提出了一種改進的交互式圖像分割算法。采用全變分去噪模型對圖像進行預處理，在去除噪聲的同時更好地保護了邊緣；提出了一種對梯度模值進行曲率加權的邊緣檢測方法

2009-09-19 09:19:45

基于改進遺傳算法的圖像分割方法

基于改進遺傳算法的圖像分割方法提出一種應用于圖像分割的改進遺傳算法,算法中引入了優生算子、改進的變異算子和新個體,避免了局部早熟,提高了收斂速度和全局收斂能力。　　關鍵詞: 圖像分割&

2009-09-19 09:36:47

如何更改ABBYY PDF Transformer+界面語言

在安裝ABBYY PDF Transformer+時會讓您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項。在特殊情況下，您可能需要在安裝完成后更改界面語言以適應需求，方法其實很簡單，本文

2017-10-11 16:13:38

機器學習簡介與經典機器學習算法人才培養

、Source-Free DA上的應用。六、遷移學習前沿應用遷移學習在語義分割中的應用遷移學習在目標檢測中的應用遷移學習在行人重識別中的應用圖片與視頻風格遷移章節目標：掌握深度遷移學習在語義分割、目標檢測

2022-04-28 18:56:07

目標檢測和圖像語義分割領域性能評價指標

目標檢測和圖像語義分割領域的性能評價指標

2020-05-13 09:57:44

遷移學習

PDA、Source-Free DA上的應用。六、遷移學習前沿應用遷移學習在語義分割中的應用遷移學習在目標檢測中的應用遷移學習在行人重識別中的應用圖片與視頻風格遷移章節目標：掌握深度遷移學習在語義分割

2022-04-21 15:15:11

內電層分割的一般方法

內電層分割的一般方法，內電層分割的一般方法，內電層分割的一般方法。

2015-12-25 10:05:09

一種目標飛機分割提取方法

提出了一種目標飛機分割提取方法，該方法采用改進的使用金字塔式分割策略的以彩色高斯混合模型CMM（Gaussian Mixture Model）和迭代能量最小化為基礎的CJrabCut算法，達到將目標

2017-11-10 15:46:29

以語義、句式以及變量為基礎的翻譯方法

模式的基礎上對動詞進行詳細的研究。在對語義進行歸納總結以后，將動詞的語義模式分為三類，再將動詞語義模式庫進行搭建，最后設計出一種以語義、句式以及變量為基礎的翻譯方法，該漢譯方法適用于英語句子當中的動詞

2017-11-11 12:00:00

基于四層樹狀語義模型的場景語義識別方法

場景分類的主要方法是基于底層特征的方法和基于視覺詞包模型的方法，前者缺乏語義描述能力并且時間復雜度大，后者識別率低。借鑒兩類方法的優勢，提出了基于四層樹狀語義模型的場景語義識別新方法。四層語義模型

2017-12-07 11:17:48

基于語義向量表示的查詢擴展方法的應用設計

針對傳統查詢擴展方法在專業領域中擴展詞與原始查詢之間缺乏語義關聯的問題，提出一種基于語義向量表示的查詢擴展方法。首先，構建了一個語義向量表示模型，通過對語料庫中詞的上下文語義進行學習，得到詞的語義

2017-12-12 16:11:59

基于語義的文本語義分析

文本情感傾向性研究是人工智能的分支學科，涉及了計算語言學，數據挖掘，自然語言處理等多個學科。基于語義的情感傾向研究和基于機器學習的情感傾向研究是情感傾向性分析的兩個方向。本文采用了基于語義的方法

2017-12-15 16:35:11

圖像分割的基本方法解析

本文詳細介紹了圖像分割的基本方法有：基于邊緣的圖像分割方法、閾值分割方法、區域分割方法、基于圖論的分割方法、基于能量泛函的分割方法、基于聚類的分割方法等。圖像分割指的是根據灰度、顏色、紋理和形狀

2017-12-20 11:06:04

108009

基于內容的圖像分割方法綜述

的方法、基于像素聚類的方法和語義分割方法這3種類型并分別加以介紹對每類方法所包含的典型算法，尤其是最近幾年利用深度網絡技術的語義圖像分割方法的基本思想、優缺點進行了分析、對比和總結．介紹了圖像分割常用的基準

2018-01-02 16:52:41

基于拓撲分割的網絡可觀測性分析方法

。該方法將帶量測的電力網絡建模為量測拓撲單線圖，并在無注入量測節點處進行了拓撲分割，將網絡分割成了多個連通子網。利用廣度優先雙向搜索算法對含線路潮流量測的各個子網進行了可觀測性分析，在不可觀測子網巾分析了不可觀

2018-03-06 18:03:19

虛擬機自省中消除語義鴻溝方法

鴻溝消除方法。ModSG是一個模塊化系統，將語義修復分為2部分：與用戶直接交互的在線語義視圖構建和與操作系統知識交互的離線高級語義解析。二者以獨立的模塊實現且后者為前者提供語義重構時必要的內核語義信息。針對不同虛擬機狀

2018-03-09 13:47:46

利用深度學習模型實現監督式語義分割

最近進行語義分割的結構大多用的是卷積神經網絡（CNN），它首先會給每個像素分配最初的類別標簽。卷積層可以有效地捕捉圖像的局部特征，同時將這樣的圖層分層嵌入，CNN嘗試提取更寬廣的結構。隨著越來越多的卷積層捕捉到越來越復雜的圖像特征，一個卷積神經網絡可以將圖像中的內容編碼成緊湊的表示。

2018-05-25 10:09:16

5818

廣泛應用的城市語義分割的數據集整理

這是最早用于自動駕駛領域的語義分割數據集，發布于2007年末。他們應用自己的圖像標注軟件在一段10分鐘的視頻中連續標注了700張圖片，這些視頻是由安裝在汽車儀表盤的攝像機拍攝的，拍攝視角和司機的視角基本一致。

2018-05-29 09:42:19

7892

主要語義分割網絡：FCN,SegNet,U-Net以及一些半監督方法

我們將當前分類網絡（AlexNet, VGG net 和 GoogLeNet）修改為全卷積網絡，通過對分割任務進行微調，將它們學習的表征轉移到網絡中。然后，我們定義了一種新架構，它將深的、粗糙的網絡層語義信息和淺的、精細的網絡層的表層信息結合起來，來生成精確的分割。

2018-06-03 09:53:56

105067

MIT提出語義分割技術，電影特效自動化生成

來自 MIT CSAIL 的研究人員開發了一種精細程度遠超傳統語義分割方法的「語義軟分割」技術，連頭發都能清晰地在分割掩碼中呈現。

2018-08-23 14:18:08

3630

聚焦語義分割任務，如何用卷積神經網絡處理語義圖像分割？

CNN架構圖像語義分割圖像分割是根據圖像內容對指定區域進行標記的計算機視覺任務，簡言之就是「這張圖片里有什么，其在圖片中的位置是什么？」本文聚焦于語義分割任務，即在分割圖中將同一類別的不同實例視為

2018-09-17 15:21:01

421

如何用卷積神經網絡處理語義圖像分割

更具體地講，語義圖像分割的目標在于標記圖片中每一個像素，并將每一個像素與其表示的類別對應起來。因為會預測圖像中的每一個像素，所以一般將這樣的任務稱為密集預測。

2018-10-15 09:51:00

2939

基于D-AlexNet和多特征映射的交通場景語義分割方法

基于視覺的交通場景語義分割在智能車輛中起著重要作用。

2018-11-16 09:47:59

4555

李飛飛等人提出Auto-DeepLab：自動搜索圖像語義分割架構

簡單地移植圖像分類的方法不足以進行語義分割。在圖像分類中，NAS 通常使用從低分辨率圖像到高分辨率圖像的遷移學習 [92]，而語義分割的最佳架構必須在高分辨率圖像上運行。這表明，本研究需要

2019-01-15 13:51:12

3502

微軟亞研院提出用于語義分割的結構化知識蒸餾

該文中作者將語義分割問題看為像素分類問題，所以很自然的可以使用衡量分類差異的逐像素（Pixel-wise）的損失函數Cross entropy loss，這是在最終的輸出結果Score map中計算的。

2019-03-18 10:15:37

2037

Facebook AI使用單一神經網絡架構來同時完成實例分割和語義分割

這一新架構“全景 FPN ”在 Facebook 2017 年發布的 Mask R-CNN 的基礎上添加了一個用于語義分割的分支。這一新架構可以同時對圖像進行實例和語義分割，而且精確度與只進行實例或語義分割的神經網絡相當，這相當于能將傳統方法所需要的計算資源減半。

2019-04-22 11:46:57

2598

Deepen AI開發融合傳感器數據4D語義分割

初創公司Deepen AI由前谷歌工程師和產品經理創建，開發用于自動駕駛系統的人工智能和注釋工具。據外媒報道，目前該公司正在開發最新的激光雷達和融合傳感器數據4D語義分割，并聲稱能夠生成精確的、可伸縮的4D分割數據，也就是跟隨時間發展的3D幀。

2019-05-26 11:13:42

1105

關于如何使用MATLAB 深度學習進行語義分割的方法詳解

從視覺上看，道路、天空、建筑物等類的語義分割結果重疊情況良好。然而，行人和車輛等較小的對象則不那么準確。可以使用交叉聯合 (IoU) 指標（又稱 Jaccard 系數）來測量每個類的重疊量。使用 jaccard 函數測量 IoU。

2019-09-12 11:30:59

9867

DeepLab進行語義分割的研究分析

形成更快，更強大的語義分割編碼器-解碼器網絡。DeepLabv3+是一種非常先進的基于深度學習的圖像語義分割方法，可對物體進行像素級分割。本文將使用labelme圖像標注工具制造自己的數據集，并使用DeepLabv3+訓練自己的數據集，具體包括：數據集標注、數據集格式轉換、修改程序文

2019-10-24 08:00:00

用圖卷積網絡解決語義分割問題

為了避免上述問題，來自中科院自動化所、北京中醫藥大學的研究者們提出一個執行圖像語義分割任務的圖模型 Graph-FCN，該模型由全卷積網絡（FCN）進行初始化。

2020-05-13 15:21:44

6735

改善BEV的新興技術是什么？

BEV較低的運行成本是另一個主要優勢。較低的運行成本是由于較低的維護成本和燃料成本。此外，BEV有更少的活動部件和更少的流體，這意味著約50%的維護費用比ICEV。在美國，BEV每英里的平均電力成本

2020-07-16 15:00:48

827

語義分割算法系統介紹

圖像語義分割是圖像處理和是機器視覺技術中關于圖像理解的重要任務。語義分割即是對圖像中每一個像素點進行分類，確定每個點的類別，從而進行區域劃分，為了能夠幫助大家更好的了解語義分割領域，我們精選

2020-11-05 10:34:27

4435

大華股份AI刷新了Cityscapes數據集中語義分割任務的全球最好成績

繼大華AI取得KITTI語義分割競賽第一之后，近日，大華股份基于深度學習算法的語義分割技術，刷新了Cityscapes數據集中語義分割任務（Pixel-Level Semantic Labeling

2020-11-05 18:29:09

3895

RGPNET：復雜環境下實時通用語義分割網絡

本文介紹的論文提出了一種新的實時通用語義分割體系結構RGPNet，在復雜環境下取得了顯著的性能提升。作者： Tom Hardy首發：3D視覺工坊...

2020-12-10 19:15:12

446

語義分割速覽—全卷積網絡FCN

分割任務論文集與各方實現：[鏈接]pytorch model zoo：[鏈接]gluon model zoo：[鏈接]SOTA Leaderboard：[鏈接]

2020-12-10 19:24:47

1338

詳解ENet：CPU可以實時的道路分割網絡

OpenCV DNN模塊支持的圖像語義分割網絡FCN是基于VGG16作為基礎網絡，運行速度很慢，無法做到實時語義分割。2016年提出的ENet實時語義分...

2020-12-15 00:18:15

324

語義分割方法發展過程

語義分割的最簡單形式是對一個區域設定必須滿足的硬編碼規則或屬性，進而指定特定類別標簽. 編碼規則可以根據像素的屬性來構建，如灰度級強度(gray level intensity). 基于該技術的一種

2020-12-28 14:28:23

4583

基于Transformer的掩膜時序建模方法

　　現有時序異常檢測方法存在計算效率低和可解釋性差的問題。考慮到 Transformer模型在自然語言處理任務中表現岀并行效率髙且能夠跨距離提取關系的優勢，提岀基于 Transformer的掩膜時序

2021-03-10 16:08:38

基于雙階段網絡的交互式分割算法模型SeribNer

針對已有多數交互式分割方法交互方式單一、預測結果精度較低的問題，構建一種基于雙階段網絡的目標分割模型 Scribner，以實現更完整和精細的交互式目標分割。采用靈活涂畫的交互方式，通過編碼形成交互

2021-03-11 11:48:45

分析總結基于深度神經網絡的圖像語義分割方法

隨著深度學習技術的快速發展及其在語義分割領域的廣泛應用，語義分割效果得到顯著提升。對基于深度神經網絡的圖像語義分割方法進行分析與總結，根據網絡訓練方式的不同，將現有的圖像語義分割分為全監督學習圖像

2021-03-19 14:14:06

結合雙目圖像的深度信息跨層次特征的語義分割模型

為改善單目圖像語義分割網絡對圖像深度變化區域的分割效果，提出一種結合雙目圖像的深度信息和跨層次特征進行互補應用的語義分割模型。在不改變已有單目孿生網絡結構的前提下，利用該模型分別提取雙目左、右輸入

2021-03-19 14:35:24

基于深度學習的三維點云語義分割研究分析

近年來，深度傳感器和三維激光掃描儀的普及推動了三維點云處理方法的快速發展。點云語義分割作為理解三維場景的關鍵步驟，受到了研究者的廣泛關注。隨著深度學習的迅速發展并廣泛應用到三維語義分割領域，點云語義

2021-04-01 14:48:46

基于深度神經網絡的圖像語義分割方法

圖像語義分割是計算機視覺領堿近年來的熱點硏究課題，隨著深度學習技術的興起，圖像語義分割與深度學習技術進行融合發展，取得了顯著的進步，在無人駕駛、智能安防、智能機器人、人機交互等真實場景應用廣泛。首先

2021-04-02 13:59:46

基于密集層和注意力機制的快速場景語義分割方法

針對傳統語義分割網絡速度慢、精度低的問題，提出一種基于密集層和注意力機制的快速場景語義分割方法。在 Resnet網絡中加入密集層和注意力模塊，密集層部分采用兩路傳播方式，以更好地獲得多尺度目標

2021-05-24 15:48:33

利用可分離殘差卷積和語義補償的U-Net裂縫分割

壩面缺陷檢測是水利樞紐安全巡檢的關鍵環節，但復雜環境下壩面圖像存在干擾噪聲大和像素不均衡等冋題造成壩面裂縫難以精細分割。提出一種利用可分離殘差卷積和語義補償的U-Net裂縫分割方法。在U-Net網絡

2021-05-24 16:40:31

基于SEGNET模型的圖像語義分割方法

使用原始 SEGNET模型對圖像進行語義分割時，未對圖像中相鄰像素點間的關系進行考慮，導致同一目標中像素點類別預測結果不一致。通過在 SEGNET結構中加入一條自上而下的通道，使得 SEGNET包含

2021-05-27 14:54:54

MaX-DeepLab：雙路徑Transformer架構概覽

全景分割是一個計算機視覺任務，會將語義分割（為每個像素分配類標簽）和實例分割（檢測和分割每個對象實例）合并。作為實際應用中的核心任務，全景分割通常使用多個代理 (Surrogate) 子任務

2021-05-31 11:07:02

2892

一種語義特征圖引導的青光眼篩查方法

現有的端到端青光眼篩査模型往往忽略細微病變區域而導致過擬合冋題，并且其可解釋性區域尚不明確針對上述問題，提出一種語義特征圖引導的青光眼篩查方法。利用基于 Mobilenet v2作為特征提取網絡

2021-06-03 15:28:50

藏文句義分割方法綜述

地揭示句子的語義。為此，提出一種藏文句義分割方法，通過長度介于詞語和句子之間的語義塊單元進行句義分割。在對句子進行分詞和標注的基礎上，重新組合分詞結果，將句子分割為若干個語義塊，并采用空洞卷積神經網絡模型對

2021-06-07 11:53:14

基于圖像語義分割的毛筆筆觸實時生成技術

和筆跡。使得現存書法筆跡生成軟件僅僅用于娛樂，而難以上升到數字化書法教育層面。文中從計算機視覺的角度出發，通過4個相機獲取毛筆的實時書寫圖像：針對 Deeplabv3+語義分割算法無法有效地分割小尺寸類別的缺點進行優化，

2021-06-07 15:10:16

全局雙邊網絡語義分割算法綜述

語義分割任務是對圖像中的物體按照類別進行像素級別的預測，其難點在于在保留足夠空間信息的同時獲取足夠的上下文信息。為解決這一問題，文中提出了全局雙邊網絡語義分割算法。該算法將大尺度卷積核融入

2021-06-16 15:20:22

基于語義分割的輸電線路中防震錘識別

2021-06-29 16:29:03

BEVSegFormer創造了新的BEV分割SOTA

傳統方法一般會先在圖像空間生成分割結果，然后通過逆透視變換（IPM）函數轉換到BEV空間。雖然這是一種連接圖像空間和BEV空間的簡單直接的方法，但它需要準確的相機內外參，或者實時的相機位姿估計。所以，視圖變換的實際效果有可能比較差。

2022-04-27 09:50:38

2302

跨圖像關系型KD方法語義分割任務-CIRKD

語義分割任務作為計算機視覺中的基礎任務之一，其目的是對圖像中的每一個像素進行分類。該任務也被廣泛應用于實踐，例如自動駕駛和醫學圖像分割。

2022-05-10 11:30:53

1956

基于一致性的半監督語義分割方法

語義分割是一項重要的像素級別分類任務。但是由于其非常依賴于數據的特性（data hungary），模型的整體性能會因為數據集的大小而產生大幅度變化。同時，相比于圖像級別的標注，針對圖像切割的像素級標注會多花費十幾倍的時間。因此，在近些年來半監督圖像切割得到了越來越多的關注。

2022-08-11 11:29:03

696

用于弱監督大規模點云語義分割的混合對比正則化框架

為了解決大規模點云語義分割中的巨大標記成本，我們提出了一種新的弱監督環境下的混合對比正則化（HybridCR）框架，該框架與全監督的框架相比具有競爭性。

2022-09-05 14:38:00

999

一個具有泛化性的小樣本語義分割（GFS-Seg）

訓練語義分割模型需要大量精細注釋的數據，這使得它很難快速適應不滿足這一條件的新類，FS-Seg 在處理這個問題時有很多限制條件。

2022-09-13 08:56:04

1544

語義分割模型 SegNeXt方法概述

語義分割是對圖像中的每個像素進行識別的一種算法，可以對圖像進行像素級別的理解。作為計算機視覺中的基礎任務之一，其不僅僅在學術界廣受關注，也在無人駕駛、工業檢測、輔助診斷等領域有著廣泛的應用。

2022-09-27 15:27:58

2413

普通視覺Transformer（ViT）用于語義分割的能力

本文探討了普通視覺Transformer（ViT）用于語義分割的能力，并提出了SegViT。以前基于ViT的分割網絡通常從ViT的輸出中學習像素級表示。不同的是，本文利用基本的組件注意力機制生成語義分割的Mask。

2022-10-31 09:57:41

3801

利用Transformer和CNN 各自的優勢以獲得更好的分割性能

概述在這篇論文中，提出了一種新的醫學圖像分割混合架構：PHTrans，它在主要構建塊中并行混合 Transformer 和 CNN，分別從全局和局部特征中生成層次表示并自適應聚合它們，旨在充分利用

2022-11-05 11:38:08

5577

視覺Transformer在CV中的現狀、趨勢和未來方向

全面性和可讀性：本文根據它們在三個基本CV任務（即分類、檢測和分割）和數據流類型（即圖像、點云、多流數據）上的應用，全面回顧了100多個視覺Transformer。論文選擇了更具代表性的方法

2022-11-08 14:20:35

2123

跨域小樣本語義分割新基準介紹

繼醫學圖像處理系列之后，我們又回到了小樣本語義分割主題上，之前閱讀筆記的鏈接我也在文末整理了一下。

2022-11-15 10:05:34

1000

點云分割相較圖像分割的優勢是啥？

自動駕駛領域的下游任務，我認為主要包括目標檢測、語義分割、實例分割和全景分割。其中目標檢測是指在區域中提取目標的候選框并分類，語義分割是對區域中不同類別的物體進行區域性劃分，實例分割是將每個類別進一步細化為單獨的實例，全景分割則要求對區域中的每一個像素/點云都進行分類。

2022-12-14 14:25:38

1787

BEV+Transformer對智能駕駛硬件系統有著什么樣的影響？

BEV+Transformer是目前智能駕駛領域最火熱的話題，沒有之一，這也是無人駕駛低迷期唯一的亮點，BEV+Transformer徹底終結了2D直視圖+CNN時代

2023-02-16 17:14:26

2097

圖像語義分割的概念與原理以及常用的方法

從最簡單的像素級別“閾值法”（Thresholding methods）、基于像素聚類的分割方法（Clustering-based segmentation methods）到“圖劃分”的分割方法

2023-04-20 10:01:33

1891

AI分割一切——用OpenVINO?加速Meta SAM大模型

物體分割是計算機視覺中的核心任務之一，旨在識別圖像中屬于特定對象的像素。通常實現圖像分割的方法有兩種，即交互式分割和自動分割。交互式分割可以對任何類別的對象進行分割，但需要人工引導，并通過反復精細化掩碼來完成。

2023-04-23 11:16:25

862

語義分割數據集：從理論到實踐

語義分割是計算機視覺領域中的一個重要問題，它的目標是將圖像或視頻中的語義信息（如人、物、場景等）從背景中分離出來，以便于進行目標檢測、識別和分類等任務。語義分割數據集是指用于訓練和測試語義分割算法的數據集合。本文將從語義分割數據集的理論和實踐兩個方面進行介紹。

2023-04-23 16:45:00

473

語義分割標注：從認知到實踐

隨著人工智能技術的不斷發展，語義分割標注已經成為計算機視覺領域的一個熱門話題。語義分割是指將圖像中的每個像素分配給一個預定義的語義類別，以便在計算機視覺應用中進行分類和分析。標注語義分割的圖像可以幫助計算機視覺系統更好地理解和分析圖像中的內容，并在許多任務中取得更好的性能。

2023-04-30 21:20:24

721

AI算法說-圖像分割

語義分割是區分同類物體的分割任務，實例分割是區分不同實例的分割任務，而全景分割則同時達到這兩個目標。全景分割既可以區分彼此相關的物體，也可以區分它們在圖像中的位置，這使其非常適合對圖像中所有類別的目標進行分割。

2023-05-17 14:44:24

810

PyTorch教程14.9之語義分割和數據集

電子發燒友網站提供《PyTorch教程14.9之語義分割和數據集.pdf》資料免費下載

2023-06-05 11:10:38

PyTorch教程-14.9. 語義分割和數據集

14.9. 語義分割和數據集? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:37

375

自動駕駛深度多模態目標檢測和語義分割:數據集、方法和挑戰

了許多解決深度多模態感知問題的方法。然而，對于網絡架構的設計，并沒有通用的指導方針，關于“融合什么”、“何時融合”和“如何融合”的問題仍然沒有定論。本文系統地總結了自動駕駛中深度多模態目標檢測和語義分割的方法，

2023-06-06 10:37:11

基于幾何變換器的2D-to-BEV視圖轉換學習

BEV感知是自動駕駛的重要趨勢。常規的自動駕駛算法方法基于在前視圖或透視圖中執行檢測、分割、跟蹤，而在BEV中可表示周圍場景，相對而言更加直觀，并且在BEV中表示目標對于后續模塊最為理想。

2023-06-06 17:47:22

843

基于純視覺的感知方法

是指將周圍多個攝像頭的連續幀作為輸入，然后將像平面視角轉換為鳥瞰圖視角，在得到的鳥瞰圖特征上執行諸如三維目標檢測、地圖視圖語義分割和運動預測等感知任務。 ? BEV感知性能的提高取決于如何快速且精準地獲取道路和物體特征表示。圖

2023-06-15 14:20:38

575

每日一課 | 智慧燈桿視覺技術之語義分割

3.2.4語義分割圖3-7所示為機器視覺語義分割示例。計算機視覺的核心是分割，它將整個圖像分成一個個像素組，然后對其進行標記和分類。語義分割試圖在語義上理解圖像中每個像素的角色（例如，識別它是道路

2022-03-07 09:35:42

279

SA-1B數據集的1/50進行訓練現有的實例分割方法

SAM被認為是里程碑式的視覺基礎模型，它可以通過各種用戶交互提示來引導圖像中的任何對象的分割。SAM利用在廣泛的SA-1B數據集上訓練的Transformer模型，使其能夠熟練處理各種場景和對象。

2023-06-28 15:08:33

2574

一種免反向傳播的 TTA 語義分割方法

自蒸餾正則化實現內存高效的 CoTTA 推薦對領域適應不了解的同學先閱讀前置文章。目前的 TTA 方法針對反向傳播的方式可以大致劃分為：請添加圖片描述之前介紹過的 CoTTA 可以屬于 Fully

2023-06-30 15:10:59

318

CVPR 2023 中的領域適應: 一種免反向傳播的TTA語義分割方法

TTA 在語義分割中的應用，效率和性能都至關重要。現有方法要么效率低（例如，需要反向傳播的優化），要么忽略語義適應（例如，分布對齊）。此外，還會受到不穩定優化和異常分布引起的誤差積累的困擾。

2023-06-30 15:13:00

571

基于SAM設計的自動化遙感圖像實例分割方法

RSPrompter的目標是學習如何為SAM生成prompt輸入，使其能夠自動獲取語義實例級掩碼。相比之下，原始的SAM需要額外手動制作prompt，并且是一種類別無關的分割方法。

2023-07-04 10:45:21

456

基于 Transformer 的分割與檢測方法

一篇關于 ?Transformer-Based 的 Segmentation 的綜述，系統地回顧了近些年來基于 Transformer? 的分割與檢測模型，調研的最新模型

2023-07-05 10:18:39

463

CVPR 2023 | 華科&MSRA新作：基于CLIP的輕量級開放詞匯語義分割架構

Adapter Network (SAN)的新框架，用于基于預訓練的視覺語言模型進行開放式語義分割。該方法將語義分割任務建模為區域識別問題，并通過附加一個側面的可學習網絡來實現。該網絡可以重用CLIP

2023-07-10 10:05:02

523

transformer模型詳解：Transformer 模型的壓縮方法

?動機&背景 Transformer 模型在各種自然語言任務中取得了顯著的成果，但內存和計算資源的瓶頸阻礙了其實用化部署。低秩近似和結構化剪枝是緩解這一瓶頸的主流方法。然而，作者通過分析發現，結構化

2023-07-17 10:50:43

1172

實時語義建圖與潛在先驗網絡和準平面分割

論文在III-B部分描述了論文方法背后的SLAM管道。論文的2D潛在先驗網絡(LPN)在III-C中描述。LPN輸出融合到論文在III-D中描述的論文新穎的準平面超分段(QPOS)方法分割的地圖

2023-07-19 15:55:21

275

基于深度學習的點云分割的方法介紹

　　摘要：點云分割是點云數據理解中的一個關鍵技術，但傳統算法無法進行實時語義分割。近年來深度學習被應用在點云分割上并取得了重要進展。綜述了近四年來基于深度學習的點云分割的最新工作，按基本思想分為

2023-07-20 15:23:59

BEV人工智能transformer

BEV人工智能transformer? 人工智能Transformer技術是一種自然語言處理領域的重要技術，廣泛應用于自然語言理解、機器翻譯、文本分類等任務中。它通過深度學習算法從大規模語料庫中自動

2023-08-22 15:59:28

549

BEV感知中的Transformer算法介紹

將BEV下的每個grid作為query，在高度上采樣N個點，投影到圖像中sample到對應像素的特征，且利用了空間和時間的信息。并且最終得到的是BEV featrue，在此featrue上做Det和Seg。

2023-09-04 10:22:33

776

深度學習圖像語義分割指標介紹

深度學習在圖像語義分割上已經取得了重大進展與明顯的效果，產生了很多專注于圖像語義分割的模型與基準數據集，這些基準數據集提供了一套統一的批判模型的標準，多數時候我們評價一個模型的性能會從執行時間、內存使用率、算法精度等方面進行考慮。

2023-10-09 15:26:12

120

利用Transformer BEV解決自動駕駛Corner Case的技術原理

BEV是一種將三維環境信息投影到二維平面的方法，以俯視視角展示環境中的物體和地形。在自動駕駛領域，BEV 可以幫助系統更好地理解周圍環境，提高感知和決策的準確性。在環境感知階段，BEV 可以將激光雷達、雷達和相機等多模態數據融合在同一平面上。

2023-10-11 16:16:03

367

機器視覺圖像分割的方法有哪些？

現有的圖像分割方法主要分以下幾類：基于閾值（threshold）的分割方法、基于區域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。

2023-11-02 10:26:39

199

BEV感知的二維特征點

統用于檢測和跟蹤車輛路徑中的行人、車輛和障礙物等物體。 BEV圖往往是利用四路環視魚眼圖，經過內外參標定后拼接而成。對于拼接后的BEV視圖，可以利用深度學習進行語義分割。分割后的BEV視圖，通過計算機視覺算法可以提取出車輛、行人等障礙物的外輪廓。利用這些特征，我們可

2023-11-14 11:37:19

287

一種在線激光雷達語義分割框架MemorySeg

本文提出了一種在線激光雷達語義分割框架MemorySeg，它利用三維潛在記憶來改進當前幀的預測。傳統的方法通常只使用單次掃描的環境信息來完成語義分割任務，而忽略了觀測的時間連續性所蘊含的上下文信息

2023-11-21 10:48:00

197

基于Transformer的多模態BEV融合方案

由于大量的相機和激光雷達特征以及注意力的二次性質，將 Transformer 架構簡單地應用于相機-激光雷達融合問題是很困難的。

2024-01-23 11:39:39

137

已全部加載完成

搜索歷史

基于雙向前置交互Transformer的BEV語義分割方法

評論