色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華南理工開源VISTA:雙跨視角空間注意力機制實現3D目標檢測SOTA

新機器視覺 ? 來源:機器之心 ? 作者:鄧圣衡、梁智灝、 ? 2022-04-07 09:39 ? 次閱讀

本文提出了 VISTA,一種新穎的即插即用多視角融合策略,用于準確的 3D 對象檢測。為了使 VISTA 能夠關注特定目標而不是一般點,研究者提出限制學習的注意力權重的方差。將分類和回歸任務解耦以處理不平衡訓練問題。在 nuScenes 和 Waymo 數據集的基準測試證明了 VISTA 方法的有效性和泛化能力。該論文已被CVPR 2022接收。

第一章 簡介 LiDAR (激光雷達)是一種重要的傳感器,被廣泛用于自動駕駛場景中,以提供物體的精確 3D 信息。因此,基于 LiDAR 的 3D 目標檢測引起了廣泛關注。許多 3D 目標檢測算法通過將無序和不規則的點云進行體素化,隨后利用卷積神經網絡處理體素數據。然而,3D 卷積算子在計算上效率低下且容易消耗大量內存。為了緩解這些問題,一系列工作利用稀疏 3D 卷積網絡作為 3D 骨干網絡來提取特征。如圖 1 所示,這些工作將 3D 特征圖投影到鳥瞰圖 (BEV) 或正視圖 (RV) 中,并且使用各種方法從這些 2D 特征圖生成對象候選 (Object Proposals)。

9f641018-b607-11ec-aa7f-dac502259ad0.png

圖 1:單視角檢測和文章提出的基于 VISTA 的多視角融合檢測的對比 不同的視角有各自的優缺點需要考慮。在 BEV 中,對象不相互重疊,每個對象的大小與距自我車輛 (ego-vehicle) 的距離無關。RV 是 LiDAR 點云的原生表征,因此,它可以產生緊湊和密集的特征。然而,無論是選擇 BEV 還是 RV,投影都會不可避免地損害 3D 空間中傳遞的空間信息的完整性。例如,由于 LiDAR 數據生成過程自身的特性和自遮擋效應,BEV 表征非常稀疏,并且它壓縮了 3D 點云的高度信息,在 RV 中,由于丟失了深度信息,遮擋和對象大小的變化會更加嚴重。顯然,從多個視角進行聯合學習,也就是多視角融合,為我們提供了準確的 3D 目標檢測的解決方案。先前的一些多視角融合算法從單個視角生成候選目標,并利用多視角特征來細化候選目標。此類算法的性能高度依賴于生成的候選的質量;但是,從單一視角生成的候選沒有使用所有可用信息,可能導致次優解的產生。其他工作根據不同視角之間的坐標投影關系融合多視角特征。這種融合方法的準確性依賴于另一個視角的相應區域中可提供的補充信息;然而遮擋效應是不可避免的,這會導致低質量的多視角特征融合產生。 為了提高 3D 目標檢測的性能,在本文中,給定從 BEV 和 RV 學習到的 3D 特征圖,我們提出通過雙跨視角空間注意力機制 (VISTA) 從全局空間上下文中生成高質量的融合多視角特征用于預測候選目標,如圖 1 所示。所提出的 VISTA 利用源自Transformer 的注意機制,其中 Transformer 已經被成功應用于各種研究環境(例如自然語言處理、2D 計算機視覺)中。與通過坐標投影直接融合相比,VISTA 中內置的注意力機制利用全局信息,通過將單個視角的特征視為特征元素序列,自適應地對視角間的所有成對相關性進行建模。為了全面建模跨視角相關性,必須考慮兩個視角中的局部信息,因此我們用卷積算子替換傳統注意力模塊中的 MLP,我們在實驗部分展示了這樣做的有效性。盡管如此,如實驗部分所示,學習視角之間的相關性仍然具有挑戰性。直接采用注意力機制進行多視角融合帶來的收益很小,我們認為這主要是由于 3D 目標檢測任務本身的特性導致的。 一般來說,3D 目標檢測任務可以分為兩個子任務:分類和回歸。正如先前一些工作(LaserNet, CVCNet) 中所闡述的,3D 目標檢測器在檢測整個 3D 場景中的物體時面臨許多挑戰,例如遮擋、背景噪聲和點云缺乏紋理信息。因此,注意力機制很難學習到相關性,導致注意力機制傾向于取整個場景的均值,這是出乎意料的,因為注意力模塊是為關注感興趣的區域而設計的。因此,我們顯式地限制了注意力機制學習到的注意力圖 (Attention Map) 的方差,從而引導注意力模塊理解復雜的 3D 戶外場景中的有意義區域。此外,分類和回歸的不同學習目標決定了注意力模塊中學習的 queries 和 keys 的不同期望。不同物體各自的回歸目標(例如尺度、位移)期望 queries 和 keys 了解物體的特性。相反,分類任務推動網絡了解物體類的共性。不可避免地,共享相同的注意力建模會給這兩個任務的訓練帶來沖突。此外,一方面,由于紋理信息的丟失,神經網絡難以從點云中提取語義特征。另一方面,神經網絡可以很容易地從點云中學習物體的幾何特性。這帶來的結果就是,在訓練過程中,產生了以回歸為主導的困境。為了應對這些挑戰,我們在提出的 VISTA 中將這兩個任務解耦,以學習根據不同任務整合不同的線索。 我們提出的 VISTA 是一個即插即用的模塊,可以被用于近期的先進的目標分配 (Target Assignment) 策略中。我們在 nuScenes 和 Waymo 兩個基準數據集上測試了提出的基于 VISTA 的多視角融合算法。在驗證集上的消融實驗證實了我們的猜想。提出的 VISTA 可以產生高質量的融合特征,因此,我們提出的方法優于所有已公布開源的算法。在提交時,我們的最終結果在 nuScenes 排行榜上的 mAP 和 NDS 達到 63.0% 和 69.8%。在 Waymo 上,我們在車輛、行人和騎自行車人上分別達到了 74.0%、72.5% 和 71.6% 的 2 級 mAPH。我們將我們的主要貢獻總結如下:

我們提出了一種新穎的即插即用融合模塊:雙跨視角空間注意力機制 (VISTA),以產生融合良好的多視角特征,以提高 3D 目標檢測器的性能。我們提出的 VISTA 用卷積算子代替了 MLP,這能夠更好地處理注意力建模的局部線索。

我們將 VISTA 中的回歸和分類任務解耦,以利用單獨的注意力建模來平衡這兩個任務的學習。我們在訓練階段將注意力方差約束應用于 VISTA,這有助于注意力的學習并使網絡能夠關注感興趣的區域。

我們在 nuScenes 和 Waymo 兩個基準數據集上進行了徹底的實驗。我們提出的基于 VISTA 的多視角融合可用于各種先進的目標分配策略,輕松提升原始算法并在基準數據集上實現最先進的性能。具體來說,我們提出的方法在整體性能上比第二好的方法高出 4.5%,在騎自行車的人等安全關鍵對象類別上高出 24%。

9f7845e2-b607-11ec-aa7f-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2203.09704

代碼鏈接:https://github.com/Gorilla-Lab-SCUT/VISTA

第二章 雙跨視角空間注意力機制 對于大多數基于體素的 3D 目標檢測器,它們密集地產生逐 pillar 的目標候選,經驗上講,生成信息豐富的特征圖可以保證檢測質量。在多視角 3D 目標檢測的情況下,目標候選來自融合的特征圖,因此需要在融合期間全面考慮全局空間上下文。為此,我們尋求利用注意力模塊捕獲全局依賴關系的能力進行多視角融合,即跨視角空間注意力。在考慮全局上下文之前,跨視角空間注意力模塊需要聚合局部線索以構建不同視角之間的相關性。因此,我們提出 VISTA,其中基于多層感知器 (MLP) 的標準注意力模塊被卷積層取代。然而,在復雜的 3D 場景中學習注意力是很困難的。為了采用跨視角注意力進行多視角融合,我們進一步解耦了 VISTA 中的分類和回歸任務,并應用提出的注意力約束來促進注意力機制的學習過程。 在本節中,我們將首先詳細介紹所提出的雙跨視角空間注意力機制(VISTA)的整體架構,然后詳細闡述所提出的 VISTA 的解耦設計和注意力約束。 2.1 整體架構

9f8e3e7e-b607-11ec-aa7f-dac502259ad0.png

圖 2:VISTA 整體架構 如圖 2 所示,VISTA 將來自兩個不同視角的特征序列作為輸入,并對多視角特征之間的跨視角相關性進行建模。與使用線性投影轉換輸入特征序列的普通注意力模塊不同,VISTA 通過 3x3 卷積操作子將輸入特征序列9fa1dc72-b607-11ec-aa7f-dac502259ad0.png投影到 queries9fb301aa-b607-11ec-aa7f-dac502259ad0.png9fc31d42-b607-11ec-aa7f-dac502259ad0.png中。為了將分類和回歸解耦開,Q和K通過單獨的 MLP 投影到9fcff9fe-b607-11ec-aa7f-dac502259ad0.png。為了計算V的加權和作為跨視角輸出F,我們應用縮放的點積來獲得跨視角注意力權重9fe113c4-b607-11ec-aa7f-dac502259ad0.png: ?

9ff6c372-b607-11ec-aa7f-dac502259ad0.png

并且輸出將是a009f60e-b607-11ec-aa7f-dac502259ad0.png。輸出F_i將被饋送到單個前饋網絡以FFN_i獲得最終結果。我們采用先前工作中廣泛使用的架構作為我們的 FFN,以確保非線性和多樣性。我們提出的 VISTA 是一種單階段方法,可根據跨視角融合的特征直接生成候選目標;這樣的設計可以利用更多信息進行準確高效的 3D 目標檢測。 ?2.2 解耦分類和回歸任務? VISTA 將分類和回歸任務解耦。在共享卷積算子之后,queries 和 keys 通過單獨的線性投影進一步處理產生Q_i和K_i,然后它們將根據語義信息或幾何信息參與不同的注意力建模。這種解耦的動機是分類和回歸的監督信號對訓練造成的不同影響。 ? 給定場景中的 query 目標,為了分類,注意力模塊需要從全局上下文中的對象中聚合語義線索,以豐富融合特征中傳達的語義信息。這樣的目標要求學習的 queries 和 keys 知道同一類別的不同對象之間的共性,以使同一類別的對象在語義上應該相互匹配。然而,回歸任務不能采用相同的 queries 和 keys,因為不同的對象有自己的幾何特征(例如位移、尺度、速度等),回歸特征應該在不同的對象上是多樣的。因此,在分類和回歸的聯合訓練過程中,共享相同的 queries 和 keys 會導致注意力學習發生沖突。 ? 此外,無論是單視角還是多視角,分類和回歸結果都是從傳統的基于體素的 3D 目標檢測器中的相同特征圖預測的。然而,由于 3D 場景的固有屬性,3D 點云中不可避免地存在遮擋和紋理信息丟失,3D 檢測器難以提取語義特征,給分類學習帶來很大挑戰。相反,3D 點云傳達的豐富幾何信息減輕了網絡理解物體幾何屬性的負擔,這是學習回歸任務的基礎。結果,在網絡訓練過程中,出現了分類和回歸之間學習的不平衡現象,其中分類的學習被回歸主導。這種不平衡的學習是基于 3D 點云的,包含分類和回歸任務的 3D 目標檢測中的常見問題,這將對檢測性能產生負面影響。具體來說,3D 檢測器在具有相似幾何特征的不同對象類別(例如卡車和公共汽車)上不會很魯棒。 ? 為了緩解上述問題,我們分別為語義和幾何信息分別建立注意力模型。注意力模塊的輸出是基于構建的語義和幾何注意力權重的a01d3ee4-b607-11ec-aa7f-dac502259ad0.png。分類和回歸的監督分別應用于a02f4eea-b607-11ec-aa7f-dac502259ad0.png,保證了相應任務的有效學習。 ?2.3 注意力約束? 當學習從全局上下文中對跨視角相關性進行建模時,所提出的 VISTA 面臨著許多挑戰。3D 場景包含大量背景點(大約高達 95%),只有一小部分是有助于檢測結果的興趣點。在跨視角注意力的訓練過程中,海量的背景點會給注意力模塊帶來意想不到的噪音。此外,復雜 3D 場景中的遮擋效應給注意力學習帶來了不可避免的失真。因此,注意力模塊傾向于關注不相關的區域。注意力學習不佳的極端情況是全局平均池化(GAP)操作,正如我們在實驗部分中所展示的,沒有任何明確的監督,直接采用注意力模塊進行多視角融合會產生類似于 GAP 的性能,這表明注意力模塊不能很好地對跨視角相關性建模。 ? 為了使注意力模塊能夠專注于特定目標而不是一般的點,我們提出對學習的注意力權重的方差施加約束。利用提出的約束,我們使網絡能夠學習注意到特定目標。通過將注意力方差約束與傳統的分類回歸監督信號相結合,注意力模塊專注于場景中有意義的目標,從而產生高質量的融合特征。我們將提出的約束設定為訓練期間的輔助損失函數。為簡單起見,我們忽略 batch 維度,給定學習的注意力權重a042f71a-b607-11ec-aa7f-dac502259ad0.png分別是 BEV 和 RV 中的 pillar 數量,xy 平面中 GT 框的尺度和中心位置的集合a0529972-b607-11ec-aa7f-dac502259ad0.png,其中a067b51e-b607-11ec-aa7f-dac502259ad0.png是場景中的框數量。對于 BEV 中的每個 pillar,我們根據體素大小計算其中心的真實坐標,并得到集合a0793f78-b607-11ec-aa7f-dac502259ad0.png。每個 GT 框的注意力權重通過以下方式獲得: ?

a0888258-b607-11ec-aa7f-dac502259ad0.png

然后我們為所有 GT 框制定方差約束如下:

a09c4612-b607-11ec-aa7f-dac502259ad0.png

其中N_q是b_q由包圍的 pillar 的數量,a0afa5c2-b607-11ec-aa7f-dac502259ad0.png計算給定向量的方差。 ?第三章 實現?3.1 體素化? 我們根據 x,y,z 軸對點云進行體素化。對于 nuScenes 數據集,體素化的范圍是[-51.2, 51.2]m, [-51.2,51.2]m 和[-5.0,3]m,以 x,y,z 表示。對于 Waymo 數據集,范圍為[-75.2,75.2]m、[-75.2,75.2]m 和[-2,4]m。除非特別提及,否則我們所有的實驗都是在 x、y、z 軸的[0.1,0.1,0.1]m 的低體素化分辨率下進行的。 ?3.2 數據增廣? 點云根據 x,y 軸隨機翻轉,圍繞 z 軸旋轉,范圍為[-0.3925,0.3925]rad,縮放系數范圍為 0.95 到 1.05,平移范圍為[ 0.2,0.2,0.2]m 在 x,y,z 軸上。采用類別平衡分組采樣和數據庫采樣來提高訓練時正樣本的比例。 ?3.3 聯合訓練? 我們在各種目標分配策略 (CBGS, OHS, CenterPoint) 上訓練 VISTA。為了訓練網絡,我們計算不同目標分配策略的原始損失函數,我們建議讀者參考他們的論文以了解更多關于損失函數的細節。簡而言之,我們將分類和回歸考慮在內: ?

a0beff54-b607-11ec-aa7f-dac502259ad0.png

其中λ_1和λ_2是損失函數權重,a0d321c8-b607-11ec-aa7f-dac502259ad0.png是 GT 標簽y和a0e7751a-b607-11ec-aa7f-dac502259ad0.png預測之間的分類損失函數,a0f4d714-b607-11ec-aa7f-dac502259ad0.png是 GT 框b和預測框a106d748-b607-11ec-aa7f-dac502259ad0.png的回歸損失函數。 ? 總損失函數L是a1181364-b607-11ec-aa7f-dac502259ad0.png的加權和:a124e648-b607-11ec-aa7f-dac502259ad0.png。我們將λ_1、λ_2和λ_3設置為 1.0、0.25、1.0。我們將 Focal loss 作為a13375be-b607-11ec-aa7f-dac502259ad0.png,并將 L1 損失作為a1475854-b607-11ec-aa7f-dac502259ad0.png。 ?第四章 實驗

a155a97c-b607-11ec-aa7f-dac502259ad0.png

表一:nuScenes 測試集上的 3D 檢測結果

a1653a4a-b607-11ec-aa7f-dac502259ad0.png

表二:Waymo 測試集上的 3D 檢測結果 我們在 nuScenes 數據集和 Waymo 數據集上評估 VISTA。我們在三種具有不同目標分配策略的最先進方法上測試 VISTA 的功效:CBGS、OHS 和 CenterPoint。 4.1 數據集和技術細節 nuScenes 數據集包含 700 個訓練場景、150 個驗證場景和 150 個測試場景。數據集以 2Hz 進行標注,總共 40000 個關鍵幀被標注了 10 個對象類別。我們為每個帶標注的關鍵幀組合 10 幀掃描點云以增加點數。平均精度 (mAP) 和 nuScenes 檢測分數 (NDS) 被應用于我們的性能評估。NDS 是 mAP 和其他屬性度量的加權平均值,包括位移、尺度、方向、速度和其他框的屬性。在訓練過程中,我們遵循 CBGS 通過 Adam 優化器和單周期學習率策略 (one-cycle) 優化模型。 Waymo 數據集包含 798 個用于訓練的序列,202 個用于驗證的序列。每個序列的持續時間為 20 秒,并以 10Hz 的頻率采樣,使用 64 通道的激光雷達,包含 610 萬車輛、280 萬行人和 6.7 萬個騎自行車的人。我們根據標準 mAP 和由航向精度 (mAPH) 加權的 mAP 指標來評估我們的網絡,這些指標基于車輛的 IoU 閾值為 0.7,行人和騎自行車的人為 0.5。官方評估協議以兩個難度級別評估方法:LEVEL_1 用于具有超過 5 個 LiDAR 點的框,LEVEL_2 用于具有至少一個 LiDAR 點的框。 4.2 與其他方法的比較 我們將提出的基于 VISTA 的 OHS 的測試結果提交給 nuScenes 測試服務器。為了對結果進行基準測試,我們遵循 CenterPoint 來調整訓練分辨率并利用雙翻轉測試增強。由于我們的結果基于單一模型,因此我們的比較中不包括使用集成模型和額外數據的方法,測試性能見表一。我們提出的 VISTA 在 nuScenes 測試集上實現了最先進的性能,在整體 mAP 和 NDS 中都大大優于所有已發布的方法。特別是在摩托車和自行車上的表現,mAP 上超過了第二好的方法 CenterPoint 高達 48%。具體來說,幾何相似類別(例如卡車、工程車輛)的性能提升證實了我們提出的解耦設計的有效性。 為了進一步驗證我們提出的 VISTA 的有效性,我們將提出的 VISTA 應用在 CenterPoint 上,并將測試結果提交到 Waymo 測試服務器。在訓練和測試期間,我們遵循與 CenterPoint 完全相同的規則,測試性能見表二。VISTA 在所有級別的所有類別中為 CenterPoint 帶來了顯著改進,優于所有已發布的結果。 4.3 消融學習

a17ef110-b607-11ec-aa7f-dac502259ad0.png

表三:多視角融合消融學習,實驗在 nuScenes 驗證集上進行

a18fd3ae-b607-11ec-aa7f-dac502259ad0.png

表四:基于 VISTA 的先進方法的性能提升,實驗在 nuScenes 驗證集上進行 如表三所示,為了證明所提出的 VISTA 的優越性,我們以 OHS 作為我們的基線 (a) 在 nuScenes 數據集的驗證集上進行了消融研究。正如前文所述,如果沒有注意力約束,注意力權重學習的極端情況將是全局平均池化(GAP)。為了澄清,我們通過 GAP 手動獲取 RV 特征,并將它們添加到所有 BEV 特征上實現融合。這種基于 GAP 的融合方法 (b) 將基線的性能 mAP 降低到 59.2%,表明自適應融合來自全局空間上下文的多視角特征的必要性。直接采用 VISTA 進行多視角融合 (d),mAP 為 60.0%。當將卷積注意力模塊替換為傳統的線性注意力模塊(c) 時,整體 mAP 下降到 58.7%,這反映了聚合局部線索對于構建跨視角注意力的重要性。在添加提出的注意力方差約束后,如 (e) 所示,整體 mAP 的性能提高到 60.4%。從 (d) 到(e)行的性能提升表明注意力機制可以通過注意力約束得到很好的引導,使得注意力模塊能夠關注整個場景的興趣區域。然而,共享注意力建模會帶來分類學習和回歸任務之間的沖突,在 3D 目標檢測中,分類任務將被回歸任務占主導地位。如(f)所示,在解耦注意力模型后,整體 mAP 的性能從 60.4% 提高到 60.8%,進一步驗證了我們的假設。 所提出的 VISTA 是一種即插即用的多視角融合方法,只需稍作修改即可用于各種最近提出的先進目標分配策略。為了證明所提出的 VISTA 的有效性和泛化能力,我們在 CenterPoint、OHS 和 CBGS 上實現了 VISTA,它們是最近的先進方法。這些方法代表基于 anchor 或 anchor-free 的不同主流目標分配。我們在 nuScenes 數據集的驗證集上評估結果,所有方法都是基于他們的官方代碼庫。如表四所示,所有三個目標分配策略在 mAP 和 NDS 分數中都實現了很大的性能提升(在 mAP 和 NDS 中分別約為 1.3% 和 1.4%),表明所提出的 VISTA 可以通過跨視角空間注意力機制融合普遍高質量的多視角特征。 我們在表三中展示了提出的 VISTA 在一個 RTX3090 GPU 上的運行時間。未經任何修改,基線 (a) 以每幀 60 毫秒運行。在基線中采用卷積注意力模塊 (d) 后,運行時間增加到 64 毫秒。我們可以從 (e) 和(f)中觀察到,雖然應用所提出的注意力方差約束不會影響推理速度,但解耦設計花費了 5ms,但額外的延遲仍然可以忽略不計。以這樣的效率運行,我們認為所提出的 VISTA 完全符合實際應用的要求。 4.4 VISTA 分析

a1a394a2-b607-11ec-aa7f-dac502259ad0.png

圖 3:具有((a)和(c))和沒有((b)和(d))注意方差約束的 VISTA 學習到的注意力權重的可視化。每行呈現一個場景,Query 框以紅色顯示,點的顏色越亮,點的注意力權重越高。

a1b761e4-b607-11ec-aa7f-dac502259ad0.png

圖 4:在有和沒有解耦設計的情況下的檢測結果的可視化。每行代表一個場景。淺色表示的框指的是 GT 框,深色表示的框表示正確的預測結果,不同強調色表示的框表示錯誤的預測。 我們認為,通過所提出的注意力約束訓練的 VISTA 可以捕捉 BEV 和 RV 之間的全局和局部相關性,從而可以有效地執行多視角融合以進行準確的框預測。為了生動地展示注意力方差約束在訓練 VISTA 中的有效性,我們在圖 3 中可視化了網絡在有和沒有注意力方差約束情況下構建的的跨視角相關性。給定包含目標視角(BEV)的框的區域以 query 源視角(RV),我們得到上述區域中每個 pillar 的相應跨視角注意力權重,并將權重映射回原點云以可視化。我們觀察到,在沒有注意力方差約束的情況下,學習到的注意力權重對于 RV 中的幾乎每個 pillar 都保持較小的值,從而導致近似的全局平均池化操作。在圖 3(b)和 (d) 中,注意力模塊關注遠離 query 汽車和行人的背景點,每個聚焦區域的注意力權重相對較低。相反,用注意力方差約束訓練的注意力模塊突出顯示具有相同 query 類別的物體,如圖 3(a)和 (c) 所示。特別是對于 query 汽車,通過注意力方差約束訓練的注意力模塊成功地關注了場景中的其他汽車。 我們提出的 VISTA 的另一個關鍵設計是分類和回歸任務的解耦。這兩個任務的各自的注意力建模緩解了學習的不平衡問題,因此檢測結果更加準確和可靠。為了展示我們設計的意義,我們在圖中展示了解耦前后的檢測結果。每行代表一個場景,左列顯示解耦后的結果,另一列顯示未解耦的結果。如圖 4(b)和 (d) 所示,沒有解耦設計的 3D 目標檢測器很容易將物體 A 誤認為具有相似幾何特性的另一個物體 B,我們將這種現象稱為 A-to-B,例如公共汽車(紫色)到卡車(黃色)、公共汽車(紫色)到拖車(紅色)和自行車(白色)到摩托車(橙色),證明了分類和回歸任務之間存在不平衡訓練。此外,當將右列與左列進行比較時,混淆的預測并不準確。相反,具有解耦設計的 VISTA 成功區分了對象的類別,并預測了緊密的框,如圖 4(a)和 (c) 所示,證明了所提出的解耦設計的功效。 第五章 總結 在本文中,我們提出了 VISTA,一種新穎的即插即用多視角融合策略,用于準確的 3D 對象檢測。為了使 VISTA 能夠關注特定目標而不是一般點,我們提出限制學習的注意力權重的方差。我們將分類和回歸任務解耦以處理不平衡訓練問題。我們提出的即插即用 VISTA 能夠產生高質量的融合特征來預測目標候選,并且可以應用于各種目標分配策略方法。nuScenes 和 Waymo 數據集的基準測試證明了我們提出的方法的有效性和泛化能力。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2552

    文章

    51225

    瀏覽量

    754641
  • Vista
    +關注

    關注

    0

    文章

    28

    瀏覽量

    19659
  • 目標檢測
    +關注

    關注

    0

    文章

    209

    瀏覽量

    15634

原文標題:CVPR 2022 | 即插即用!華南理工開源VISTA:雙跨視角空間注意力機制實現3D目標檢測SOTA

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征。基于分層注意力機制來聚合
    的頭像 發表于 11-12 09:52 ?307次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

    海康微影DV式手持測溫熱像儀助力提升科研效率

    今天給大家介紹的TA,是實驗室里的“科研搭子”,曾助力華南理工大學電力學院研究團隊科研成果榮登SCI核心期刊《Electric Power Systems Research》。
    的頭像 發表于 09-04 11:24 ?668次閱讀

    安寶特產品 安寶特3D Analyzer:智能的3D CAD高級分析工具

    安寶特3D Analyzer包含多種實用的3D CAD高級分析工具,包括自動比對模型、碰撞檢測、間隙檢查、壁厚檢查,以及拔模和底切分析,能夠有效提升3D CAD模型
    的頭像 發表于 08-07 10:13 ?394次閱讀
    安寶特產品  安寶特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高級分析工具

    蘇州吳中區多色PCB板元器件3D視覺檢測技術

    3D視覺檢測相較于2D視覺檢測,有其獨特的優勢,不受產品表面對比度影響,精確檢出產品形狀,可以測出高度(厚度)、體積、平整度等。在實際應用中可以與2
    的頭像 發表于 06-14 15:02 ?430次閱讀
    蘇州吳中區多色PCB板元器件<b class='flag-5'>3D</b>視覺<b class='flag-5'>檢測</b>技術

    VR虛擬空間中的3D 技術

    隨著科技的飛速發展,虛擬空間已成為元宇宙的重要呈現方式。從游戲到工業設計,從電子商務到文旅體驗,3D相關技術在虛擬空間中發揮著舉足輕重的作用,決定著用戶們能否真正能體會到VR的沉浸式體驗。 虛擬
    的頭像 發表于 04-29 09:36 ?1552次閱讀
    VR虛擬<b class='flag-5'>空間</b>中的<b class='flag-5'>3D</b> 技術

    采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

    日前,北京理工大學王涌天教授、黃玲玲教授團隊聯合張軍院士、邊麗蘅教授團隊,采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像。
    的頭像 發表于 04-25 09:08 ?1172次閱讀
    采用單片超構表面與元<b class='flag-5'>注意力</b>網絡<b class='flag-5'>實現</b>快照式近紅外光譜成像

    木幾智能接待華南理工大學自動化科學與工程學院開展校企合作交流活動

    4月16日,華南理工大學自動化科學與工程學院胡躍明教授和羅家祥副院長一行蒞臨木幾智能進行考察指導。木幾智能董事長、總經理吳志達、總工程師程治國、綜合管理部長胡思羽等全程陪同考察。 在考察期間,胡教授
    的頭像 發表于 04-19 17:07 ?503次閱讀
    木幾智能接待<b class='flag-5'>華南理工</b>大學自動化科學與工程學院開展校企合作交流活動

    新質生產探索| AICG浪潮下的3D打印與3D掃描技術

    隨著技術的不斷進步,3D打印和3D掃描已經成為現代制造業和設計領域的重要工具。為了深入探討這些技術的最新發展和應用前景。蘑菇云創客空間舉辦了以《AICG浪潮下的新質生產》為主題的開放
    的頭像 發表于 04-01 09:28 ?436次閱讀

    Stability AI推出Stable Video 3D模型,可制作多視角3D視頻

    SV3D_u是Stable Video 3D的一個版本,僅需單幅圖片即可生成運動軌跡視頻,無須進行相機調整。擴充版本的SV3D_p加入了軌道視圖的特性,使其可以根據預設的相機路徑創建3D
    的頭像 發表于 03-21 14:57 ?1047次閱讀

    裸眼3D頻頻“出圈” 電信積極布局并發裸眼3D領域

    隨著科技的發展,現在3D視角已經不是新鮮事。而現在,裸眼3D應用則也在頻頻“出圈”。特別是在5G的助力下,裸眼3D技術應用更是成為科技圈一個熱點。
    的頭像 發表于 03-11 17:33 ?719次閱讀

    Nullmax提出多相機3D目標檢測新方法QAF2D

    今天上午,計算機視覺領域頂會CVPR公布了最終的論文接收結果,Nullmax感知部門的3D目標檢測研究《Enhancing 3D Object Detection with 2
    的頭像 發表于 02-27 16:38 ?1170次閱讀
    Nullmax提出多相機<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>新方法QAF2<b class='flag-5'>D</b>

    高分工作!Uni3D3D基礎大模型,刷新多個SOTA

    我們主要探索了3D視覺中scale up模型參數量和統一模型架構的可能性。在NLP / 2D vision領域,scale up大模型(GPT-4,SAM,EVA等)已經取得了很impressive
    的頭像 發表于 01-30 15:56 ?916次閱讀
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基礎大模型,刷新多個<b class='flag-5'>SOTA</b>!

    中國科研團隊突破全息3D顯示技術

    全息顯示技術為真正的3D顯示提供了終極解決方案,在增強現實和虛擬現實方面具有巨大的潛力。然而,全息3D顯示的顏色和視角主要取決于激光的波長和當前空間光調制器的像素尺寸。
    發表于 01-26 12:45 ?760次閱讀
    中國科研團隊突破全息<b class='flag-5'>3D</b>顯示技術

    基于動態跟蹤的高精度3D測量技術探究主動彎曲網格殼數值模擬方法

    近期,中科廣電CASAIM與華南理工大學開展專題項目合作,基于動態跟蹤的高精度3D測量技術探究主動彎曲網格殼數值模擬方法。
    的頭像 發表于 01-19 18:13 ?794次閱讀

    比亞迪158億現金收購捷普電子制造業務,國家重點研發計劃的傳感器項目獲批立項

    傳感新品 【華南理工大學:研究用于食品新煙堿類農殘的識別-化學傳感技術最新應用】 近日,華南理工大學孫大文院士課題組在食品領域的國際權威期刊《Critical Reviews in Food
    的頭像 發表于 01-11 18:30 ?1206次閱讀
    比亞迪158億現金收購捷普電子制造業務,國家重點研發計劃的傳感器項目獲批立項
    主站蜘蛛池模板: 国产超碰AV人人做人人爽| 儿子好妈妈的HD3中字抢劫| 亚洲一在线| wwwzzz日本| 麻豆官网入口| 一级毛片全部免| 好色美女小雅| 少妇性饥渴BBBBBBBBB| black大战chinese周晓琳| 兰桂坊人成社区亚洲精品| 亚洲第一区欧美日韩精品| 国产人A片在线乱码视频| 乌克兰黄色录像| 国产国产成年在线视频区| 色噜噜噜噜亚洲第一| 国产精品久AAAAA片| 亚洲中文字幕日本在线观看| 好男人在线观看视频观看高清视频免费| 思思re热免费精品视频66| 国产黄片毛片| 伊人久久国产免费观看视频| 精品日韩二区三区精品视频| 国产国拍亚洲精品永久软件| 精品久久久麻豆国产精品| 性xxx免费| 狠狠操伊人| 97视频视频人人碰视频| 免费麻豆国产黄网站在线观看| 亚洲精品一本之道高清乱码| 夜色福利院在线看| 国产三级电影网| 在教室伦流澡到高潮H免费视频| 久久久久久久伊人电影| 国产不卡视频在线观看| 国产人妻久久久精品麻豆| jjzzz日本| 永久免费精品精品永久-夜色| 在线 国产 欧美 专区| 91热久久免费频精品动漫99| 99久久免费精品国产免费| h片下载地址|