導讀
2D CNN 使用大卷積代替小卷積,增大了卷積核的感受野,捕獲到的特征更偏向于全局,效果也得到了提升,這表明較大的 kernel size 很重要。但是,當直接在 3D CNN 中應用大卷積核時,那些在 2D 中成功的模塊設計在 3D 網絡效果不好,例如深度卷積。為了應對這一重要挑戰,本文提出了空間分區卷積及其大的 kernel size 模塊,它避免了原始 3D 大卷積核的優化和效率問題。
本文的大卷核 3D CNN 網絡 LargeKernel3D 在語義分割和對象檢測的 3D 任務中取得了顯著改進。它在 ScanNetv2 語義分割任務上實現了 72.8%的mIOU,在 NDS nuScenes 目標檢測基準上達到了 73.9% 的 mIoU,在 nuScenes LIDAR 排行榜上排名第一。通過簡單的多模式融合,性能進一步提升至 74.2% NDS。此外,LargeKernel3D 在 Waymo 3D 對象檢測上可以將卷積核擴大到 17×17×17 大小。首次證明大卷積核對于 3D 視覺任務是可行且必不可少的。
簡介
3D任務中普遍使用3D稀疏卷積網絡進行特征提取,一些方法使用 Transformer進行編-解碼。由于后者的全局和局部自我注意機制能夠從大空間范圍內捕獲上下文信息,這對前者的有效感受野提出了挑戰。相比之下,常見的 3D 稀疏 CNN 受到了限制。2D CNN中,有一系列結合大卷積核提高有效感受野范圍的方法,例如,ConvNeXt 采用 7×7 深度卷積,RepLKNet 使用 31×31 的超大卷積核。但是由于3D 和 2D 任務之間的差異,這些方法并不能直接用于3D 稀疏 CNN 。
因此,3D 大核 CNN 設計難點主要分為兩個方面:
(1)效率問題
增大3維立方卷積核時,參數量和計算負擔的增長速度比 2D CNN 快得多。比如,卷積核從 3x3x3 變為 7×7×7 時,模型大小增加了不止 10 倍;
(2)優化問題
相比2D數據集,3D數據基準規模沒那么大,通常只包含不超過一千個場景。同時,3D 點云是稀疏的,而不是密集的,這導致優化大卷積核的參數比較困難而造成過擬合問題。
作者提出空間分區卷積作為 3D 大核設計。通過在空間相鄰位置之間共享權重,代替通道級組的深度卷積。如圖 1 所示,空間分區卷積通過對鄰近空間進行分組將大內核(例如 7×7)重新映射為小內核(例如 3×3),而整個空間大小保持不變。具體說來,就是將內核分成不同的部分,由于每個部分的權重共享,位置信息可能會變得模糊,因此,使用相對位置編碼作為偏差來補充丟失的位置信息。關于效率問題,它占用很少的模型尺寸來保持參數與小內核的參數相同。此外,與普通的大型內核對應物相比,所需延遲更低。至于優化挑戰,空間維度之間的權重共享為參數提供了更多更新和克服過度擬合問題的機會。
不同核大小的稀疏卷積。小核稀疏卷積在局部區域收集特征,效率高,但由于特征斷開和范圍小而丟棄了足夠的信息流。大核稀疏卷積能夠以大量的參數和計算為代價捕獲遠程信息。本文提出的空間分區卷積使用大卷積核,并在局部鄰居之間共享權重以提高效率。
貢獻
本文的貢獻主要有以下幾點:
(1) 提出了 LargeKernel3D 神經網絡結構,通過組合多個較小的卷積核構成的一個較大的卷積核,從而顯著提高了網絡的精度,同時保持相對較小的參數量;
(2) 在幾個常見的3D數據集上,LargeKernel3D 都表現出了優于其他最先進的3D稀疏卷積神經網絡的表現;
(3) 提出了相對位置編碼作為偏差來補充丟失的位置信息,解決權重共享導致的模糊問題。
通過這些貢獻,這篇論文在3D卷積神經網絡領域提供了一種高效而準確的解決方案,為3D圖像分析和視覺任務提供了有用的工具。
3D Sparse CNNs
3D 稀疏卷積神經網絡是一種針對三維圖像數據的神經網絡,專門用于處理稀疏(或稱為稀有)的三維數據,例如醫學圖像、點云數據等。與傳統的全連接卷積神經網絡不同,稀疏卷積神經網絡僅對稀疏空間進行計算。這種方法將必要的信息與無關的信息分離開來,避免處理輸入數據中多余的零值點,從而可以顯著減少計算成本,更有效地利用計算資源,并提高對不均勻或無規則的空間數據的識別能力。
3D 稀疏CNN的構建與傳統的3D卷積神經網絡相似,在其基礎上引入了稀疏輸入和輸出,以及乘法卷積(或稱為空間卷積)操作。稀疏卷積同時考慮了空間和特征通道之間的關系,這允許它更好地處理具有復雜空間結構的數據。與稠密數據相比,空間中的稀疏數據包含較少可處理的有效數據點,3D稀疏CNN在前向計算過程中會自動選取非零節點作為計算節點,采用特殊的卷積操作(如空間卷積、乘法卷積等)更好的利用稀疏數據中的特征。
方法 Method
Spatial-wise Partition Convolution
本文所提的3D 大卷積 CNN 的空間分區卷積。它在卷積核上的空間維度 K 之間共享權重,而不是在通道維度之間共享權重。也不同于 SGC,后者根據輸入特征劃分空間組。這里通過在鄰近空間之間共享權重,將原始的大卷積核從 7×7 分組為 3×3。由于輸入特征是稀疏的,為了避免卷積核擴大帶來的額外開銷,在推理過程中直接使用小核層,并將其特征分配區域擴大到大核范圍(如圖 3 所示),由于權重共享操作,它大大節省了乘法,從 343 次減少到 27 次。
空間分區卷積
Kernel-wise Position Encoding
鄰近空間之間共享權重,會導致局部細節模糊。隨著核大小增加,這個問題越來越嚴重。為了解決該問題,首先初始化位置權重,讓輸入的特征查詢對應位置的位置權重,最后進行相加:
這步的本質是將具有相對位置信息的偏差添加到輸入特征中。如下圖,SW-LK Conv由一個大核空間分區卷積和一個可學習的 Position Encodings 組成。Position Encodings 用于彌補大卷積核的細節捕獲能力。
空間大核卷積 (SW-LK Conv) 的結構
實驗
首先比較了普通 3D 子流形稀疏卷積與本文卷積之間的效率,隨著卷積核增大,普通3D卷積的參數量和延遲都急劇上升,而本文的方法效率要高得多。
普通 3D 稀疏卷積與本文的 SW-LK Conv 之間的效率比較
作者在 3D 分割和檢測兩個下游任務上,進行了驗證。檢測任務使用的是 nuScenes(左), Waym (右)兩個數據集,對比情況如下,可以看到使用LargeKernel3D ,精度最高。其中,LargeKernel3D 將 CenterPoint 提高到 70.6% 和 72.8% NDS,無論有沒有進行測試增強,兩者都優于其他的 LIDAR 方法。多模態模態 LargeKernel3DF 進一步提高到 74.2% NDS 和 71.2% mAP。
檢測任務對比情況
下面是分割任務上的對比情況,在測試集上,本文方法達到SOTA。MinkowskiNet 是 ScanNetv2 中最先進的方法, SW-LK Conv(本文方法) 進一步提高了它的性能。
ScanNetv2 mIoU 在 3D 語義分割上的比較。
然后是消融實驗,作者對MinkowskiNet-34 和 ScanNetv2 上各種技術和核大小等進行了實驗,LargeKernel3D 是有效的。
消融實驗
結論 Conclusion
這篇論文與 2D CNN 中的大卷積核有本質區別,深入研究了 3D 卷積網絡的大卷積的設計。所提的專為 3D 大內核設計的空間分區卷積 (SW Conv),有效地解決了普通 3D 大核 CNN 中的效率和優化問題。基于這種設計,進一步提出了用于 3D 語義分割和對象檢測的 SW-LK Conv 和相應的 LargeKernel3D。
這種3D 大核網絡在語義分割和目標檢測任務上都取得了不錯的改進,并首次展示了可以高效且有效地實現 3D 大內核。但是本文方法也存在局限性,例如 LargeKernel3D 在 3D 語義分割和對象檢測基準測試中主要依賴于手工設計的空間內核大小。這些大小對于其他數據集或任務可能不是最優的,具體取決于整體場景大小和數據稀疏性。其他基于ENAS等搜索技術可能會有幫助,可以嘗試一下。
審核編輯:劉清
-
SGC
+關注
關注
0文章
2瀏覽量
6060 -
LiDAR芯片
+關注
關注
1文章
17瀏覽量
3211 -
卷積網絡
+關注
關注
0文章
42瀏覽量
2163
原文標題:CVPR 2023 | LargeKernel3D:在3D稀疏CNN中使用大卷積核
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論