去年,AI科技大本營為大家報道過南開大學媒體計算實驗室在邊緣檢測和圖像過分割的工作成果,不僅刷新了精度記錄,算法也已經開源。今天要為大家再介紹該實驗室的最新工作——Res2Net,一種在目標檢測任務中新的 Backbone 網絡模塊。
ResNet 大家都很熟悉了,由何愷明等人于 2015 年提出,其強大的表征能力,讓很多計算機視覺任務的性能得到了極大的提升。而南開大學的這項工作提出的新卷積網絡構造方式,在多個視覺任務的基準數據集上(CIFAR10,ImageNet),與 baseline 模型進行了對比,優于現有的 SOTA 方法,更多的消融實驗結果中也證明了作者方法的優勢之處。此外,鑒于 Res2Net 已經在幾個具有代表性的計算機視覺任務體現出了優越性,作者認為網絡的多尺度表征能力是非常重要的。
下面,AI科技大本營就為大家介紹一下這項工作,大家可以深入研讀后進行嘗試~
摘要
在許多視覺任務中,多尺度的表示特征是非常重要的。最新的研究在不斷的提升著 backbone 網絡的多尺度表達能力,在多個任務上提高了算法性能。然而,大多數現有的深度學習方法是通過不同層的方式來表達多尺度特征。作者提出了一種新的卷積網絡構造方式 Res2Net,通過在單個殘差塊里面構建層次化的連接實現。Res2Net 是在粒度級別上來表示多尺度特征并且增加了每層網絡的感受野范圍。它可以無縫插入現有的ResNet,ResNeXt等網絡結構。并且在多個視覺任務的基準數據集上,與 baseline 模型進行了對比,發現它優于現有的 SOTA 方法。更多的消融實驗結果證明了作者方法的優勢之處。
引言
在多個視覺任務中,如圖像分類,目標檢測,動作識別,語義分割等,設計一個好的多尺度特征是非常重要的。有以下三點原因,第一,如上圖所示,在一張圖片里面,同一目標可能有不同的大小,比如圖上的沙發。第二,待檢測目標的上下文信息可能比它本身占的區域更多,例如,我們需要使用大桌子作為上下文信息來判斷放在上面的是杯子還是筆筒。第三,從不同尺度的感知信息來理解如細粒度分類和語義分割的任務是非常重要的。
因此,多尺度的特征在傳統方法和深度學習里面都得到了廣泛應用。通常我們需要采用一個大感受野的特征提取器來獲得不同尺度的特征描述,而卷積神經網絡通過一堆卷積層可以很自然的由粗到細多尺度的提取特征。如何設計更高效的網絡結構是提升卷積神經網絡性能的關鍵。
作者提出了一種簡單有效的多尺度提取方法。與現有的增強單層網絡多尺度表達能力的 CNNs 方法不同,它是在更細的粒度上提升了多尺度表征能力。
接下來我們再來看看 Res2Net 的架構與體系結構等內容:
Res2Net
已有的許多工作都是采用的上圖(a)作為其 basic block,因此作者希望找到一種能保持計算量不增加,卻有更強多尺度特征提取能力的結構來替代它。如上圖(b)所示,作者采用了更小的卷積組來替代 bottleneck block 里面的 3x3 卷積。具體操作如下,首先將 1x1 卷積后的特征圖均分為 s 個特征圖子集。每個特征圖子集的大小相同,但是通道數是輸入特征圖的 1/s。對每一個特征圖子集 X_i,有一個對應的 3x3 卷積K_i(), 假設 K_i() 的輸出是 y_i。接下來每個特征圖子集 X_i 會加上 K_i-1() 的輸出,然后一起輸入進 K_i()。為了在增大 s 的值時減少參數量,作者省去了 X_1 的 3x3 網絡。因此,輸出 y_i 可以用如下公式表示:
根據圖(b),可以發現每一個 X_j(j<=i) 下的 3x3 卷積可以利用之前所有的特性信息,它的輸出會有比 X_j 更大的感受野。因此這樣的組合可以使 Res2Net 的輸出有更多樣的感受野信息。為了更好的融合不同尺度的信息,作者將它們的輸出拼接起來,然后再送入 1x1 卷積,如上圖(b)所示。
實驗
作者提出的這個模塊可以融合到現有的 CNNs 方法里面,如 ResNet, ResNeXt和DLA,為了公平的實驗,作者僅僅將里面的模塊替換為 Res2Net,并在基準數據集(CIFAR10,ImageNet)上對 Res2Net 進行了評估。
以ImageNet 為例,作者進行了多個對比實驗,包括淺層和深層網絡的對比,實驗結果都顯示基于 Res2Net 模塊的網絡性能更好。作者還探索了尺度大小對性能的影響,如表格 3 所示,其中 w 代表濾波器的寬度,s 代表尺度。
在 ImageNet 數據集上,淺層和深層網絡的實驗結果:
尺度大小對性能的影響:
在更多視覺任務上的實驗結果均顯示 Res2Net 模塊可以顯著的提升現有算法的指標。
下圖是ResNet-50 和Res2Net-50 在類激活映射的結果對比:
下圖是 ResNet-101 和Res2Net-101 在語義分割任務上的(可視化的)結果對比:
下圖是 ResNet-50 和Res2Net-50 在目標檢測任務上的結果對比:
下圖是ResNet-50 和Res2Net-50 在實例分割任務,COCO 數據集上的 AP 和 AR 兩結果的對比:
結論
Res2Net 是一種簡潔有效的模塊,探索了 CNN 在更細粒度級別的多尺度表達能力。它揭示了 CNN 網絡里面除了深度,寬度等現有維度之外,還可以有新的維度“尺度”。Res2Net 模塊可以很容易地融合進 SOTA 的方法。在 CIFAR10 和 ImageNet 上圖像分類的結果表明,使用 Res2Net 模塊的網絡比 ResNet,ResNeXt,DLA 等網絡效果更好。鑒于Res2Net已經在幾個具有代表性的計算機視覺任務體現出了優越性,作者認為網絡的多尺度表征能力是非常重要的。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100714 -
網絡模塊
+關注
關注
0文章
26瀏覽量
9306 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45976
原文標題:南開大學提出目標檢測新Backbone網絡模塊:Res2Net | 技術頭條
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論