1. 摘要
UNet及其最新的擴展如TransUNet是近年來領先的醫學圖像分割方法。然而,由于這些網絡參數多、計算復雜、使用速度慢,因此不能有效地用于即時應用中的快速圖像分割。為此,我們提出了一種基于卷積多層感知器(MLP)的圖像分割網絡unext。我們設計了一種有效的UNeXt方法,即在前期采用卷積階段和在后期采用MLP階段。我們提出了一個標記化的MLP塊,在該塊中,我們有效地標記和投射卷積特征,并使用MLP來建模表示。
為了進一步提高性能,我們建議在輸入mlp時shift輸入的channel,以便專注于學習局部依賴性。在潛在空間中使用標記化的mlp減少了參數的數量和計算復雜度,同時能夠產生更好的表示,以幫助分割。該網絡還包括各級編碼器和解碼器之間的跳躍連接。測試結果表明,與目前最先進的醫學圖像分割架構相比,UNeXt的參數數量減少了72x,計算復雜度降低了68x,推理速度提高了10x,同時也獲得了更好的分割性能。
2. 網絡結構
2.1 網絡設計:
UNeXt是一個編碼器-解碼器體系結構,有兩個階段:
1) 卷積階段
2) tokenized MLP階段。
輸入圖像通過編碼器,其中前3個塊是卷積,下2個是tokenized MLP塊。解碼器有2個tokenized MLP塊,后面跟著3個卷積塊。每個編碼器塊減少特征分辨率2倍,每個解碼器塊增加特征分辨率2。跳躍連接也被應用在了編碼器和解碼器之間
作者減少了每個stage的通道數。
每個stage的通道數,對比標準的Unet:
UNeXt:32 64 128 160 256
UNet:64 128 256 512 1024
在這里面就減少了很多的參數量
2.2 卷積階段
有三個conv block,每個block都有一個卷積層(傳統Unet是兩個)、批量歸一化層和ReLU激活。我們使用的內核大小為3×3, stride為1,padding為1。編碼器的conv塊使用帶有池窗口2×2的max-pooling層,而解碼器的conv塊使用雙線性插值層對特征圖進行上采樣。我們使用雙線性插值而不是轉置卷積,因為轉置卷積基本上是可學習的上采樣,會導致產生更多可學習的參數
2.3 Shifted MLP
在shifted MLP中,在tokenize之前,我們首先移動conv features通道的軸線。這有助于MLP只關注conv特征的某些位置,從而誘導塊的位置。這里的直覺與Swin transformer類似,在swin中引入基于窗口的注意,以向完全全局的模型添加更多的局域性。由于Tokenized MLP塊有2個mlp,我們在一個塊中跨越寬度移動特征,在另一個塊中跨越高度移動特征,就像軸向注意力中一樣。我們對這些特征做了h個劃分,并根據指定的軸通過j個位置移動它們。這有助于我們創建隨機窗口,引入沿軸線的局部性。
Shift操作
圖中灰色是特征塊的位置,白色是移動之后的padding。
2.4 Tokenized MLP階段
image-20220402001733482
在Tokenized MLP塊中,我們首先shift features并將它們投射到token中。為了進行token化,我們首先使用3x3conv把特征投射到E維,其中E是embadding維度(token的數量),它是一個超參數。然后我們將這些token傳遞給一個shifted MLP(跨越width)。接下來,特征通過 DW-Conv傳遞。然后我們使用GELU激活層。然后,我們通過另一個shifted MLP(跨越height)傳遞特征,該mlp把特征的尺寸從H轉換為了O。我們在這里使用一個殘差連接,并將原始標記添加為殘差。然后我們利用layer norm(LN),并將輸出特征傳遞到下一個塊。LN比BN更可取,因為它更有意義的是沿著token進行規范化,而不是在Tokenized MLP塊的整個批處理中進行規范化。
我們在這個塊中使用DWConv有兩個原因:
1)它有助于編碼MLP特征的位置信息。從中可以看出,在一個MLP塊中Conv層已經足夠對位置信息進行編碼,并且實際性能優于標準的位置編碼技術。當測試或者訓練分辨率不相同時,像ViT中的位置編碼技術需要插值,這通常會導致性能下降。
2)DWConv使用更少的參數,因此提高了效率。
Tokenized block的計算流程
所有這些計算都是在嵌入維數h上執行的,這個維數明顯小于特征的維數 (H/N)×(H/N) ,N是關于降維的2的因子。在我們的實驗中,除非另有說明,否則我們使用768。這種設計tokenized MLP block的方法有助于編碼有意義的特征信息,而不會對計算或參數貢獻太多。
3.實驗結果
在ISIC和BUSI數據集進行了實驗
在ISIC數據集的對比
4. 個人感悟
首先每個convolutional階段只有一個卷積層,極大的減少了運算量,是答主第一次見了。
其次是把MLP的模塊引入了Unet,算是很新穎了。
在Tokenized MLP block中使用DW- CONV,讓人眼前一亮。
-
解碼器
+關注
關注
9文章
1143瀏覽量
40717 -
圖像分割
+關注
關注
4文章
182瀏覽量
17995 -
感知器
+關注
關注
0文章
34瀏覽量
11841 -
MLP
+關注
關注
0文章
57瀏覽量
4241
原文標題:MICCAI 2022 | UNeXt:第一個基于卷積和MLP的快速醫學圖像分割網絡
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論