色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于視覺識別的Transformer風格的ConvNet

CVer ? 來源:AIWalker ? 作者:AIWalker ? 2022-11-30 14:06 ? 次閱讀

本文旨在通過充分利用卷積探索一種更高效的編碼空域特征的方式:通過組合ConvNet與ViT的設計理念,本文利用卷積調制操作對自注意力進行了簡化,進而構建了一種新的ConvNet架構Conv2Former。ImageNet分類、COCO檢測以及ADE20K分割任務上的實驗結果表明:所提Conv2Former取得了優于主流ConvNet(如ConvNeXt)、ViT(如Swin Transformer)的性能。

本文方案

26a273c4-706d-11ed-8abf-dac502259ad0.jpg

上圖給出了本文方案架構示意圖,類似ConvNeXt、SwinT,Conv2Former采用了金字塔架構,即含四個階段、四種不同尺寸的特征,相鄰階段之間通過Patch Embedding模塊(其實就是一個卷積核與stride均為的卷積)進行特征空間分辨率與通道維度的惡變換。下表給出了不同大小Conv2Former的超參配置,

26bec1f0-706d-11ed-8abf-dac502259ad0.jpg

核心模塊

26cf68ac-706d-11ed-8abf-dac502259ad0.jpg

上圖給出了經典模塊的架構示意圖,從經典的殘差模塊到自注意力模塊,再到新一代卷積模塊。自注意力模塊可以表示為如下形式:

盡管注意力可以更好的編碼空域相關性,但其計算復雜性隨N而爆炸性增長。

本文則旨在對自注意力進行簡化:采用卷積特征對V進行調制。假設輸入,所提卷積調制模塊描述如下:

需要注意的是:上式中表示Hadamard乘積。上述卷積調制模塊使得每個位置的元素與其近鄰相關,而通道間的信息聚合則可以通過線性層實現。下面給出了該核心模塊的實現代碼。

classConvMod(nn.Module):
def__init__(self,dim):
super().__init__()
self.norm=LayerNorm(dim,eps=1e-6,data_format='channel_first')
self.a=nn.Sequential(
nn.Conv2d(dim,dim,1),
nn.GELU(),
nn.Conv2d(dim,dim,11,padding=5,groups=dim)
)
self.v=nn.Conv2d(dim,dim,1)
self.proj=nn.Conv2d(dim,dim,1)

defforward(self,x):
B,C,H,W=x.shape
x=self.norm(x)
a=self.a(x)
v=self.v(x)
x=a*v
x=self.proj(x)
returnx

微觀設計理念

Larger Kernel than 如何更好的利用卷積對于CNN設計非常重要!自從VGG、ResNet以來,卷積成為ConvNet的標準選擇;Xception引入了深度分離卷積打破了該局面;再后來,ConvNeXt表明卷積核從3提升到7可以進一步改善模型性能。然而,當不采用重參數而進一步提升核尺寸并不會帶來性能性能提升,但會導致更高計算負擔。

作者認為:ConvNeXt從大于卷積中受益極小的原因在于使用空域卷積的方式。對于Conv2Former,從到,伴隨核尺寸的提升可以觀察到Conv2Former性能一致提升。該現象不僅發生在Conv2Former-T(),同樣在Conv2Former-B得到了體現()。考慮到模型效率,作者將默認尺寸設置為

Weighting Strategy 正如前面圖示可以看到:作者采用Depthwise卷積的輸出對特征V進行加權調制。需要注意的是,在Hadamard乘積之前并未添加任務規范化層(如Sigmoid、),而這是取得優異性能的重要因素(類似SENet添加Sigmoid會導致性能下降超0.5%)。

Normalization and Activations 對于規范化層,作者參考ViT與ConvNeXt采用了Layer Normalization,而非卷積網絡中常用的Batch Normalization;對于激活層,作者采用了GELU(作者發現,LN+GELU組合可以帶來0.1%-0.2%的性能提升)。

本文實驗

26e4184c-706d-11ed-8abf-dac502259ad0.jpg

上述兩表給出了ImageNet分類任務上不同方案的性能對比,從中可以看到:

  • 在tiny-size(<30M)方面,相比ConvNeXt-T與SwinT-T,Conv2Former-T分別取得了1.1%與1.7%的性能提升。值得稱道的是,Conv2Former-N僅需15M參數量+2.2GFLOPs取得了與SwinT-T(28M參數量+4.5GFLOPs)相當的性能。

  • 在base-size方面,相比ConvNeXt-B與SwinT-B,Conv2Former-B仍取得了0.6%與0.9%的性能提升

  • 相比其他主流模型,在相近大小下,所提Conv2Former同樣表現更優。值得一提的是,相比EfficientNet-B7,Conv2Former-B精度稍有(84.4% vs 84.3%),但計算量大幅減少(15G vs 37G)。

  • 當采用ImageNet-22K預訓練后,Conv2Former的性能可以進一步提升,同時仍比其他方案更優。Conv2Former-L甚至取得了87.7% 的優異指標

271576d0-706d-11ed-8abf-dac502259ad0.jpg

采用大核卷積是一種很直接的輔助CNN構建長程相關性的方法,但直接使用大核卷積使得所提模型難以優化。從上表可以看到:當不采用其他訓練技術(如重參數、稀疏權值)時,Conv2Former采用時已可取得更好的性能;當采用更大的核時,Conv2Former取得了進一步的性能提升

272609be-706d-11ed-8abf-dac502259ad0.jpg

上表給出了COCO檢測任務上不同方案的性能對比,從中可以看到:

  • 在tiny-size方面,相比SwinT-T與ConvNeXt-T,Conv2Former-T取得了2% 的檢測指標提升,實例分割指標提升同樣超過1%;

  • 當采用Cascade Mask R-CNN框架時,Conv2Former仍具有超1%的性能提升。

  • 當進一步增大模型時,性能優勢則變得更為明顯;

27420dc6-706d-11ed-8abf-dac502259ad0.jpg

上表給出了ADE20K分割任務上的性能對比,從中可以看到:

  • 在不同尺度模型下,Conv2Former均具有比SwinT與ConvNeXt更優的性能;

  • 相比ConvNeXt,在tiny尺寸方面性能提升1.3%mIoU,在base尺寸方面性能提升1.1%;

  • 當進一步提升模型尺寸,Conv2Former-L取得了54.3%mIoU,明顯優于Swin-L與ConvNeXt-L。

一點疑惑解析

到這里,關于Conv2Former的介紹也就結束了。但是,心里仍有一點疑惑存在:Conv2Former與VAN的區別到底是什么呢?關于VAN的介紹可參考筆者之前的分享:《優于ConvNeXt,南開&清華開源基于大核注意力的VAN架構》。

先來看一下兩者的定義,看上去兩者并無本質上的區別(均為點乘操作),均為大核卷積注意力

  • VAN:

  • Conv2Former

2756254a-706d-11ed-8abf-dac502259ad0.jpg

結合作者開源代碼,筆者繪制了上圖,左圖為Conv2Former核心模塊,右圖為VAN核心模塊。兩者差別還是比較明顯的!

  • 雖然大核卷積注意力均是其核心,但Conv2Former延續了自注意力的設計范式,大核卷積注意力是其核心;而VAN則是采用傳統Bottleneck設計范式大核卷積注意力的作用類似于SE

  • 從大核卷積內在機理來看,Conv2Former僅考慮了的空域建模,而VAN則同時考慮了空域與通道兩個維度

  • 在規范化層方面,Conv2Former采用了Transformer一貫的LayerNorm,而VAN則采用了CNN一貫的BatchNorm;

  • 值得一提的是:兩者在大核卷積注意力方面均未使用Sigmoid激活函數。兩者均發現:使用Sigmoid激活會導致0.2%左右的性能下降。

2766b16c-706d-11ed-8abf-dac502259ad0.jpg

為更好對比Conv2Former與VAN的性能,特匯總上表(注:GFLOPs列僅匯總了)在Image輸入時的計算量Net-1K上的指標進行了對比,可以看到:在同等參數量前提下,兩者基本相當,差別僅在0.1%。此外,考慮到作者所提到的“LN+GELU的組合可以帶來0.1%-0.2%的性能提升”,兩者就算是打成平手了吧,哈哈。


		
			

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模塊
    +關注

    關注

    7

    文章

    2695

    瀏覽量

    47433
  • 編碼
    +關注

    關注

    6

    文章

    940

    瀏覽量

    54814
  • 視覺識別
    +關注

    關注

    3

    文章

    89

    瀏覽量

    16725

原文標題:超越ConvNeXt!Conv2Former:用于視覺識別的Transformer風格的ConvNet

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    開源項目 ! 利用邊緣計算打造便攜式視覺識別系統

    擴展地構建這些系統。 邊緣計算平臺應運而生 —— 它是實現超快速、低延遲視覺識別的秘訣所在。通過在本地處理數據,邊緣計算大幅削減了傳輸延遲,實現了實時響應,并提高了計算效率。對于那些分秒必爭的應用場
    發表于 12-16 16:31

    ASR與傳統語音識別的區別

    識別技術。 構建更深更復雜的神經網絡模型,利用大量數據進行訓練。 提高了語音識別的準確率和穩定性。 傳統語音識別 : 通常依賴于聲學-語言模型的方法。 在處理復雜的語音輸入時,可能表現不如ASR技術出色。 二、功能多樣性 ASR
    的頭像 發表于 11-18 15:22 ?445次閱讀

    使用 TMP1826 嵌入式 EEPROM 替換用于模塊識別的外部存儲器

    電子發燒友網站提供《使用 TMP1826 嵌入式 EEPROM 替換用于模塊識別的外部存儲器.pdf》資料免費下載
    發表于 09-09 09:44 ?0次下載
    使用 TMP1826 嵌入式 EEPROM 替換<b class='flag-5'>用于</b>模塊<b class='flag-5'>識別的</b>外部存儲器

    目標檢測識別主要應用于哪些方面

    目標檢測識別是計算機視覺領域的一個重要研究方向,它主要關注于從圖像或視頻中識別和定位目標物體。隨著計算機視覺技術的不斷發展,目標檢測識別已經
    的頭像 發表于 07-17 09:34 ?1040次閱讀

    如何設計人臉識別的神經網絡

    人臉識別技術是一種基于人臉特征信息進行身份識別的技術,廣泛應用于安全監控、身份認證、智能門禁等領域。神經網絡是實現人臉識別的關鍵技術之一,本文將介紹如何設計人臉
    的頭像 發表于 07-04 09:20 ?645次閱讀

    Transformer模型在語音識別和語音生成中的應用優勢

    隨著人工智能技術的飛速發展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
    的頭像 發表于 07-03 18:24 ?1083次閱讀

    人臉檢測和人臉識別的區別是什么

    人臉檢測和人臉識別是計算機視覺領域的兩個重要技術,它們在許多應用場景中都有廣泛的應用,如安全監控、身份驗證、社交媒體等。盡管它們在某些方面有相似之處,但它們之間存在一些關鍵的區別。本文將詳細介紹人
    的頭像 發表于 07-03 14:49 ?1183次閱讀

    人臉檢測與識別的方法有哪些

    人臉檢測與識別是計算機視覺領域中的一個重要研究方向,具有廣泛的應用前景,如安全監控、身份認證、智能視頻分析等。本文將詳細介紹人臉檢測與識別的方法。 引言 人臉檢測與識別技術在現代社會中
    的頭像 發表于 07-03 14:45 ?704次閱讀

    圖像檢測和圖像識別的區別是什么

    詳細的比較和分析。 定義和概念 圖像檢測(Image Detection)是指利用計算機視覺技術對圖像中的特定目標進行定位和識別的過程。它通常包括目標的檢測、分類和定位三個步驟。圖像檢測的目標可以是人、車、動物等任何具有特定特征
    的頭像 發表于 07-03 14:41 ?976次閱讀

    視覺Transformer基本原理及目標檢測應用

    視覺Transformer的一般結構如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個多頭自注意力模塊(self-attention)和一個位置前饋神經網絡(FFN)。
    發表于 04-03 10:32 ?3449次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>基本原理及目標檢測應用

    語音識別的技術歷程及工作原理

    語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發表于 03-22 16:58 ?3107次閱讀
    語音<b class='flag-5'>識別的</b>技術歷程及工作原理

    機器視覺的圖像目標識別方法綜述

    機器視覺代替傳統的人工視覺,能夠更好的滿足危險作業基本需求。機器視覺的圖像目標識別的重要性圖像目標識別是機器
    的頭像 發表于 02-23 08:26 ?710次閱讀
    機器<b class='flag-5'>視覺</b>的圖像目標<b class='flag-5'>識別</b>方法綜述

    基于Transformer模型的壓縮方法

    基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機視覺(CV)領域。
    的頭像 發表于 02-22 16:27 ?648次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    機器視覺的圖像目標識別方法操作要點

    通過加強圖像分割,能夠提高機器視覺的圖像目標識別的自動化水平,使得圖像目標識別效果更加顯著。圖像分割的方法有很多種,不同方法分別適用于不同領域,這里重點介紹以下3種分割方法。
    發表于 01-15 12:17 ?433次閱讀

    如何使用Python進行圖像識別的自動學習自動訓練?

    如何使用Python進行圖像識別的自動學習自動訓練? 使用Python進行圖像識別的自動學習和自動訓練需要掌握一些重要的概念和技術。在本文中,我們將介紹如何使用Python中的一些常用庫和算法來實現
    的頭像 發表于 01-12 16:06 ?574次閱讀
    主站蜘蛛池模板: u15女少天堂写真| 国产日韩欧美另类| 久久AV国产麻豆HD真实乱| 人妻免费久久久久久久了| 一本到2v不卡区| 国产精品JK白丝AV网站| 哪里能看毛片| 一区二区三区福利视频| 国产精品XXXXX免费A片| 欧美XXXX69学生HD| 在线亚洲精品福利网址导航| 国产精品嫩草免费视频| 秋霞电影网午夜一级鲁丝片| 综合亚洲桃色第一影院| 国产亚洲精品精品精品| 日韩毛片大全| av在线观看网站免费| 久久这里只有热精品18| 亚洲蜜桃AV色情精品成人| 国产精品外围在线观看| 亲伦在线观看| 99久久国产露脸国语对白| 久久99热狠狠色AV蜜臀| 秀婷程仪公欲息肉婷在线观看| 高中生被C到爽哭视频免费| 欧美AAAA片免费播放观看| 在线观看免费国产成人软件| 果冻传媒在线观看网站| 无人区日本电影在线观看高清| 春暖花开 性 欧洲| 亲嘴扒胸摸屁股视频免费网站| 99国产精品综合AV无码| 久久综合香蕉久久久久久久| 亚洲偷自拍精品视频在线观看| 国产在线观看成人免费视频| 窝窝午夜色视频国产精品东北| 贵妇局长的蕾丝乳罩| 色老板影视| 粉嫩自拍 偷拍 亚洲| 日韩AV爽爽爽久久久久久| 国产美女视频一区二区二三区|