亚洲精品久久午夜香蕉,亚洲成人观看,永久在线播放

論文提出了一種基于卷積和VIT的混合網絡，利用Transformers捕獲遠程依賴關系，利用cnn提取局部信息。構建了一系列模型cmt，它在準確性和效率方面有更好的權衡。

CMT:體系結構

CMT塊由一個局部感知單元(LPU)、一個輕量級多頭自注意模塊(LMHSA)和一個反向殘差前饋網絡(IRFFN)組成。

1、局部感知單元(LPU)

在以前的transformer中使用的絕對位置編碼是為了利用標記的順序而設計的，它破壞了平移不變性。

為了緩解局限性，LPU使用卷積(MobileNetV1)提取局部信息，其定義為:

2、輕量級多頭自我注意(LMHSA)

在原注意力模塊中，自注意力模塊為:

為了減少計算開銷，在注意力操作之前，使用k × k步長為k的深度卷積(MobileNetV1)來減小k和V的空間大小。在每個自注意力模塊中添加一個相對位置偏差B(類似于Shaw NAACL ' 18):

這里的h個是與ViT類似的注意力頭。

3、反向殘差前饋網絡(IRFFN)

原始FFN使用兩個線性層，中間是GELU:

IRFFN由擴展層(MobileNetV1)和卷積(投影層)組成。為了更好的性能，還修改了殘差連接的位置:

使用深度卷積(MobileNetV1)提取局部信息，而額外的計算成本可以忽略不計。

4、CMT塊

有了上述三個組成部分，CMT塊可以表述為:

上式中，Yi和Zi分別表示LPU和LMHSA模塊對第i塊的輸出特征。LN表示層歸一化。

CMT變體

1、模型的復雜性

Transformer 的計算復雜度(FLOPs)可計算為:

式中，r為FFN的展開比，dk和dv分別為key和value的維度。ViT設d = dk = dv, r = 4，則計算可簡化為:

CMT塊的FLOPs:

其中k≥1為LMHSA的還原比。

可以看到，與標準Transformer塊相比，CMT塊對計算成本更友好，并且在更高分辨率(較大n)下更容易處理特征映射。

2、擴展策略

受EfficientNet的啟發，使用復合系數φ來均勻縮放層數(深度)、維度和輸入分辨率:

增加了α·β^(1.5) ·γ2≈2.5的約束，因此對于給定的新φ，總FLOPS將大約增加2.5^ φ。根據測試，默認為α=1.2， β=1.3， γ=1.15。

3、CMT變體

在CMT-S的基礎上，根據提出的縮放策略構建了CMT-Ti、CMT-XS和CMT-B。四種模型的輸入分辨率分別為160、192、224和256。

結果

1、消融研究

ViT/DeiT只能生成單尺度的特征圖，丟失了大量的多尺度信息，但是這部分信息對密集預測至關重要。

DeiT與CMT-S一樣具有4級stage，即DeiT- s - 4stage，可以實現改進。

所有的增量改進都表明，stem、LPU和IRFFN對性能的提高也有重要的貢獻。CMT在LMHSA和IRFFN之前使用LN，在卷積層之后插入BN。如果將所有的LN都替換為BN，則模型在訓練過程中無法收斂。

2、ImageNet

CMTS以4.0B FLOPs達到83.5%的top-1精度，比基線模型DeiT-S高3.7%，比CPVT高2.0%，表明CMT塊在捕獲局部和全局信息方面的優勢。

值得注意的是，之前所有基于transformer的模型仍然不如通過徹底的架構搜索獲得的EfficientNet，但是CMT-S比EfficientNet- b4高0.6%，計算成本更低，這也證明了所提出的混合結構的有效性。

3、下游任務

對于以RetinaNet為基本框架的目標檢測，CMT-S優于twin - pcpvt - s (mAP為1.3%)和twin - svt - s (mAP為2.0%)。

以Mask R-CNN為基本框架的分割，CMT-S以1.7%的AP超過了Twins-PCPVTS，以1.9%的AP超過了Twins-SVT-S。

CMT- s在所有數據集中以更少的FLOPs優于其他基于transformer的模型，并在FLOPs減少9倍的情況下與EfficientNet-B7達到相當的性能，這證明了CMT架構的優越性。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

CMT

CMT

+關注

關注
0

文章
15

瀏覽量
10814
位置編碼器

位置編碼器

+關注

關注
1

文章
18

瀏覽量
5562
卷積網絡

卷積網絡

+關注

關注
0

文章
42

瀏覽量
2163

探索一種降低ViT模型訓練成本的方法

（1 GPU）和時間（24小時）資源下從頭開始訓練ViT模型。首先，提出了一種向ViT架構添加局部性的有效方法。其次，開發了一種新的圖像大小課程學習策略，該策略允許在訓練開始時減少從每

發表于 11-24 14:56

利用卷積調制構建一種新的ConvNet架構Conv2Former

1、利用卷積探索一種更高效的編碼空域特征的方式　　本文旨在通過充分利用卷積探索一種更高效的編碼空域特征的方式：通過組合ConvNet與ViT

發表于 12-19 17:37

一種混合卷積窗及其在諧波分析中的應用

電力系統穩態信號非同步采樣時，利用離散傅里葉變換分析諧波會使各頻率成分產生頻譜泄漏，增大了諧波參數的測量誤差。為進一步抑制頻譜泄漏，提高諧波測量的準確度，提出一種由矩形窗和余弦窗經過卷積運算

發表于 03-28 10:22 ?1次下載

一種用于圖像分類的卷積神經網絡

卷積神經網絡的特點是逐層提取特征，第一層提取的特征較為低級，第二層在第一層的基礎上繼續提取更高級別的特征，同樣，第三層在第二層的基礎上提取的特征也更為復雜。越高級的特征越能體現出圖像

發表于 07-04 08:59 ?9844次閱讀

<b class='flag-5'>一種</b>用于圖像分類的<b class='flag-5'>卷積</b>神經<b class='flag-5'>網絡</b>

一種多層級特征融合就的深度卷積網絡

采用卷積神經網絡對單目圖像的深度進行估計時，存在深度信息不精確、邊緣模糊以及細節缺失等問題。為此，提出一種多層級特征融合結構的深度卷積網絡。

發表于 03-16 09:21 ?7次下載

<b class='flag-5'>一種</b>多層級特征融合就的深度<b class='flag-5'>卷積</b><b class='flag-5'>網絡</b>

一種輕量級時間卷積網絡設計方案

時間卷積網絡（TCN）在處理時間序列預測問題時存在計算量大和參數冗余問題，導致其難以應用于存儲空間和計算能力受限的手機、平板電腦、筆記本電腦等移動終端。為此，設計一種輕量級時間卷積

發表于 03-22 16:04 ?6次下載

<b class='flag-5'>一種</b>輕量級時間<b class='flag-5'>卷積</b><b class='flag-5'>網絡</b>設計方案

一種基于混合軟件定義網絡的路由保護算法

為使混合軟件定義網絡（SDN）體系架構能夠應對網絡中的單鏈路故障情形，提出一種基于混合軟件定義網絡

發表于 04-01 14:05 ?15次下載

關于Next-ViT 的建模能力

由于復雜的注意力機制和模型設計，大多數現有的視覺 Transformer（ViT）在現實的工業部署場景中不能像卷積神經網絡（CNN）那樣高效地執行。這就帶來了一個問題：視覺神經

發表于 07-26 10:25 ?1173次閱讀

一種降噪及雙參量提取卷積神經網絡（DECNN）方案

針對上述問題，華中科技大學唐明教授、王亮教授團隊提出了一種降噪及雙參量提取卷積神經網絡（DECNN）方案，在單個卷積神經網絡（CNN）框架下

發表于 10-28 14:49 ?1403次閱讀

卷積神經網絡的介紹什么是卷積神經網絡算法

卷積神經網絡的介紹什么是卷積神經網絡算法卷積神經網絡

發表于 08-21 16:49 ?1866次閱讀

卷積神經網絡模型搭建

卷積神經網絡模型搭建卷積神經網絡模型是一種深度學習算法。它已經成為了計算機視覺和自然語言處理等各種領域的主流算法，具有很大的應用前景。本篇

發表于 08-21 17:11 ?951次閱讀

卷積神經網絡一共有幾層卷積神經網絡模型三層

卷積神經網絡一共有幾層卷積神經網絡模型三層? 卷積神經網絡

發表于 08-21 17:11 ?6987次閱讀

卷積神經網絡模型的優缺點

等領域中非常流行，可用于分類、分割、檢測等任務。而在實際應用中，卷積神經網絡模型有其優點和缺點。這篇文章將詳細介紹卷積神經網絡模型的特點、優

發表于 08-21 17:15 ?4418次閱讀

卷積神經網絡訓練的是什么

卷積神經網絡（Convolutional Neural Networks，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹

發表于 07-03 09:15 ?397次閱讀

卷積神經網絡的實現原理

卷積神經網絡（Convolutional Neural Networks，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹

發表于 07-03 10:49 ?537次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

介紹一種基于卷積和VIT的混合網絡

CMT:體系結構

CMT變體

結果

評論

探索一種降低ViT模型訓練成本的方法

利用卷積調制構建一種新的ConvNet架構Conv2Former

一種混合卷積窗及其在諧波分析中的應用

一種用于圖像分類的卷積神經網絡

一種多層級特征融合就的深度卷積網絡

一種輕量級時間卷積網絡設計方案

一種基于混合軟件定義網絡的路由保護算法

關于Next-ViT 的建模能力

一種降噪及雙參量提取卷積神經網絡（DECNN）方案

卷積神經網絡的介紹什么是卷積神經網絡算法

卷積神經網絡模型搭建

卷積神經網絡一共有幾層卷積神經網絡模型三層

卷積神經網絡模型的優缺點

卷積神經網絡訓練的是什么

卷積神經網絡的實現原理