亚洲欧美综合在线观看,色婷婷色综合,香蕉久久一区二区三区

來自清華大學和Meta AI 的研究者證明了視覺 Transformer 的關鍵，即輸入自適應、長程和高階空間交互，也可以通過基于卷積的框架有效實現。

視覺 Transformer 的最新進展表明，在基于點積自注意力的新空間建模機制驅動的各種任務中取得了巨大成功。在本文中，來自清華大學和 Meta AI 的研究者證明了視覺 Transformer 背后的關鍵成分，即輸入自適應、長程和高階空間交互，也可以通過基于卷積的框架有效實現。作者提出了遞歸門卷積（），它用門卷積和遞歸設計進行高階空間交互。新操作具有高度靈活性和可定制性，與卷積的各種變體兼容，并將自注意力中的二階交互擴展到任意階，而不引入顯著的額外計算。 ? 可以作為一個即插即用模塊來改進各種視覺 Transformer 和基于卷積的模型?；谠摬僮?，作者構建了一個新的通用視覺主干族，名為 HorNet。在 ImageNet 分類、COCO 對象檢測和 ADE20K 語義分割方面的大量實驗表明，HorNet 在總體架構和訓練配置相似的情況下，優于 Swin Transformers 和 ConvNeXt。HorNet 還顯示出良好的可擴展性，以獲得更多的訓練數據和更大的模型尺寸。除了在視覺編碼器中的有效性外，作者還表明可以應用于任務特定的解碼器，并以較少的計算量持續提高密集預測性能。本文的結果表明，可以作為一個新的視覺建?；灸K，有效地結合了視覺 Transformer 和 CNN 的優點。 ?

1. Motivation 自 AlexNet 在過去十年中引入以來，卷積神經網絡（CNN）在深度學習和計算視覺方面取得了顯著進展。CNN 有許多優良的特性，使其自然適用于廣泛的視覺應用。平移等變性為主要視覺任務引入了有用的歸納偏差，并實現了不同輸入分辨率之間的可傳遞性。高度優化的實現使其在高性能 GPU 和邊緣設備上都非常有效。架構的演變進一步增加了其在各種視覺任務中的受歡迎程度。基于 Transformer 的架構的出現極大地挑戰了 CNN 的主導地位。通過將 CNN 架構中的一些成功設計與新的自注意力機制相結合，視覺 Transformer 在各種視覺任務上表現出領先的性能，如圖像分類、物體檢測、語義分割和視頻理解。是什么讓視覺 Transformer 比 CNN 更強大？通過學習視覺 Transformer 方面的新設計，已經做出了一些努力來改進 CNN 架構。然而，目前工作尚未從高階空間交互的角度分析點積自注意力在視覺任務中的有效性。雖然由于非線性，深度模型中的兩個空間位置之間存在復雜且通常高階的交互，但自注意力和其他動態網絡的成功表明，結構設計引入的顯式和高階空間交互有利于提高視覺模型的建模能力。如上圖所示，普通卷積運算沒有明確考慮空間位置（即紅色特征）及其相鄰區域（即淺灰色區域）之間的空間交互。增強卷積運算，如動態卷積，通過生成動態權重引入顯式空間交互。Transformers 中的點積自注意力操作由兩個連續的空間交互組成，通過在查詢、鍵和值之間執行矩陣乘法。視覺建?；静僮鞯内厔荼砻鳎梢酝ㄟ^增加空間交互的順序來提高網絡容量。在本文中，作者總結了視覺 Transformers 成功背后的關鍵因素是通過自注意力操作實現輸入自適應、遠程和高階空間交互的空間建模新方法。雖然之前的工作已經成功地將元架構、輸入自適應權重生成策略和視覺 Transformers 的大范圍建模能力遷移到 CNN 模型，但尚未研究高階空間交互機制。作者表明，使用基于卷積的框架可以有效地實現所有三個關鍵要素。作者提出了遞歸門卷積（g nConv），它與門卷積和遞歸設計進行高階空間交互。與簡單地模仿自注意力中的成功設計不同，g n Conv 有幾個額外的優點：1）效率。基于卷積的實現避免了自注意力的二次復雜度。在執行空間交互期間逐步增加通道寬度的設計也使能夠實現具有有限復雜性的高階交互；2）可擴展。將自注意力中的二階交互擴展到任意階，以進一步提高建模能力。由于沒有對空間卷積的類型進行假設，與各種核大小和空間混合策略兼容；3）平移等變性。完全繼承了標準卷積的平移等變性，這為主要視覺引入了有益的歸納偏置。 ? 基于，作者構建了一個新的通用視覺主干族，名為 HorNet。作者在 ImageNet 分類、COCO 對象檢測和 ADE20K 語義分割上進行了大量實驗，以驗證本文模型的有效性。憑借相同的 7×7 卷積核 / 窗口和類似的整體架構和訓練配置，HorNet 優于 Swin 和 ConvNeXt 在不同復雜度的所有任務上都有很大的優勢。通過使用全局卷積核大小，可以進一步擴大差距。HorNet 還顯示出良好的可擴展性，可以擴展到更多的訓練數據和更大的模型尺寸，在 ImageNet 上達到 87.7% 的 top-1 精度，在 ADE20K val 上達到 54.6% 的 mIoU，在 COCO val 上通過 ImageNet-22K 預訓練達到 55.8% 的邊界框 AP。除了在視覺編碼器中應用外，作者還進一步測試了在任務特定解碼器上設計的通用性。通過將添加到廣泛使用的特征融合模型 FPN，作者開發了 HorFPN 來建模不同層次特征的高階空間關系。作者觀察到，HorFPN 還可以以較低的計算成本持續改進各種密集預測模型。結果表明，是一種很有前景的視覺建模方法，可以有效地結合視覺 Transofrmer 和 CNN 的優點。 ? 2. 方法 2.1 gnConv: Recursive Gated Convolutions 在本節中，將介紹 g n Conv，這是一種實現長期和高階空間相互作用的有效操作。g n Conv 由標準卷積、線性投影和元素乘法構建，但具有與自注意力類似的輸入自適應空間混合功能。 Input-adaptive interactions with gated convolution 視覺 Transformer 最近的成功主要取決于視覺數據中空間交互的正確建模。與只需使用靜態卷積核來聚合相鄰特征的 CNN 不同，視覺 Transformer 應用多頭自注意力動態生成權重以混合空間 token。然而，二次復雜度在很大程度上阻礙了視覺 Transformer 的應用，尤其是在下游任務中，包括需要更高分辨率特征圖的分割和檢測。在這項工作中，作者沒有像以前的方法那樣降低自注意力的復雜性，而是尋求一種更有效的方法，通過卷積和完全連接層等簡單操作來執行空間交互。本文方法的基本操作是門卷積（gConv）。是輸入特征，門卷積的輸出可以寫成：??

其中，是執行通道混合的線性投影層，f 是深度卷積。，其中是以 i 為中心的局部窗口，w 表示 f 的卷積權重。因此，上述公式通過元素乘法明確引入了相鄰特征和之間的相互作用。作者將 gConv 中的相互作用視為一階相互作用，因為每個僅與其相鄰特征相互作用一次。 ? High-order interactions with recursive gating ? 在與 gConv 實現有效的 1 階空間相互作用后，作者設計了，這是一種遞歸門卷積，通過引入高階相互作用來進一步增強模型容量。形式上，首先使用獲得一組投影特征和： ?

然后，作者通過以下方式遞歸執行 gating 卷積：

其中，將輸出縮放 1/α 以穩定訓練。是一組深度卷積層，用于按不同階匹配維數。 ?

最后，作者將最后一個遞歸步驟的輸出饋送到投影層，以獲得的結果。從遞歸公式方程可以很容易地看出，的交互階在每一步后將增加 1。因此，可以看到，實現了 n 階空間相互作用。還值得注意的是，只需要一個 f 來執行深度卷積，以串聯特征，而不是像上面等式中那樣計算每個遞歸步驟中的卷積，這可以進一步簡化實現并提高 GPU 的效率。為了確保高階交互不會引入太多計算開銷，作者將每個階中的通道維度設置為：

該設計表明，以從粗到細的方式執行交互，其中較低的階數是用較少的通道計算的。此外，的通道維數正好為 2C，即使 n 增加，總的浮點也可以嚴格有界。 ?

其中 K 是深度卷積的核大小。因此，以與卷積層類似的計算成本實現高階交互。 ? Long-term interactions with large kernel convolutions ? 視覺 Transformer 和傳統 CNN 的另一個區別是感受野。傳統的 CNN 通常在整個網絡中使用 3×3 卷積，而視覺 Transformer 在整個特征圖上或在相對較大的局部窗口（例如 7×7）內計算自注意力。視覺 Transformer 中的感受野可以更容易地捕捉長期依賴關系，這也是公認的視覺 Transformer 的關鍵優勢之一。受這種設計的啟發，最近有一些努力將大型內核卷積引入 CNN。為了使能夠捕捉長期交互，作者采用了兩種深度卷積 f 實現： ? 1）7×7 卷積。7×7 是 Swin Transformers 和 ConvNext 的默認窗口 / 內核大小。[研究表明，內核大小在 ImageNet 分類和各種下游任務上具有良好的性能。作者遵循此配置，與視覺 Transformers 和現代 CNN 的代表性工作進行了公平比較。 ? 2）全局濾波器（GF）。GF 層將頻域特征與可學習的全局濾波器相乘，這相當于具有全局核大小和圓形填充的空域卷積。通過使用全局濾波器處理一半通道和使用 3×3 深度卷積處理另一半通道來使用 GF 層的修改版本，并且僅在后期使用 GF 層來保留更多的局部細節。 ? Spatial interactions in vision models ? 作者從空間交互的角度回顧了一些有代表性的視覺模型設計。具體地說，作者對特征 x_i 與其相鄰特征之間的相互作用感興趣。視覺 Transformer 和以前架構之間的關鍵區別，即視覺 Transformer 在每個基本塊中具有高階空間交互。這一結果啟發作者探索一種能夠以兩個以上階數實現更高效和有效空間交互的架構。如上所述，作者提出的可以實現復雜度有界的任意階交互。還值得注意的是，與深度模型（如寬度和深度）中的其他比例因子類似，在不考慮整體模型容量的情況下簡單地增加空間交互的順序將不會導致良好的權衡。在本文中，作者致力于在分析精心設計的模型的空間交互階數的基礎上，開發一種更強大的視覺建模架構。對高階空間相互作用進行更深入和正式的討論可能是未來的一個重要方向。

Relation to dot-product self-attention 盡管本文的的計算與點積自注意有很大差異，但作者將證明也實現了輸入自適應空間混合的目標。假設 M 是通過多頭自注意力（MHSA）獲得的注意力矩陣，將 M 寫為（），因為混合權重可能在通道中變化。位置 i 處第 c 個通道的空間混合結果（在最終通道混合投影之前）為： ?

其中，w_V 是 V 投影層的權重。注意，通過點積運算獲得的m_ij包含一階相互作用。另一方面，的輸出（在之前）可以寫成：

下圖總結了的細節實現： ?

2.2 Model Architectures HorNet 可以替代視覺 Transformer 或現代 CNN 中的空間混合層。作者遵循與以前的元架構來構建 HorNet，其中基本塊包含空間混合層和前饋網絡（FFN）。根據模型大小和深度卷積 f_k 的實現，有兩個模型變體系列，分別命名為 HorNet-T/S/B/L 7×7 和 HorNet-T/S/B/L GF。作者將流行的 Swin Transformer 和 ConvNeXt 視為視覺 Transformer 和 CNN 基線，因為本文的模型是基于卷積框架實現的，同時具有像視覺 Transformer 一樣的高階交互。為了與基線進行公平比較，作者直接遵循 Swin Transformers-S/B/L 的塊數，但在第 2 階段插入一個額外的塊，以使整體復雜度接近，從而在所有模型變體的每個階段中產生 [2、3、18、2] 個塊。只需調整通道 C 的基本數量，以構建不同大小的模型，并按照慣例將 4 個階段的通道數量設置為[C、2C、4C、8C]。對于 HorNet-T/S/B/L，分別使用 C=64、96、128、192。默認情況下，將每個階段的交互順序（即中的 n）設置為 2,3,4,5，這樣最粗階C_0的通道在不同階段中是相同的。 ? HorFPN ? 除了在視覺編碼器中使用之外，作者發現本文的可以是標準卷積的增強替代方案，該方案考慮了基于卷積的各種模型中的高階空間相互作用。因此，替換 FPN 中用于特征融合的空間卷積，以改善下游任務的空間交互。具體來說，作者在融合不同金字塔級別的特征后添加了。對于目標檢測，作者在每個級別用替換自頂向下路徑后的 3×3 卷積。對于語義分割，作者簡單地將多階特征映射串聯后的 3×3 卷積替換為，因為最終結果直接從該串聯特征預測。作者同樣提供了兩個實現，稱為 HorFPN 7×7 和 HorFPN GF，由f_k的選擇決定。 ? 3. 實驗

ImageNet 分類實驗結果總結在上表中。本文的模型通過最先進的視覺 Transformer 和 CNNs 實現了非常有競爭力的性能。值得注意的是，HorNet 超越了 Swin Transformers 和 ConvNeXt，它們在各種模型尺寸和設置上都具有相似的整體架構和訓練配置。

作者使用常用的 UperNet 框架評估了 ADE20K 數據集上的 HorNet 語義分割任務。所有模型都使用 AdamW 優化器訓練 160k 次迭代，全局 batch 處理大小為 16。訓練期間的圖像大小對于 ImagNet-1k (HorNet-T/S/B) 預訓練模型為 512 × 512，對于 ImageNet-22K 預訓練模型 (HorNet-L) 為 640 × 640。結果總結在上表的左側部分，其中報告了驗證集上的單尺度 (SS) 和多尺度 (MS) mIoU。作者還在 COCO 數據集上評估了本文的模型。作者采用級聯 Mask R-CNN 框架使用 HorNet-T/S/B/L 主干進行對象檢測和實例分割。繼 Swin 和 ConvNeXt 之后，作者使用了具有多尺度訓練的 3× schedule。上表的右側部分比較了本文的 HorNet 模型和 Swin/ConvNeXt 模型的 box AP 和 mask AP。

作者現在展示了所提出的的另一個應用，即作為更好的融合模塊，可以更好地捕獲密集預測任務中不同級別特征之間的高階交互。具體而言，作者直接修改了分別用于語義分割和對象檢測的 FPN，如 SuperNet 和 Mask R-CNN。在上表中顯示了結果，其中作者比較了本文的 HorFPN 和標準 FPN 在不同主干上的性能，包括 ResNet-50/101、Swin-S 和 HorNet-S 7×7。對于語義分割，作者發現 HorFPN 可以顯著減少 FLOPs(～50%），同時實現更好的 mIoU。 ?

上表展示了本文方法的消融實驗結果。

上圖展示了 Swin、ConvNeXt 和 HorNet 的權衡比較。 4. 總結 作者提出了遞歸門卷積（），它與門卷積和遞歸設計進行有效、可擴展和平移等變的高階空間交互。在各種視覺 Transformer 和基于卷積的模型中，可以作為空間混合層的替代品。在此基礎上，作者構建了一個新的通用視覺骨干 HorNet 家族。大量實驗證明了和 HorNet 在常用視覺識別基準上的有效性。 ? 最后筆者已經將 HorNet 網絡代碼匯總整理在以下 Github 庫中，地址為: https://github.com/xmu-xiaoma666/External-Attention-pytorch ? 該庫是一個面向小白的頂會論文核心代碼庫。里面匯總諸多頂會論文核心代碼，包括 Attention、Self-Attention、Backbone、MLP、Conv 等。 5. 將 HorNet 結合 YOLOv5 模型應用 YOLOAir 庫中已經將 HorNet 網絡應用在 YOLO 模型中，分別以下三種方式與 YOLOv5 模型結合： 1. 在 YOLOv5 中使用 gnconv 模塊示例 2. 在 YOLOv5 中使用 HorBlock 模塊示例 3. 在 YOLOv5 中使用 HorNet 主干網絡示例

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4771

瀏覽量
100714
深度學習

深度學習

+關注

關注
73

文章
5500

瀏覽量
121111
Transformer

Transformer

+關注

關注
0

文章
143

瀏覽量
5995

原文標題：ECCV 2022 | 清華&Meta提出HorNet，用遞歸門控卷積進行高階空間相互作用

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

基于卷積的基礎模型InternImage網絡技術分析

近年來大規模視覺 Transformer 的蓬勃發展推動了計算機視覺領域的性能邊界。視覺 Transformer 模型通過擴大模型參數量和訓

發表于 11-18 10:49 ?699次閱讀

基于<b class='flag-5'>卷積</b>的基礎模型InternImage網絡技術分析

FFT與DFT計算時間的比較及圓周卷積代替線性卷積的有效性實

實驗二 FFT與DFT計算時間的比較及圓周卷積代替線性卷積的有效性實驗：一實驗目的1：掌握FFT基2時間（或基2頻率）抽選法，理解其提高減少乘法運算次數提高運算速度的原理。2：掌握FFT圓周

發表于 12-29 21:52

解析深度學習：卷積神經網絡原理與視覺實踐

解析深度學習：卷積神經網絡原理與視覺實踐

發表于 06-14 22:21

卷積神經網絡的層級結構和常用框架

　　卷積神經網絡的層級結構　　卷積神經網絡的常用框架

發表于 12-29 06:16

可分離卷積神經網絡在 Cortex-M 處理器上實現關鍵詞識別

我們可以對神經網絡架構進行優化，使之適配微控制器的內存和計算限制范圍，并且不會影響精度。我們將在本文中解釋和探討深度可分離卷積神經網絡在 Cortex-M 處理器上實現關鍵詞識別的潛力。關鍵

發表于 07-26 09:46

V7開發板裸機程序的模板框架有何特性

如何對MDK5和IAR8版本進行配置？V7開發板裸機程序的模板框架有何特性？

發表于 10-14 06:45

RK平臺PHY驅動與NXP的整體框架有哪些區別呢

RK平臺PHY驅動與NXP的整體框架有哪些區別呢？

發表于 02-10 06:04

DevEco Studio里的java UI框架有沒有必要做拖拽式編程呢？

　　DevEco Studio已經支持js UI框架拖拽式編程，你覺得java UI框架有沒有必要做拖拽式編程呢？

發表于 05-18 15:32

一種成分取證的理論分析模式的分類框架

一種成分取證的理論分析模式的分類框架

發表于 03-20 11:04 ?0次下載

python爬蟲框架有哪些

本視頻主要詳細介紹了python爬蟲框架有哪些，分別是Django、CherryPy、Web2py、TurboGears、Pylons、Grab、BeautifulSoup、Cola。

發表于 03-22 16:13 ?6812次閱讀

用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優異效果

白皮書《Transformer-LS：用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” （Transfo

發表于 12-28 10:42 ?1564次閱讀

深度學習框架是什么？深度學習框架有哪些？

深度學習框架是什么？深度學習框架有哪些？? 深度學習框架是一種軟件工具，它可以幫助開發者輕松快速地構建和訓練深度神經網絡模型。與手動編寫代碼相比，深度學習框架可以大大減少開發和調試的時

發表于 08-17 16:03 ?2730次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問世以來，在自然語言處理（NLP）領域取得了巨大的成功，并成為了許多先進模型（如BERT、GPT等）的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型，包括模型的結構、訓

發表于 07-02 11:41 ?1598次閱讀

基于PyTorch的卷積核實例應用

在深度學習和計算機視覺領域，卷積操作是一種至關重要的技術，尤其在圖像處理和特征提取方面發揮著核心作用。PyTorch作為當前最流行的深度學習框架之一，提供了強大的張量操作功能和靈活的API，使得

發表于 07-11 15:19 ?447次閱讀

卷積神經網絡的實現工具與框架

卷積神經網絡因其在圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術的快速發展，多種實現工具和框架應運而生，為研究人員和開發者提供了強大的支持。 TensorFlow 概述

發表于 11-15 15:20 ?256次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

基于卷積的框架有效實現及視覺Transformer背后的關鍵成分

評論

基于卷積的基礎模型InternImage網絡技術分析

FFT與DFT計算時間的比較及圓周卷積代替線性卷積的有效性實

解析深度學習：卷積神經網絡原理與視覺實踐

卷積神經網絡的層級結構和常用框架

可分離卷積神經網絡在 Cortex-M 處理器上實現關鍵詞識別

V7開發板裸機程序的模板框架有何特性

RK平臺PHY驅動與NXP的整體框架有哪些區別呢

DevEco Studio里的java UI框架有沒有必要做拖拽式編程呢？

一種成分取證的理論分析模式的分類框架

python爬蟲框架有哪些

用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優異效果

深度學習框架是什么？深度學習框架有哪些？

使用PyTorch搭建Transformer模型

基于PyTorch的卷積核實例應用

卷積神經網絡的實現工具與框架