亚洲国产精品成熟老女人,亚洲综合第一页,亚洲字幕

Vision Transformer (ViT)自發布以來獲得了巨大的人氣，并顯示出了比基于CNN的模型(如ResNet)更大的潛力。但是為什么Vision Transformer比CNN的模型更好呢？最近發表的一篇文章“Do Vision Transformers See Like Convolutional Neural Networks?”指出，ViT的優勢來自以下幾個方面：

ViT不同層的特征更加均勻，而CNN模型不同層的特征呈網格狀

ViT的低層的注意力包含全局信息，而CNN的性質在低層只關注局部

在ViT的較高層中，跳躍連接在信息傳播中發揮突出作用，而ResNet/CNN跳躍連接在較高層中傳遞的信息較少

此外，數據的規模和全局平均池化的使用都會對ViT的表示產生很大的影響。

ViT和CNN的主要區別

首先，讓我們看看下面的兩個架構，ViT和一個典型的CNN模型ResNet50。ResNet50接收整個狗圖像，并進行2D卷積，內核大小為7×7，用殘差塊疊加50層，最后附加一個全局平均池化和一個dense層，將圖像分類為“狗”。ViT首先將狗圖像分解為16*16個patch，將每個patch視為一個“token”，然后將整個token序列送入transformer編碼器，該編碼器由多頭自注意力塊組成，編碼器特征隨后被發送到MLP層，用于分類“狗”類。

上: ResNet50; 下: ViT

對于兩個長度不同的特征向量，很難衡量它們的相似性。因此，作者提出了一種特殊的度量，中心核對齊(CKA)，整個論文中都在使用這個。假設X和Y是m個不同樣本的特征矩陣，K=XX^T^, L=YY^T^，則利用Hilbert-Schmidt獨立準則(HSIC)的定義，定義CKA如下：

X和Y越相似，CKA值越高。更多的定義細節可以在論文的第3節中找到。

有了CKA的定義，一個自然的問題出現了：ViT和CNN的不同層的特征有多相似？作者表明，模式是相當不同的， ViT在所有層上有一個更統一的特征表示，而CNN/ResNet50在較低和較高的層上有一個網格狀的模式。這意味著ResNet50在它的低層和高層之間學習不同的信息。

左：ViT各層特征對之間的CKA值，右:ResNet50所有層的特性對之間的CKA值。

但是ResNet在其較低層次和較高層次學習的“不同信息”是什么呢？我們知道對于CNN模型，由于卷積核的性質，在較低的層只學習局部信息，在較高的層學習全局信息。所以在不同的層之間有一個網格狀的模式就不足為奇了。那么我們不禁要問，ViT怎么？?ViT是否也在其底層學習局部信息？

如果我們進一步觀察自注意力頭，我們知道每個token會關注所有其他token。每個被關注的token都是一個查詢patch，并被分配一個注意力權重。由于兩個“token”代表兩個圖像patch，我們可以計算它們之間的像素距離。通過將像素距離和注意力權重相乘，定義了一個“注意力距離”。較大的注意力距離意味著大多數“遠處的patch”具有較大的注意權重——換句話說，大多數注意力是“全局的”。相反，小的注意距離意味著注意力是局部的。

注意力距離的計算

作者進一步研究了ViT中的注意力距離。從下面的結果中，我們可以看到，雖然從較高層(block 22/23，紅色高亮顯示)的注意力距離主要包含全局信息，但是，即使是較低層(block 0/1，紅色高亮顯示)仍然包含全局信息。這和CNN的模型完全不同。

現在我們知道ViT甚至在它的底層也學習全局表示，下一個要問的問題是，這些全局表示會忠實地傳播到它的上層嗎？如果是這樣，是怎么實現的？

作者認為關鍵是ViT的跳躍連接。對于每個block，在自注意力頭和MLP頭上都存在跳躍連接。通過將跳躍連接的特征的范數除以通過長分支的特征的范數，作者進一步定義了一個度量：歸一化比率(Ratio of norm, RoN)。他們發現了驚人的相變現象，在較低的層次上，分類(CLS)token的RoN值很高，而在較高的層次上則低得多。這種模式與空間token相反，其中RoN在較低的層中較低。

歸一化比率:|z|/|f(z)|。其中z是通過跳躍連接的特特征。F (z)是經過長分支的特征。

如果他們進一步刪除ViT不同層的跳躍連接，那么CKA映射將如下所示。這意味著跳躍連接是使ViT不同層之間的信息流成為可能的主要(如果不是全部的話)機制之一。

除了強大的跳躍連接機制和在較低層次學習全局特征的能力外，作者還進一步研究了ViT在較高層次學習精確位置表示的能力。這種行為與ResNet非常不同，因為全局平均池化可能會模糊位置信息。

此外，作者指出，有限的數據集可能會阻礙ViT在較低層次學習局部表示的能力。相反，更大的數據集特別有助于ViT學習高質量的中間層表示。

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3638

瀏覽量
134428
模型

模型

+關注

關注
1

文章
3226

瀏覽量
48809
cnn

cnn

+關注

關注
3

文章
352

瀏覽量
22203

原文標題：Vision Transformers看到的東西是和卷積神經網絡一樣的嗎？

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

基于數字CNN與生物視覺的仿生眼設計

簡單的物體，完成一些簡單的視覺任務[2]。本文采用基于CNN[3-4]的數學模型以及相關的數字指令來建立一個能并行、快速處理視覺信號的數字CNN信號處理系統。在研究視網膜信號處理以及信息編碼時，把視網膜

發表于 09-19 09:35

大家是怎么壓榨CNN模型的

【技術綜述】為了壓榨CNN模型，這幾年大家都干了什么

發表于 05-29 14:49

Github開源的數字手勢識別CNN模型簡析

2.概述一個簡單的AI開發sampleGithub開源的數字手勢識別CNN模型，識別數字0-10十一種手勢類LeNet-5，兩個卷積層，兩個池化層，一個全連接層，一個Softmax輸出層3.RKNN

發表于 04-02 15:22

如何將DS_CNN_S.pb轉換為ds_cnn_s.tflite？

MIMRTX1064(SDK2.13.0)的KWS demo中放置了ds_cnn_s.tflite文件，提供demo中使用的模型示例。在 read.me 中，聲明我可以找到腳本，但是，該文檔中的腳本

發表于 04-19 06:11

為什么三相電機比單相電機更具優勢？

單相電機和三相電機，實質上區別，或者說為什么三相電機比單相電機更具優勢不要百度，復制的。要能看懂的，通俗些。就是說三相電機的優勢在哪里。我覺著，三相電機，比單相貴，一定有他的優勢。

發表于 11-09 07:50

在線研討會 | 釋放 Vision Transformers、NVIDIA TAO 和最新一代 NVIDIA GPU 的潛力

研討會時間： 2023?年?6 月 29 日（周四）上午 11:00? （北京時間） Vision Transformers（ViTs）正在徹底改變視覺 AI 應用。與卷積神經網絡（ CNN

發表于 06-16 11:45 ?493次閱讀

在線研討會 | 釋放 <b class='flag-5'>Vision</b> <b class='flag-5'>Transformers</b>、NVIDIA TAO 和最新一代 NVIDIA GPU 的<b class='flag-5'>潛力</b>

2D Transformer 可以幫助3D表示學習嗎？

預訓練的2D圖像或語言Transformer：作為基礎Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer模型作為基礎模型，例如

發表于 07-03 10:59 ?808次閱讀

cnn卷積神經網絡模型卷積神經網絡預測模型生成卷積神經網絡模型

cnn卷積神經網絡模型卷積神經網絡預測模型生成卷積神經網絡模型? 卷積神經網絡（Convolutional Neural Network，CNN

發表于 08-21 17:11 ?1234次閱讀

cnn卷積神經網絡算法 cnn卷積神經網絡模型

cnn卷積神經網絡算法 cnn卷積神經網絡模型卷積神經網絡(CNN)是一種特殊的神經網絡，具有很強的圖像識別和數據分類能力。它通過學習權重

發表于 08-21 17:15 ?2076次閱讀

Transformers的功能概述

近年來，我們聽說了很多關于Transformers的事情，并且在過去的幾年里，它們已經在NLP領域取得了巨大成功。Transformers是一種使用注意力機制(Attention)顯著改進深度學習

發表于 01-23 10:15 ?688次閱讀

深度神經網絡模型cnn的基本概念、結構及原理

，其核心是構建具有多層結構的神經網絡模型，以實現對復雜數據的高效表示和處理。在眾多深度學習模型中，卷積神經網絡（CNN）因其在圖像識別等領域的卓越性能而備受關注。

發表于 07-02 10:11 ?9708次閱讀

卷積神經網絡cnn模型有哪些

卷積神經網絡（Convolutional Neural Networks，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。 CNN的基本概念 1.1 卷積層

發表于 07-02 15:24 ?717次閱讀

CNN模型的基本原理、結構、訓練過程及應用領域

卷積神經網絡（Convolutional Neural Network，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。CNN模型的核心是卷積層

發表于 07-02 15:26 ?3467次閱讀

圖像分割與語義分割中的CNN模型綜述

圖像分割與語義分割是計算機視覺領域的重要任務，旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡（CNN）作為深度學習的一種核心模型，在圖像分割與語義分割中發揮著至關重要的作用。本文將從

發表于 07-09 11:51 ?828次閱讀

cnn常用的幾個模型有哪些

CNN（卷積神經網絡）是一種深度學習模型，廣泛應用于圖像識別、自然語言處理等領域。以下是一些常用的CNN模型： LeNet-5：LeNet-5是最早的卷積神經網絡之一，由Yann Le

發表于 07-11 14:58 ?797次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Vision Transformers比基于CNN的模型更具有潛力

評論

基于數字CNN與生物視覺的仿生眼設計

大家是怎么壓榨CNN模型的

Github開源的數字手勢識別CNN模型簡析

如何將DS_CNN_S.pb轉換為ds_cnn_s.tflite？

為什么三相電機比單相電機更具優勢？

在線研討會 | 釋放 Vision Transformers、NVIDIA TAO 和最新一代 NVIDIA GPU 的潛力

2D Transformer 可以幫助3D表示學習嗎？

cnn卷積神經網絡模型卷積神經網絡預測模型生成卷積神經網絡模型

cnn卷積神經網絡算法 cnn卷積神經網絡模型

Transformers的功能概述

深度神經網絡模型cnn的基本概念、結構及原理

卷積神經網絡cnn模型有哪些

CNN模型的基本原理、結構、訓練過程及應用領域

圖像分割與語義分割中的CNN模型綜述

cnn常用的幾個模型有哪些