色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于視覺transformer的高效時空特征學習算法

CVer ? 來源:ECCV 2022 ? 作者:ECCV 2022 ? 2022-12-12 15:01 ? 次閱讀

二、背景

高效的時空建模(Spatiotemporal modeling)是視頻理解和動作識別的核心問題。相較于圖像的Transformer網絡,視頻由于增加了時間維度,如果將Transformer中的自注意力機制(Self-Attention)簡單擴展到時空維度,將會導致時空自注意力高昂的計算復雜度和空間復雜度。許多工作嘗試對時空自注意力進行分解,例如ViViT和Timesformer。這些方法雖然減小了計算復雜度,但會引入額外的參數量。本文提出了一種簡單高效的時空自注意力Transformer,在對比2D Transformer網絡不增加計算量和參數量情況下,實現了時空自注意力機制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。

三、方法

視覺Transofrmer通常將圖像分割為不重疊的塊(patch),patch之間通過自注意力機制(Self-Attention)進行特征聚合,patch內部通過全連接層(FFN)進行特征映射。每個Transformer block中,包含Self-Attention和FFN,通過堆疊Transformer block的方式達到學習圖像特征的目的。

在視頻動作識別領域,輸入的數據是連續采樣的多幀圖像(常用8幀、16幀、32幀等)學習視頻的時空特征,不僅要學習單幀圖像的空間視覺特征,更要建模幀之間的時域特征。本文提出一種基于視覺transformer的高效時空特征學習算法,具體來說,我們通過將patch按照一定的規則進行移動(patch shift),把當前幀中的一部分patch移動到其他幀,同時其他幀也會有一部分patch移動到當前幀。經過patch移動之后,對每一幀圖像的patch分別做Self-Attention,這一步學習的特征就同時包含了時空特征。具體思想可以由下圖所示:

9564e2d0-7944-11ed-8abf-dac502259ad0.png

在常用的2D圖像視覺Transformer網絡結構上,將上述patch shift操作插入到self-attention操作之前即可,無需額外操作,下圖是patch shift transformer block,相比其他視頻transformer的結構,我們的操作不增加額外的計算量,僅需進行內存數據移動操作即可。對于patch shift的移動規則,我們提出幾種設計原則:1. 不同幀的塊盡可能均勻地分布。2.合適的時域感受野。3.保持一定的移動塊比例。具體的分析,讀者可以參考正文。

我們對通道移動(Channel shift) 與 塊移動(patch shift)進行了詳盡的分析和討論,這兩種方法的可視化如下:

95ab73a8-7944-11ed-8abf-dac502259ad0.png

通道移動(Channel shift) 與 塊移動(patch shift)都使用了shift操作,但channel shift是通過移動所有patch的部分channel的特征來實現時域特征的建模,而patch shift是通過移動部分patch的全部channel與Self-attention來實現時域特征的學習。可以認為channel shift的時空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此兩種方法具有一定的互補性。基于此,我們提出交替循環使用 patchshift和channel shift。網絡結構如下圖所示:

95c20c4e-7944-11ed-8abf-dac502259ad0.png

四、實驗結果

1. 消融實驗

95eafd70-7944-11ed-8abf-dac502259ad0.png

2. 與SOTA方法進行對比

961daf2c-7944-11ed-8abf-dac502259ad0.png

969a1bf2-7944-11ed-8abf-dac502259ad0.png

9761b4dc-7944-11ed-8abf-dac502259ad0.png

3. 運行速度

可以看到,PST的實際推理速度和2D的Swin網絡接近,但具有時空建模能力,性能顯著優于2D Swin。和Video-Swin網絡相比,則具有明顯的速度和顯存優勢。

9789f1a4-7944-11ed-8abf-dac502259ad0.png

4. 可視化結果

圖中從上到下依次為Kinetics400, Diving48, Sthv1的可視化效果。PST通過學習關聯區域的相關性,并且特征圖能夠反映出視頻當中動作的軌跡。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 內存
    +關注

    關注

    8

    文章

    3081

    瀏覽量

    74595

原文標題:ECCV 2022 | 阿里提出:快速動作識別的時空自注意力模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何使用MATLAB構建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務,如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關系時變得高效。因此 Vaswani 等人的論文強調“注意力是所需的一切”。
    的頭像 發表于 02-06 10:21 ?1549次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b>模型

    地平線ViG基于視覺Mamba的通用視覺主干網絡

    Vision Mamba的成功預示著將視覺表征學習轉換為線性復雜度視覺序列表征學習具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺
    的頭像 發表于 01-08 09:33 ?272次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網絡

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習等機器
    的頭像 發表于 11-15 09:19 ?769次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    語言的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規律和特征。 常用的模型結構 Transformer架構:大語言模型通常基于Transformer架構,這是一種能夠處理序列數據
    發表于 08-02 11:03

    圖像識別算法都有哪些方法

    圖像識別算法是計算機視覺領域的核心任務之一,它涉及到從圖像中提取特征并進行分類、識別和分析的過程。隨著深度學習技術的不斷發展,圖像識別算法
    的頭像 發表于 07-16 11:14 ?6354次閱讀

    opencv圖像識別有什么算法

    OpenCV(Open Source Computer Vision Library)是一個開源的計算機視覺和機器學習軟件庫,提供了大量的圖像處理和計算機視覺相關的算法。以下是一些常見
    的頭像 發表于 07-16 10:40 ?1359次閱讀

    Transformer能代替圖神經網絡嗎

    Transformer作為一種在處理序列數據方面表現出色的深度學習模型,自其提出以來,已經在自然語言處理(NLP)、時間序列分析等領域取得了顯著的成果。然而,關于Transformer是否能完全代替圖神經網絡(GNN)的問題,需
    的頭像 發表于 07-12 14:07 ?617次閱讀

    機器學習中的數據預處理與特征工程

    在機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和特征工程的基本概念出發,詳細探討這兩個步驟的具體內容、方法及其在機器
    的頭像 發表于 07-09 15:57 ?720次閱讀

    計算機視覺怎么給圖像分類

    圖像分類是計算機視覺領域中的一項核心任務,其目標是將輸入的圖像自動分配到預定義的類別集合中。這一過程涉及圖像的特征提取、特征表示以及分類器的設計與訓練。隨著深度學習技術的飛速發展,圖像
    的頭像 發表于 07-08 17:06 ?1064次閱讀

    深度學習在工業機器視覺檢測中的應用

    識別等任務。傳統的機器視覺檢測方法通常依賴于手工設計的特征和固定的算法,難以應對復雜多變的工業環境。而深度學習的引入,為工業機器視覺檢測帶來
    的頭像 發表于 07-08 10:40 ?1360次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習算法原理,包括線性回歸、邏輯回歸、支持向量機
    的頭像 發表于 07-02 11:25 ?1602次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習和機器學習領域都經常被
    的頭像 發表于 06-27 08:27 ?1776次閱讀
    機器<b class='flag-5'>學習</b>的經典<b class='flag-5'>算法</b>與應用

    通過強化學習策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構建機器學習模型過程中的決定性步驟。為模型和我們想要完成的任務選擇好的特征,可以提高性能。如果我們處理的是高維數據集,那么選擇特征就顯得尤為重要。
    的頭像 發表于 06-05 08:27 ?475次閱讀
    通過強化<b class='flag-5'>學習</b>策略進行<b class='flag-5'>特征</b>選擇

    視覺Transformer基本原理及目標檢測應用

    視覺Transformer的一般結構如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個多頭自注意力模塊(self-attention)和一個位置前饋神經網絡(FFN)。
    發表于 04-03 10:32 ?4155次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>基本原理及目標檢測應用

    機器視覺如何檢測橡膠圈外觀尺寸檢測?

    表面是否存在異物,如雜質或污漬。系統能夠快速識別并標記出這些異物。基于機器學習算法,機器視覺系統可以將檢測到的橡膠圈按照不同的標準進行分類,提高產品檢測和生產效率。 尺寸檢測 機器視覺
    的頭像 發表于 03-15 17:24 ?718次閱讀
    主站蜘蛛池模板: 5g在视影讯天天5g免费观看 | 啊…嗯啊好深男男高h文 | 伦理 电影在线观看 | 色婷婷激婷婷深爱五月小蛇 | 日本漫画无彩翼漫画 | 女生下面免费看 | 午夜理论片日本中文在线 | 亚洲福利视频导航 | 最新毛片网 | 成人免费视频网站www | 红桃传媒少妇人妻网站无码抽插 | 国产亚洲精品视频在线网 | 亲胸揉胸膜下刺激视频在线观看 | 99热久久精品国产一区二区 | 国产中文视频无码成人精品 | 久见久热 这里只有精品 | 我和黑帮老大第365天第2季在线 | 黄A无码片内射无码视频 | 99热在线观看 | 久久久无码精品无码国产人妻丝瓜 | 神马电影我不卡国语版 | 双性被疯狂灌满精NP | 国产婷婷色综合AV蜜臀AV | 忘忧草研究院一二三 | 麻豆免费观看高清完整视频在线 | 免费高清在线影片一区 | 日韩毛片大全 | 嗯别插太快好深再深点 | 99热在线精品免费全部my | 亚洲国产夜色在线观看 | 本庄优花aⅴ全部在线影片 被滋润的艳妇疯狂呻吟白洁老七 | 日本xxxx19| 最新无码二区日本专区 | 中文无码在线观 | 国产一区精选播放022 | 俄罗斯摘花 | 98久久人妻少妇激情啪啪 | 欧美亚洲精品真实在线 | 99久视频只有精品2019 | 最近中文字幕无吗免费高清 | 日本又黄又爽又色又刺激的视频 |