色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

李飛飛團隊新作SiamMAE:孿生掩碼自編碼器,刷榜視覺自監督方法!

CVer ? 來源:新智元 ? 2023-06-12 14:18 ? 次閱讀

【導讀】只需一個簡單操作擴展MAE,即可實現自監督學習新sota!

計算機視覺領域,想要建立圖像和場景(scene)之間之間的對應關系是一項比較困難的任務,尤其是在存在遮擋、視角改變或是物體外觀發生變化的情況下。

最近,斯坦福大學李飛飛團隊對MAE進行擴展,提出了孿生掩碼自編碼器SiamMAE(Siamese Masked Autoencoders)以學習視頻中的視覺對應關系。

666d8786-08df-11ee-962d-dac502259ad0.png

論文鏈接:https://siam-mae-video.github.io/resources/paper.pdf

先隨機采樣兩個視頻幀,并進行非對稱掩碼操作;然后SiamMAE編碼器網絡對兩個幀進行獨立處理,最后使用交叉注意層組成的解碼器來預測未來幀(future frame)中丟失的圖像塊。

通過對未來幀中的大部分(95%)圖像塊進行掩碼,同時保持過去幀(past frame)圖像不變,SiamMAE促使網絡專注于物體運動,并學習以物體為中心的表征。

6682c56a-08df-11ee-962d-dac502259ad0.gif

盡管整個網絡的設計概念比較簡單,但通過SiamMAE學習到的特征在視頻物體分割、姿勢關鍵點傳播和語義部分傳播任務上都優于最先進的自監督方法。

SiamMAE在不依賴于數據增強、基于手工跟蹤的前置任務或其他技術來防止表征崩潰的情況下,實現了非常有競爭力的性能。

孿生掩碼自編碼器

研究人員的目標是開發一種自監督的方法來學習對應關系,主要是將掩碼自編碼器(MAE)模型擴展到視頻數據中。

66cad7ec-08df-11ee-962d-dac502259ad0.png

Patchify

給定具有L幀的視頻剪輯,首先隨機采樣兩個視頻幀,兩幀之間的距離通過從預定的potential frame gaps范圍中選擇一個隨機值來確定。

與原始ViT模型類似,通過將每個幀轉換為一系列不重疊的N×N個patch來拼接視頻幀。

最后,把位置嵌入加到線性投影上,并附加一個[CLS]標記,需要注意的是沒有使用時序位置嵌入。

Masking

像圖像和視頻這樣的自然信號是高度冗余的,分別表現為空間和時空上的冗余。

為了創造一個具有挑戰性的預測性自監督學習任務,MAEs隨機掩碼了75%的圖像patch,視頻數據的掩碼率提升到90%,并且對每幀都使用相同的掩碼率。

這種設計可以使網絡無法利用和學習到時間上的對應關系,避免在對應關系學習基準上達到次優性能。

研究人員認為,不對稱的掩碼可以創造一個更有挑戰性的自監督學習任務,并且可以鼓勵網絡學習時間上的相關性。

所以對于采樣的兩個視頻幀,對第一幀選擇不掩碼,對第二幀選擇掩碼95%,這樣就可以將整個過去幀(entire past frame)作為輸入,網絡只需要將其擴散到未來中的適當位置即可,可以促進網絡對物體運動進行建模并關注物體的邊界。

66e9b522-08df-11ee-962d-dac502259ad0.png

為了進一步增加任務的難度,兩個視頻幀之間具有更大的時間間隔,盡管可能會導致對未來的預測變得模糊,并可能產生多種合理的結果,但為第二幀提供少量的patch作為輸入,可以讓網絡的自監督學習變得更困難。

編碼器

研究人員探索了兩種不同的編碼器配置來處理輸入幀。

聯合編碼器(joint encoder)是圖像MAEs在一對視頻幀上的擴展,把兩幀未掩碼的圖像patch串聯起來,然后輸入到標準的ViT編碼器中進行處理。

孿生編碼器(siamese encoder)是用于比較實體的權重共享神經網絡,是對比表征學習方法的一個重要組件,用于對應學習(corresponding learning)時通常需要一些信息瓶頸來防止網絡學習的解決方案,如使用顏色通道dropout來迫使網絡避免依賴顏色來匹配對應關系。

在這篇論文中,研究人員使用孿生編碼器來獨立處理兩幅圖像,使用非對稱掩碼作為信息瓶頸。

解碼器

編碼器的輸出通過線性層進行投影,并加入帶有位置嵌入的[MASK] token,以生成對應于輸入幀的所有token

研究人員探索了三種不同的解碼器配置:

聯合解碼器(joint decoder)在兩幀的token串聯上使用原版Transformer模塊,其主要缺點是對GPU內存的需求大幅增加,特別是在使用較小的patch尺寸時。

交叉自解碼器(cross-self decoder)與原版Transformer模型的編碼-解碼器設計類似,每個解碼器塊由一個交叉注意力層和一個自注意力層組成,來自第二幀的token通過交叉注意力層與第一幀的token進行注意力操作,然后通過自注意力層進行相互融合。

可以注意到,交叉注意力層在功能上類似于自監督對應學習方法中經常使用的affinity矩陣。

交叉解碼器(cross decoder)由交叉注意力層的解碼器塊組成,其中來自第二幀的token與來自第一幀的token進行注意力操作。

最后,解碼器的輸出序列被用來預測掩碼圖像塊中的歸一化像素值,在解碼器的預測和真實值之間使用L2損失。

實驗結果

66fbc73a-08df-11ee-962d-dac502259ad0.png

視頻物體分割

在多物體分割基準數據集DAVIS 2017上,使用480p分辨率的圖像對模型進行評估。

實驗結果可以發現SiamMAE明顯優于VideoMAE(從39.3%提升到62.0%),研究人員將其歸因于VideoMAE中使用了tube掩碼方案,使得模型無法學習時間上的對應關系。

6719c7ee-08df-11ee-962d-dac502259ad0.png

與DINO類似,研究人員也發現降低patch的尺寸會帶來明顯的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型優于之前所有的對比學習和自監督的對應學習方法。

67342d82-08df-11ee-962d-dac502259ad0.gif

還可以注意到盡管較大的MAE-ST模型(ViT-L/16,304M參數)在隨機掩碼的情況下比VideoMAE表現更好,但其性能仍然落后于SiamMAE相當多。

而且在視頻上訓練的MAE與圖像MAE的表現相似,視頻與圖像的不同之處在于,圖像是(近似)各向同性的,時間維度是特殊的,并不是所有的時空方向都是同等可能的。

因此,對稱地處理空間和時間信息可能是次優的。

視頻部分分割(Video Part Segmentation)

在視頻實例解析(Video Instance Parsing, VIP)基準上對SiamMAE進行評估,該基準包括為20個不同的人體部位傳播語義掩碼。

與評估的其他數據集相比,VIP特別具有挑戰性,因為包括更長的視頻(最長120秒)。

與先前工作類似,使用560×560的圖像和單一背景幀進行評估后,可以發現ViT-S/8模型性能大大超越了DINO (從39.5提升到45.9)。

6761b14e-08df-11ee-962d-dac502259ad0.gif

SiamMAE從更小的patch尺寸中,比DINO受益更多,實現了+8.6的mIoU評分,比DINO的+3.3 mIoU有所提高。

SiamMAE也優于之前所有的對比學習和自監督的對應關系學習方法。

姿勢追蹤(pose tracking)

在關鍵點傳播的任務上對SiamMAE進行了評估,需要傳播15個關鍵點,并且要求空間上的精確對應關系,使用320×320的圖像和一個單一的背景幀,SiamMAE的性能優于所有其他模型,并且比DINO更受益于較小的patch尺寸(+14.9到+10.9 PCK@0.1)

67822ea6-08df-11ee-962d-dac502259ad0.gif

?

參考資料: https://siam-mae-video.github.io/resources/paper.pdf

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1143

    瀏覽量

    40717
  • 編碼器
    +關注

    關注

    45

    文章

    3638

    瀏覽量

    134426
  • 圖像
    +關注

    關注

    2

    文章

    1083

    瀏覽量

    40449

原文標題:李飛飛團隊新作SiamMAE:孿生掩碼自編碼器,刷榜視覺自監督方法!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于變分自編碼器的異常小區檢測

    出來?! ”疚奶岢隽艘环N基于變分自編碼器的異常小區檢測方法,其基本原理是利用異常小區的KPI數據在通過變分自編碼器編碼與解碼過程中所產生的較大波動來實現異常檢測。實驗結果表明,該
    發表于 12-03 15:06

    是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

    標準自編碼器能學習生成緊湊的數據表達并重建輸入數據,然而除了像去噪自編碼器等為數不多的應用外,它的應用卻極其有限。其根本原因在于自編碼器將輸入轉換為隱含空間中的表達并不是連續的,使得其中的插值和擾動難以完成。
    的頭像 發表于 04-19 16:48 ?1.3w次閱讀
    是什么讓變分<b class='flag-5'>自編碼器</b>成為如此成功的多媒體生成工具呢?

    自編碼器是什么?有什么用

    自動編碼器是一種無監督的神經網絡模型,它可以學習到輸入數據的隱含特征,這稱為編碼(coding),同時用學習到的新特征可以重構出原始輸入數據,稱之為解碼(decoding)。
    的頭像 發表于 08-02 16:47 ?1.8w次閱讀

    自編碼器介紹

    自編碼器若僅要求X≈Y,且對隱藏神經元進行稀疏約束,從而使大部分節點值為0或接近0的無效值,便得到稀疏自動編碼算法。一般情況下,隱含層的神經元數應少于輸入X的個數,因為此時才能保證這個網絡結構的價值。
    發表于 06-11 15:07 ?4928次閱讀

    稀疏自編碼器及TensorFlow實現詳解

     稀疏自編碼器(又稱稀疏自動編碼機)中,重構誤差中添加了一個稀疏懲罰,用來限定任何時刻的隱藏層中并不是所有單元都被激活。如果 m 是輸入模式的總數,那么可以定義一個參數 ρ_hat,用來表示每個隱藏層單元的行為(平均激活多少次)。
    發表于 06-11 16:45 ?3850次閱讀
    稀疏<b class='flag-5'>自編碼器</b>及TensorFlow實現詳解

    自編碼器基礎理論與實現方法、應用綜述

    自編碼器是深度學習中的一種非常重要的無監督學習方法,能夠從大量無標簽的數據中自動學習,得到蘊含在數據中的有效特征。因此,自編碼方法近年來受到了廣泛的關注,已成功應用于很多領域,例如數據分類、模式識別
    發表于 03-31 11:24 ?9次下載
    <b class='flag-5'>自編碼器</b>基礎理論與實現<b class='flag-5'>方法</b>、應用綜述

    一種多通道自編碼器深度學習的入侵檢測方法

      針對現有的入侵檢測方法在檢測準確率和誤報率方面存在的不足,提岀了一種多通道自編碼器深度學習的入侵檢測方法。該方法分為無監督學習和有
    發表于 04-07 15:23 ?7次下載
    一種多通道<b class='flag-5'>自編碼器</b>深度學習的入侵檢測<b class='flag-5'>方法</b>

    一種基于變分自編碼器的人臉圖像修復方法

    基于卷積神經網絡的人臉圖像修復技術在刑事偵破、文物保護及影視特效等領域有著重要的應用。但現有方法存在著圖像修復結果不夠清晰以及結果多樣化不足等缺點,為此,提出了一種基于變分自編碼器的人臉圖像修復方法
    發表于 04-21 10:51 ?10次下載
    一種基于變分<b class='flag-5'>自編碼器</b>的人臉圖像修復<b class='flag-5'>方法</b>

    基于變分自編碼器的網絡表示學習方法

    ,將這些信息融入到網絡表示學習過程中,有助于提升下游任務的性能。但是針對不同的應用場景,結構和屬性信息并不總是線性相關,而且它們都是高度非線性的數據。提岀一種基于變分自編碼器的網絡表示學習方法 VANRL。變分
    發表于 05-12 14:50 ?27次下載

    基于自編碼特征的語音聲學綜合特征提取

    信噪比衡量)很低。在不影響可懂度的情況下,為了提高語音増強后語音質量,提出了一種基于自編碼特征的綜合特征。首先利用自編碼器提取自編碼特征,然后利用 Group Lasso算法驗證自編碼
    發表于 05-19 16:33 ?27次下載

    自編碼器神經網絡應用及實驗綜述

    自編碼器是深度學習中的一種非常重要的無監督學習方法,能夠從大量無標簽的數據中自動學習,得到蘊含在數據中的有效特征。因此,自編碼方法近年來受到了廣泛的關注,已成功應用于很多領域,例如數據分類、模式識別
    發表于 06-07 16:38 ?7次下載

    基于無監督稀疏自編碼的圖像哈希算法

    基于無監督稀疏自編碼的圖像哈希算法
    發表于 06-28 16:46 ?32次下載

    堆疊降噪自動編碼器(SDAE)

    自動編碼器(Auto-Encoder,AE) 自編碼器(autoencoder)是神經網絡的一種,經過訓練后能嘗試將輸入復制到輸出。自編碼器內部有一個隱藏層 h,可以產生編碼(code
    的頭像 發表于 01-11 17:04 ?6535次閱讀
    堆疊降噪自動<b class='flag-5'>編碼器</b>(SDAE)

    自編碼器 AE(AutoEncoder)程序

    原文鏈接 1.程序講解 (1)香草編碼器 在這種自編碼器的最簡單結構中,只有三個網絡層,即只有一個隱藏層的神經網絡。它的輸入和輸出是相同的,可通過使用Adam優化和均方誤差損失函數,來學習如何重構
    的頭像 發表于 01-11 17:29 ?1346次閱讀
    <b class='flag-5'>自編碼器</b> AE(AutoEncoder)程序

    自編碼器的原理和類型

    自編碼器(Autoencoder, AE)是一種無監督學習的神經網絡模型,它通過編碼器和解碼的組合,實現了對輸入數據的壓縮和重構。自編碼器
    的頭像 發表于 07-09 11:25 ?1153次閱讀
    主站蜘蛛池模板: 好大太快了快插穿子宫了| 换脸国产AV一区二区三区| 精品人妻一区二区三区视频53| 伦理片在线线手机版韩国免费6| 日韩精品真人荷官无码| 亚洲欧美激情精品一区二区| 99久久国产免费福利| 国产午夜人做人免费视频中文| 狼好色有你好看| 天天综合亚洲综合网站| 中文字幕绝色少妇性| 俄罗斯bbbb| 老师你奶真大下面水真多| 无人在线观看免费高清视频播放| 在线视频一区二区三区在线播放| 国产高潮久久精品AV无码| 乱子伦在线观看中文字幕| 无遮掩H黄纯肉动漫在线观看星| 97草碰在线视频免费| 国产在线精品亚洲| 日本三级床震| 最近中文字幕完整版高清| 国产麻豆AV伦| 秋霞特色大片18岁入口| 伊人久久久久久久久久| 国产精品亚洲高清一区二区| 免费在线看视频| 一区二区中文字幕在线观看 | 国产成人女人在线视频观看| 久久综合网久久综合| 性色欲情网站IWWW| 成人网18免费韩国| 美女扒开尿口直播| 亚洲日韩有码无线免费| 国产国拍亚洲精品永久软件| 欧美成人中文字幕在线看| 一抽一出BGM免费3分钟| 国产色精品VR一区二区| 日韩中文无线码在线视频| 99久久99久久精品国产片果冻| 久久机热免费视频|