色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

復旦和Meta提出Open-VCLIP:兼顧時序建模與開集識別的視頻理解模型

CVer ? 來源:CVer ? 2023-06-25 15:04 ? 次閱讀

導讀:

CLIP[1]是一個強大的開放詞匯模型,在圖像領域表現(xiàn)出強大的零樣本識別能力,但如何將該能力遷移到視頻領域是一個較難的問題,主要存在兩大挑戰(zhàn):一是如何為圖像CLIP模型注入時序建模能力;二是在視頻領域遷移的過程中如何保持其對開放詞匯理解能力。

許多工作通過在視頻數據集上進行微調以實現(xiàn)CLIP向視頻領域的遷移,然而由于微調時使用的數據集規(guī)模相對較小,導致模型發(fā)生過擬合,使得CLIP模型原有的零樣本識別能力有所丟失。

本文提出了一種新的CLIP向視頻領域的遷移方法,找到模型泛化和專用化之間的平衡,讓模型既能識別微調時已經見過的動作和事件,又能夠借助CLIP的零樣本識別能力泛化到新的視頻動作和事件。

e7a78f9a-12a8-11ee-962d-dac502259ad0.png

問題歸納:將開放詞匯視頻模型構建問題近似于持續(xù)學習問題

假設存在一個包含所有的“視頻-文本”對的數據集,那么可以通過在上最小化”視頻-文本“對比損失來獲得最佳開放視頻詞匯模型:

然而,現(xiàn)實中如此理想的數據集不可能存在,人們只能通過盡可能大規(guī)模、多樣化的視頻文本數據集來近似。視頻動作識別是視頻內容理解中一類重要任務,本文選取了視頻動作識別數據集作為近似。此時,由于動作類別數量的限制(例如Kinetics-400只包含了400個類別),模型在微調過程中容易發(fā)生過擬合。

另一方面,本文發(fā)現(xiàn)CLIP的訓練數據包含大規(guī)模“圖像-文本”對,且圖像可以容易地擴展為靜態(tài)視頻,因此可以認為原始CLIP的權重在大規(guī)模“靜態(tài)視頻-文本”(記作上已經達到最優(yōu)。如果將數據集結合作為的近似,那么優(yōu)化目標將轉化為:

此處數據集是私有數據集,在CLIP遷移學習的過程中完全無法觸碰,而已知CLIP權重是數據集上的最優(yōu)解,因此本文目標是利用和構建開放詞匯視頻模型。自然地,開放詞匯視頻模型構建問題轉變?yōu)橐粋€持續(xù)學習的過程:在保持對歷史任務()性能的同時,不斷地在新的視頻-文本數據集()上訓練模型,提升模型的泛化能力。

Open-VCLIP方法介紹:

為了解決上述問題,本文提出Open-VCLIP方法,包括模型架構和算法改進兩部分。在架構設計方面,通過修改自注意層將時序建模能力注入到CLIP模型中;在算法改進方面,提出了插值權重優(yōu)化的新方法,取得更好的閉集性能與零樣本識別性能的權衡。

(1)注入CLIP時序建模能力

本文參考了Space-Time Mixing[2],通過修改自注意層的信息關注范圍,讓自注意力操作過程中的每個塊關注到所屬視頻幀以及相鄰視頻幀中的圖像塊信息來實現(xiàn)局部時序信息聚合,并隨著自注意力層的堆疊完成全局時間信息聚合,從而實現(xiàn)時序建模能力的注入。該過程不需要增加額外參數,適配于后文引入的權重插值優(yōu)化方法。

(2)權重插值優(yōu)化算法

本文解決的是一個零歷史信息的持續(xù)學習問題,即以為模型初始化參數,通過優(yōu)化將模型遷移到數據集上,同時需要盡可能保持最小。然而,標準的微調訓練方式往往容易使模型過擬合到,導致CLIP原始的開放詞匯能力流失嚴重,進而影響模型的泛化能力,這將是本文著重想要解決的問題。

受到[3]的啟發(fā),本文首先引入了一個無需優(yōu)化的權重插值策略:通過加權系數對CLIP原始參數和在數據集上完成微調后的參數進行加權平均操作,防止遷移學習后的模型在原始數據集上的過度遺忘。具體形式如下:

但這種做法由于不存在顯示的優(yōu)化約束,導致插值得到的模型可能會在上有較為嚴重的欠擬合。針對此問題,本文提出在訓練過程中對于插值模型在數據集上添加正則化約束,從而緩解插值得到的模型在新數據上欠擬合嚴重的問題。具體來說,本文提出在訓練過程中對插值權重系數進行隨機采樣,針對一系列取值下的插值模型在上進行優(yōu)化約束,最終的優(yōu)化目標如下:

其中,插值系數在區(qū)間區(qū)間均勻采樣,該范圍對應了期望構建的低損失區(qū)域。是正則化損失的權重系數,本篇文章實現(xiàn)時將其取值為。對應的梯度計算如下:

最后,本文在訓練過程中對插值權重應用隨機權重平均(SWA)[4]來進一步提高方法穩(wěn)定性和泛化性。在實踐中,只需要維護模型權重的移動平均值,并在最后進行權重插值即可,形式化描述如下。

實驗

本文實驗采用Kinetics-400視頻動作識別數據集作為微調CLIP的訓練數據,并將UCF、HMDB以及Kinetics-600子集作為測試視頻模型的零樣本識別能力的數據集。

(1)零樣本識別性能

與CLIP基線和標準微調模型進行對比,可以看出,相比于標準微調方法容易出現(xiàn)較為嚴重的遺忘現(xiàn)象,本文所提的Open-VCLIP方法能夠顯著提升模型的零樣本識別能力,在不同主干網絡、不同數據集上都取得了最佳的零樣本識別準確率。

e7ee614a-12a8-11ee-962d-dac502259ad0.png

此外,本文同當前先進零樣本識別性能的方法進行了對比。可以看到,Open-VCLIP方法在不同數據集上均取得最佳零樣本準確率。除此之外,文章還對比了凍結原始CLIP模型參數下微調Adapter模塊的高效參數微調方法,結果表明,高效參數微調方法無法有效提升零樣本識別準確率。

e80b57be-12a8-11ee-962d-dac502259ad0.png

(2)零樣本識別性能與閉集性能的權衡

e8331a60-12a8-11ee-962d-dac502259ad0.png

文章對不同方法應用權重插值修復算法[3]進行探究,并將不同的加權系數下的性能用折線圖的方式展現(xiàn),橫坐標表示閉集性能,縱坐標為零樣本識別性能。結果表明:(i)具有時序建模能力的模型具備更強的零樣本識別性能,顯示出時序建模能力對于CLIP模型向視頻領域的遷移是必要的;(ii)Open-VCLIP曲線高于標準微調方法,反映出本文所提出的優(yōu)化策略不僅能提升模型的零樣本視頻識別能力,而且能夠在零樣本識別性能和閉集性能中取得最佳權衡;(iii)同時,圖中紅色五角星對應同一個插值模型,可以看到單個模型能夠在多個數據集中取得接近最優(yōu)的零樣本識別性能,且保持較高的閉集準確率,顯示出方法無需針對特定數據集專門調整插值權重。

(3)零樣本視頻文本檢索性能

e86bec96-12a8-11ee-962d-dac502259ad0.png

評估文本到視頻/視頻到文本的檢索性能可以進一步了解模型的泛化能力。實驗遵循了在Kinetics-400數據集上訓練模型,并在MSR-VTT數據集上測試的范式。結果展示了Open-VCLIP方法提升了模型的視頻檢索文本的性能和文本檢索視頻的性能,且在視頻檢索文本任務上,Open-VCLIP方法明顯高于CLIP基線,進一步驗證了本文方法有效性。

總結

本篇工作提出了Open-VCLIP方法,通過微調于視頻識別數據集有效將CLIP轉變?yōu)殚_放詞匯的視頻模型。文章主題包含三個部分:將問題歸納為無歷史數據的持續(xù)學習問題;為模型添加輕量化時序建模能力;設計正則化插值優(yōu)化策略提升模型泛化能力,減輕遺忘現(xiàn)象發(fā)生。實驗表明,Open-VCLIP在零樣本動作識別任務明顯優(yōu)于最先進的方法,并在閉集性能和零樣本視頻動作識別性能之間實現(xiàn)了最佳的權衡,所提方法也為大模型微調提供了新思路。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關注

    關注

    1

    文章

    309

    瀏覽量

    60789
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24737
  • Clip
    +關注

    關注

    0

    文章

    31

    瀏覽量

    6673

原文標題:ICML 2023 | 復旦和Meta提出Open-VCLIP:兼顧時序建模與開集識別的視頻理解模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    關于功能驗證、時序驗證、形式驗證、時序建模的論文

    半定制/全定制混合設計的特點,提出并實現(xiàn)了一套半定制/全定制混合設計流程中功能和時序驗證的方法。論文從模擬驗證、等價性驗證和全定制設計的功能驗證三個方面對FF-DX的分支控制部件進行功能驗證。對于模擬
    發(fā)表于 12-07 17:40

    高階API構建模型和數據使用

    了TensorFlow2.0Beta版本,同pytorch一樣支持動態(tài)執(zhí)行(TensorFlow2.0默認eager模式,無需啟動會話執(zhí)行計算圖),同時刪除了雜亂低階API,使用高階API簡單地構建復雜神經網絡模型,本文主要分享用高階API構建模型和數據
    發(fā)表于 11-04 07:49

    多片段時序數據建模預測實踐資料分享

    數據進行模型的構建與預測分析的,但是在實際的工程使用中會有一種特殊的情況就是:我們通過實驗所采集到的數據往往不是絕對連續(xù)的而是多“片段”的。何為 “片段”?以我之前的時序
    發(fā)表于 06-30 07:52

    分享一種comsol磁場與結構場耦合模型建模

    的專業(yè)知識,無需在意,不求甚解主要學習本專業(yè)的建模,要及時補充專業(yè)知識、了解相關知識(指一些術語、名詞)遇到問題難以理解的,且暫時沒能解決,先記住,以后遇到再深究COMSOL學習自學(孤家寡人),主要學習磁場與結構場耦合模型
    發(fā)表于 07-09 06:40

    結合碼本和運行期均值法的雙層背景建模方法

    背景建模視頻處理的重要部分,是后續(xù)運動目標檢測、識別和跟蹤的基礎。針對現(xiàn)有的背景建模方法無法兼顧抗干擾性、適應光照、背景更新速度和遮擋等問
    發(fā)表于 11-29 10:04 ?0次下載
    結合碼本和運行期均值法的雙層背景<b class='flag-5'>建模</b>方法

    面向人體動作識別的隨機增量型混合學習機模型

    針對自然人機交互應用中的人體動作識別問題,總結了傳統(tǒng)機器學習模型識別人體動作時的缺點,然后在此基礎上針對自然人機交互應用的獨特要求提出了面向人體動作
    發(fā)表于 01-03 15:50 ?1次下載
    面向人體動作<b class='flag-5'>識別的</b>隨機增量型混合學習機<b class='flag-5'>模型</b>

    漏(opendrain)和(opencollector)介紹

    在電路設計時我們常常遇到漏(open drain)和open collector)的概念。
    發(fā)表于 01-11 14:21 ?5.8w次閱讀
    <b class='flag-5'>開</b>漏(opendrain)和<b class='flag-5'>開</b><b class='flag-5'>集</b>(opencollector)介紹

    基于視頻的人臉識別轉換為圖像識別

    將基于視頻的人臉識別轉換為圖像識別問題,并提出兩種流形來表示每個圖像:一種是類間流形,表示每
    發(fā)表于 01-21 11:10 ?4次下載

    基于視頻深度學習的時空雙流人物動作識別模型

    相比,深度卷積神經網絡( Convolutional Neural Network.CNN)在動作識別領域的表現(xiàn)并不突出,原因有以下兩點:第一,現(xiàn)今視頻數據較小并且噪聲信息較多。視頻
    發(fā)表于 04-17 10:46 ?0次下載
    基于<b class='flag-5'>視頻</b>深度學習的時空雙流人物動作<b class='flag-5'>識別</b><b class='flag-5'>模型</b>

    可高效識別視頻不同內容的視頻摘要算法

    針對如何高效地識別視頻中具有代表性的內容問題,提出了一種對不同的視頻幀賦予不同重要性的視頻摘要算法。首先使用長短期記憶網絡來
    發(fā)表于 04-29 15:07 ?24次下載
    可高效<b class='flag-5'>識別</b><b class='flag-5'>視頻</b>不同內容的<b class='flag-5'>視頻</b>摘要算法

    面向人臉識別的FusNet網絡模型

    面向人臉識別的FusNet網絡模型
    發(fā)表于 06-09 14:59 ?8次下載

    模型在Close set和在Open set的表現(xiàn)是否存在一定的相關性呢

    識別:指對一個在訓練上訓練好的模型,當利用一個測試(該測試
    的頭像 發(fā)表于 09-09 09:26 ?1018次閱讀

    基于實體和動作時空建模視頻文本預訓練

    摘要 盡管常見的大規(guī)模視頻-文本預訓練模型已經在很多下游任務取得不錯的效果,現(xiàn)有的模型通常將視頻或者文本視為一個整體建模跨模態(tài)的表示,顯示結
    的頭像 發(fā)表于 05-25 11:29 ?786次閱讀
    基于實體和動作時空<b class='flag-5'>建模</b>的<b class='flag-5'>視頻</b>文本預訓練

    Meta發(fā)布新型無監(jiān)督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無監(jiān)督視頻預測模型,名為“V-JEPA”。這一模型視頻處理領域引起了廣泛關注,因為
    的頭像 發(fā)表于 02-19 11:19 ?1041次閱讀

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗

    Meta在人工智能領域邁出了重要一步。通過這款模型Meta希望能夠為用戶提供更加自然、流暢的元宇宙交互體驗。數字代理在元宇宙中的動作將更加逼真,從而增強用戶的沉浸感和參與度。 除了Meta
    的頭像 發(fā)表于 12-16 10:34 ?350次閱讀
    主站蜘蛛池模板: 午夜精品国产自在现线拍| 国产在线亚洲精品观| 视频一区国产精戏刘婷30| 国产在线观看成人免费视频| 成人啪啪色婷婷久色社区 | 久久毛片免费看一区二区三区| 在教室伦流澡到高潮HNP视频| 男人电影天堂手机| 青青草国产自偷拍| 国产精品日本一区二区在线播放 | 国内偷拍夫妻av| 风车动漫(p)_在线观看官网| 87.6在线收听| 一本久道久久综合婷婷五月| 香蕉人人超人人超碰超国产| 秋霞网在线伦理影片| 麻豆免费高清完整版| 久久99re6国产在线播放| 国产精品毛片在线视频| 成人在免费视频手机观看网站| 99re8热视频这在线视频| 一级淫片bbbxxx| 秀婷程仪公欲息肉婷在线观看| 色老头色老太aaabbb| 青青久在线视频免费观看| 美女裸露100%奶头视频| 久久精品国产视频澳门| 精品亚洲AV无码蜜芽麻豆| 国产亚洲精品久久久闺蜜| 国产精品JK白丝AV网站| 高h肉辣文黄蓉| 成人区精品一区二区不卡AV免费| 99久久免费国内精品| 7777色鬼xxxx欧美色夫| 最新中文字幕在线视频| 中文字幕在线视频网站| 中文字幕人妻无码系列第三区 | 久久妇女高潮几次MBA| 好大好爽好深舒服死了| 韩国羞羞秘密教学子开车漫书 | 国产99九九久久无码熟妇|