色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于視頻語言模型LiteVL的無參的特征池化方法

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-05 10:54 ? 次閱讀

沿著從大規(guī)模圖文多模態(tài)預訓練遷移適配到視頻多模態(tài)任務的思路,我們提出了模型LiteVL,它利用圖文預訓練模型BLIP來初始化參數,可以直接在下游任務上微調而不需要進行額外的昂貴的視頻文本預訓練。并且為了增強圖像語言模型中缺乏的時間建模,我們提出在BLIP的Image encoder中增加具有動態(tài)時間縮放(dynamic temporal scaling)的時間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數池化text-dependent pooling,以自適應地重新加權以文本為條件的細粒度視頻嵌入。我們選取了兩個具有代表性的下游任務,即文本-視頻檢索和視頻問答,來驗證所提出方法的有效性。實驗結果表明,所提出的LiteVL在沒有任何視頻文本預訓練的情況下,甚至明顯優(yōu)于以前的視頻文本預訓練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規(guī)模video-text數據集 (WebVid2M,CC-3M,HowTo100M) 上進行預訓練,然后在下游任務的數據集上微調,而預訓練的成本往往十分昂貴。另一方面,學習細粒度的visual-language對齊往往需要利用離線的目標檢測器 (e.g., ActBERT) 來捕捉物體信息,但卻受限于檢測器有限的類別數量 (e.g., 在MSCOCO數據集上訓練的目標檢測器只能檢測出不到100個類別) 和昂貴的計算開銷。而且沒有充分利用來自文本數據的監(jiān)督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規(guī)模圖文對上預訓練的,它忽略了視頻理解所需要的時序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態(tài)領域的研究上,基于預訓練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務上性能表現很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時間注意力層。

2. Solution

我們提出了一種簡單且高效的視頻語言模型LiteVL,它是從近期的預訓練圖像語言模型BLIP初始化而來的,并且分別從模型層面和特征層面做了時域信息增強。

對于模型層面,我們提出用一組具有可學習scaling factor的時間注意層明確插入原始image backbone中,可以針對每個下游任務進行訓練調整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

對于特征層面,我們設計了一種無參的特征池化方法(Text-dependent Pooling),以學習基于文本描述的細粒度時間-空間視頻特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和動態(tài)時序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三個視頻文本檢索數據集上和BLIP的性能比較:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我們提出的LiteVL由于在模型和特征方面的顯式時間建模,最終性能優(yōu)于原始BLIP。

關于Dynamic Temporal Scaling和Text-dependent Pooling的消融實驗

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通過提出的輕巧的動態(tài)時間縮放自適應地根據每個特定任務調整框架級別的重要性,使性能得到進一步提高。此外,與僅使用原始特征相比,使用其他空間或時間池化后的特征會更好。

逐層的平均temporal scaling可視化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折線圖的變化趨勢顯示了video encoder的淺層更多地集中在理解每個幀的空間內容上,并更少注意不同幀之間的時間依賴性。當層的深度增加時,每個幀的空間特征變得更加全局,并且該模型逐漸尋求學習它們之間的時間依賴性。

Grad-CAM可視化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經學習的對齊。然后,我們提出了具有動態(tài)時間縮放的額外時間注意力塊,以學習視頻幀中的時間動態(tài)。我們還引入了一種無參的text-denpendent pooling,該方法基于文本描述來對不同幀或者空間位置進行加權,從而實現了細粒度的視頻語言對齊。實驗結果表明,我們的LiteVL優(yōu)于利用了視頻文本預訓練的最先進方法。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 檢測器
    +關注

    關注

    1

    文章

    882

    瀏覽量

    48242
  • 數據集
    +關注

    關注

    4

    文章

    1220

    瀏覽量

    25183

原文標題:EMNLP 2022 | LiteVL:具有增強時空建模的高效視頻-語言學習

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?1254次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    語言模型的解碼策略與關鍵優(yōu)化總結

    本文系統(tǒng)性地闡述了大型語言模型(LargeLanguageModels,LLMs)中的解碼策略技術原理及其實踐應用。通過深入分析各類解碼算法的工作機制、性能特征和優(yōu)化方法,為研究者和工
    的頭像 發(fā)表于 02-18 12:00 ?409次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的解碼策略與關鍵優(yōu)化總結

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調
    的頭像 發(fā)表于 12-05 15:30 ?1278次閱讀

    云端語言模型開發(fā)方法

    云端語言模型的開發(fā)是一個復雜而系統(tǒng)的過程,涉及數據準備、模型選擇、訓練優(yōu)化、部署應用等多個環(huán)節(jié)。下面,AI部落小編為您分享云端語言模型的開發(fā)
    的頭像 發(fā)表于 12-02 10:48 ?360次閱讀

    語言模型自動的優(yōu)點

    語言模型自動不僅優(yōu)化了信息處理流程,提高了工作效率,還促進了跨文化交流,增強了人機交互的智能水平。以下,是對語言
    的頭像 發(fā)表于 11-26 11:17 ?288次閱讀

    搭建開源大語言模型服務的方法

    本文我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優(yōu)缺點。
    的頭像 發(fā)表于 10-29 09:17 ?563次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學習:模型采用自監(jiān)督學習策略,在大量標簽文本數據上學習
    發(fā)表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    的章節(jié)包括統(tǒng)一自然語言任務、大語言模型的訓練過程和局限性分析,閱讀還算順利。 至此,基礎篇只能算是瀏覽完成,因為部分原理方法并沒有吃透,但盡管如此也是收獲頗豐,因為我了解了大
    發(fā)表于 07-25 14:33

    卷積神經網絡cnn中層的主要作用

    (Pooling Layer)是一個關鍵的組成部分,它對卷積層的輸出進行下采樣,降低特征圖(Feature Map)的空間維度,從而減少計算量和參數數量,提高模型的泛能力。
    的頭像 發(fā)表于 07-02 14:50 ?1878次閱讀

    一種利用光電容積描記(PPG)信號和深度學習模型對高血壓分類的新方法

    。 AvgPool_VGG-16 平均是卷積神經網絡中廣泛使用的操作,它計算特征圖塊的平均值并用于減小特征圖的大小。該方法旨在減少
    發(fā)表于 05-11 20:01

    【大語言模型:原理與工程實踐】大語言模型的應用

    “幻覺”。此外,大語言模型僅限于生成文字,無法獨立調用API以滿足多樣需求。例如,當詢問“查詢今天的天氣”時,它會拒絕請求,缺乏根據環(huán)境反饋調整行為的能力。動態(tài)調整行為及克服“幻覺”現象是大
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    和產品提供了有力的數據支持。 對于生活閑聊類評測任務,模型的回答主要從人性程度、內容質量和社交適應性三個方面進行考察。這些方面共同反映了模型在日常對話中的自然度、流暢度和應變能力
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    訓練數據時,數量、質量和多樣性三者缺一不可。 數據的多樣性對于大語言模型至關重要,這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的語言表達特征,如官方知識型數據、口
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    特征,并且這些特征融合了這些詞在當前序列的上下文語義,因此能夠解決一詞多義的問題。憑借這種優(yōu)勢,基于動態(tài)詞向量語言模型進行預訓練的方法被廣
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    獲得良好效果。 語言模型作為自然語言處理的核心,不斷進化以捕捉人類語言的精髓。起初,這些模型依賴于統(tǒng)計
    發(fā)表于 05-04 23:55
    主站蜘蛛池模板: 美女内射少妇三区五区 | 思思久99久女女精品 | 一二三区乱码不卡手机版 | 成人免费观看在线视频 | 无遮掩H黄纯肉动漫在线观看星 | 秋霞电影院兔费理论84MB | 18禁黄无遮挡禁游戏在线下载 | 日本色高清 | 伊人国产在线视频 | 最近中文字幕MV免费高清视频8 | 久久天堂视频 | 国产色欲一区二区精品久久呦 | 久久麻豆亚洲AV成人无码国产 | 成人午夜精品无码区久久漫画日本 | 偷拍精品视频一区二区三区 | 美女医生深夜在家裸睡惨死 | 御姐被吸奶 | 在线天天看片免费视频观看 | 韩国精品韩国专区久久 | 欧洲美女高清一级毛片 | 老师扒开尿口男生摸尿口 | 国拍在线精品视频免费观看 | 国产精品久免费的黄网站 | 青青青青青青青草 | 亚洲精品一区二区在线看片 | 亚洲人成在线观看一区二区 | 国产不卡在线观看视频 | 一个人日本的视频免费完整版 | 亚洲 天堂 欧美 日韩 国产 | 中文字幕在线免费视频 | 玖玖爱这里只有精品视频 | 色四房播播| 亚洲精品永久免费 | 调教玩弄奶头乳夹开乳震动器 | 亚洲视频一区在线 | a级成人免费毛片完整版 | 99re久久这里只有精品 | 91进入蜜桃臀在线播放 | 国产在线精品一区二区网站免费 | 国产亚洲精品97在线视频一 | 久久亚洲AV无码精品午色夜麻豆 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品