色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在視覺語言表示學習中建立編碼器間的橋梁

深度學習自然語言處理 ? 來源:賽爾實驗室 ? 2023-04-14 17:33 ? 次閱讀

0. Take-away messages

提出了一個簡單有效的視覺語言模型架構,BridgeTower,通過在頂層單模態層和每個跨模態層之間建立橋梁,成功地引入了不同語義層次的視覺和文本表示,從而提高了跨模態編碼器中注意力頭的多樣性,并在各種任務上實現了突出的性能改進。

公平的評估設置下,與Two-Tower架構的METER模型相比,BridgeTower顯著地提高了模型的多模態表示能力。

使用400萬張圖片進行視覺語言預訓練,BridgeTower在各種視覺語言下游任務上取得了十分強大的性能,擊敗了許多用更多數據和參數進行預訓練的強大模型。

BridgeTower可以適用于不同的視覺、文本或跨模態編碼器。

1. 背景與動機

139ba1b0-daa3-11ed-bfe3-dac502259ad0.png

視覺語言任務示例

圖源:12-in-1: Multi-Task Vision and Language Representation Learning

視覺語言研究的目標,是訓練一個能夠理解圖像和文本的智能AI系統。上圖展示了一些流行的視覺語言任務。視覺問答是其中最著名的任務之一,它需要根據輸入圖像來回答和圖片相關的問題。

各類視覺語言模型

自2019年以來,在大規模圖像-文本對的自監督預訓練的幫助下,基于Transformer的視覺語言模型取得了顯著的進展。其中,具有雙塔結構的視覺語言 (VL) 模型在視覺語言表示學習中占主導地位。基于不同的文本和視覺編碼器,人們提出了各種模型架構和預訓練目標。從模型架構的角度來看,近期大多數的VL工作,可以看作是由三個模塊組成的雙塔架構,即文本編碼器、視覺編碼器,以及在它們之上的跨模態融合模塊。不同的VL模型在這三個模塊的設計上有所不同。

13ab51aa-daa3-11ed-bfe3-dac502259ad0.jpg

視覺語言模型架構簡述

圖(a)-(d)是目前的四類視覺語言模型。圖(e)簡要說明了BridgeTower的模型結構。VE、TE和CE分別是視覺編碼器、文本編碼器和跨模態編碼器的簡稱。每個矩形的高度代表其相對計算成本。本圖受到了ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision的啟發。

目前的VL模型要么使用輕量級的單模態編碼器,并學習在深度跨模態編碼器中同時提取、對齊和融合兩種模態,要么將預訓練的深層單模態編碼器的最后一層單模態表示,送入頂部的跨模態編碼器中。這兩種方法都有可能限制視覺-語言表示的學習,并進一步限制模型的性能。

13b06ca8-daa3-11ed-bfe3-dac502259ad0.png

動機

如果我們深入雙塔結構的單模態塔 (編碼器) ,例如METER模型。我們可以發現他們只將最后一層的單模態特征直接送入頂部的跨模態融合模塊,忽略了深層單模態塔的不同層的語義信息。我們自然地想到,能否在不同層的預訓練單模態塔和跨模態融合模塊之間建立起橋梁,以充分利用多層單模態特征?

13b7d682-daa3-11ed-bfe3-dac502259ad0.gif

架構對比

因此,我們提出了BridgeTower架構。與雙塔架構不同,BridgeTower在跨模態融合模塊和單模態編碼器之間建立起了多座橋梁。二者的主要區別在于,雙塔結構只融合最后一層的特征,而BridgeTower則逐漸融合單模態編碼器頂部的多層特征。

2. 模型架構

13d7942c-daa3-11ed-bfe3-dac502259ad0.jpg

模型架構

這里我們展示了BridgeTower的詳細架構圖。具體而言,我們采用12層的RoBERTa-base和12層的CLIP-ViT-B作為單模態編碼器。跨模態編碼器為6層,每一層都添加了BridgeLayer來與單模態編碼器的頂部6層建立連接。

這使得預訓練單模態編碼器中的不同語義層次的視覺和文本表示,通過BridgeLayer與跨模態表示進行融合,從而促進了跨模態編碼器中,高效的,自下而上的跨模態對齊與融合。需要注意的是,BridgeTower架構適用于不同的視覺、文本或跨模態編碼器。

3. 設計選擇

我們對BridgeTower的不同設計選擇進行了廣泛的實驗。

3.1 BridgeLayer的定義

13f5e4fe-daa3-11ed-bfe3-dac502259ad0.gif

bridge-layer

首先是BridgeLayer的定義,也就是單模態信息與跨模態信息如何在BridgeLayer中融合。

14220b2e-daa3-11ed-bfe3-dac502259ad0.png

上表展示了不同定義的BridgeLayer的參數量和其在VQAv2和Flickr30K數據集上的性能。RSUM表示圖文檢索任務的召回度量之和。

表示前一層輸出的跨模態表示。

表示相應的單模態表示。我們省略了每一行中使用的 。有些出乎意料但又合乎情理的是,第一行中的 使用最小的參數量得到了最好的結果。

3.2 Cross-Modal Layer的數量

14367fd2-daa3-11ed-bfe3-dac502259ad0.gif

cross-modal-layer

接著我們基于12層的文本和視覺編碼器,研究不同數量的跨模態層對性能的影響。

144e23b2-daa3-11ed-bfe3-dac502259ad0.png

表示跨模態層的數量,并且BridgeTower使用Top-的單模態表示作為跨模態層的輸入。我們在兩個數據集上比較不同下,METER和BridgeTower的性能情況,我們發現更多的跨模態層并不能不斷提高性能。這可能是由于

更多的跨模態層需要更多的訓練數據。

頂層的單模態表示有利于跨模態對齊和融合,而底層的單模態表示可能不利于,甚至是有害于跨模態表示的學習。雖然METER和BridgeTower之間唯一的區別是BridgeLayers,但BridgeTower在不同數量的跨模態層中始終獲得了一致的性能提升。

3.3 BridgeLayer的數量

1471f74c-daa3-11ed-bfe3-dac502259ad0.gif

internal-external

最后是BridgeLayer的數量,也就是在使用相同數量的跨模態層時,應該加入多少個BridgeLayer。

14930e1e-daa3-11ed-bfe3-dac502259ad0.png

為了充分比較BridgeTower和雙塔結構的METER模型,我們試圖建立一個從BridgeTower到Two-Tower逐漸變化的情景。為了進行公平的比較,我們使用共計6個跨模態層,并將它們分為外部 (External) 跨模態層和內部 (Internal) 跨模態層。二者的區別在于內部跨模態層具有BridgeLayer,而外部跨模態層沒有。

第一行顯示了6個跨模態層均為內部層的BridgeTower的結果。然后,我們逐漸增加外部層,減少內部層。我們發現在兩個數據集上的性能都出現了穩定的下降

最后一行顯示了雙塔結構的METER模型的性能。這表明BridgeTower通過BridgeLayers,將單模態編碼器的頂層與跨模態編碼器的每一層連接起來,可以顯著提高性能

3.4 單模態編碼器

14a3b494-daa3-11ed-bfe3-dac502259ad0.png

最后我們嘗試了不同的視覺和文本編碼器作為BridgeTower的預訓練單模態編碼器,并直接對下游任務進行微調,以進一步研究BridgeLayers帶來的影響。我們發現,對于不同的預訓練視覺和文本編碼器,BridgeTower的性能都持續顯著地優于METER的性能。

4. 實驗效果

14c48df4-daa3-11ed-bfe3-dac502259ad0.png

我們基于公共圖文對數據集對BridgeTower進行預訓練,如上表所示,大約共計400萬張獨立圖片,900萬對圖文對。我們使用通用的掩碼語言建模 (Masked Language Modeling, MLM) 和圖文匹配 (Image-Text Matching, ITM) 任務作為預訓練任務。所有的預訓練設置與預訓練參數都與METER一致,以提供METER和BridgeTower之間的公平比較

14d089a6-daa3-11ed-bfe3-dac502259ad0.png

上圖展示了BridgeTower模型在視覺問答 (Visual Question Answering) 的VQAv2數據集上的Base和Large兩種Size的模型性能。在視覺-語言預訓練中,我們的Base模型只使用了400萬張圖片進行預訓練,就在VQAv2基準上取得了令人印象深刻的表現。

而且,METER和BridgeTower使用相同的文本編碼器、視覺編碼器和跨模態融合機制。只需將METER模型的Two-Tower架構改為BridgeTower架構,在相同的預訓練數據和幾乎可以忽略不計的額外參數和計算成本下,VQAv2數據集的Test-Standard性能就可以輕松提高1.09。BridgeTower的Large模型在VQAv2數據集上更是取得81.15的Test-Standard性能。

值得注意的是,BridgeTower超過了許多使用10倍甚至100倍的圖像進行VL預訓練的Base模型與Large模型,擊敗了許多用更多數據和參數進行預訓練的強大模型。

14e5dbda-daa3-11ed-bfe3-dac502259ad0.png

類似的趨勢也出現在視覺蘊含 (Visual Entailment) 和圖像-文本檢索 (Image-Text Retrieval) 任務中。特別是在Flickr30K數據集上,BridgeTower的Base模型帶來了5.9點收益。

5. 可視化結果

為了進一步研究性能提高的原因,我們通過分析每個跨模態層中,不同注意力頭的注意力權重分布之間的KL散度,來比較雙塔架構的METER模型和我們的BridgeTower架構。

KL散度可以被看作是注意力頭的多樣性。較高或較低的KL散度表示不同的注意力頭之間,關注的token更加不同或更加相似

14f95b60-daa3-11ed-bfe3-dac502259ad0.jpg

圖中的小點代表不同注意力頭的注意力分布間的KL散度,大點表示同層KL散度的均值。上圖對比了METER和BridgeTower模型的跨模態編碼器中,視覺/文本部分的自我/交叉注意力層之間的區別。

上圖展示了兩個模型的跨模態編碼器的視覺和文本部分的自注意力以及交叉注意力的注意力頭的多樣性。圖中存在兩個明顯的趨勢:

對于BridgeTower來說,注意力頭的多樣性隨著層的深入而逐漸變小,但對于METER來說,注意力頭的多樣性隨著層的深入而逐漸變大,然后變小。

BridgeTower每層的注意力頭的多樣性明顯大于METER,尤其是第1層至第5層。

因此,對于跨模態編碼器的視覺和文本部分的自注意力以及交叉注意力的不同注意力頭,與METER相比,BridgeTower能夠關注到更多不同的標記 (token)。

我們將此歸功于我們提出的BridgeLayers,它將單模態編碼器的頂層與跨模態編碼器的每一層連接起來。不同語義層次的視覺和文本表示通過BridgeLayer與跨模態表示進行融合,從而促進了跨模態編碼器每一層的更有效更豐富的跨模態對齊和融合。

6. 結論

在本文中,我們提出了BridgeTower,它引入了多個BridgeLayer,在單模態編碼器的頂層和跨模態編碼器的每一層之間建立連接。這使得預訓練單模態編碼器中的不同語義層次的視覺和文本表示,通過BridgeLayer與跨模態表示進行融合,從而促進了跨模態編碼器中,高效的,自下而上的跨模態對齊與融合。

使用400萬張圖像進行視覺語言預訓練,BridgeTower在各種下游的視覺-語言任務中取得了非常強大的性能。特別是在VQAv2數據集上,BridgeTower達到了78.73%的準確率,在相同的預訓練數據和幾乎可以忽略不計的額外參數和計算成本下,比Two-Tower架構的METER模型高出了1.09%的準確率。值得注意的是,當進一步擴展該模型時,BridgeTower達到了81.15%的準確率,甚至超過了一些在更大數量級的數據集上使用更多參數進行預訓練的強大模型。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3730

    瀏覽量

    136173

原文標題:AAAI2023 | BridgeTower: 在視覺語言表示學習中建立編碼器間的橋梁

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    絕對式編碼器伺服電機控制的應用與優勢分析

    ? ? ? 絕對式編碼器伺服電機控制的應用廣泛且重要,其優勢顯著,以下是對其應用與優勢的詳細分析: ? ? ??一、絕對式編碼器伺服電
    的頭像 發表于 02-06 09:46 ?316次閱讀
    絕對式<b class='flag-5'>編碼器</b><b class='flag-5'>在</b>伺服電機控制<b class='flag-5'>中</b>的應用與優勢分析

    編碼器機器人技術的應用 編碼器傳感系統的作用

    編碼器機器人技術扮演著至關重要的角色,特別是傳感系統,其作用不可忽視。以下是對
    的頭像 發表于 11-24 10:02 ?1163次閱讀

    如何選擇合適的磁編碼器編碼器機器人技術的角色

    (巨磁阻)原理和GMR(巨磁電阻)原理的磁編碼器精度和分辨率上有所不同。AMR和GMR產品通常具有更高的精度和分辨率,而霍爾原理的產品成本上可能更為經濟,但精度和分辨率稍遜。 工作環境 : 考慮磁
    的頭像 發表于 11-23 09:17 ?763次閱讀

    增量編碼器與絕對值編碼器的區別

    增量編碼器與絕對值編碼器的區別:增量編碼器與絕對值編碼器精度特點對比 增量編碼器的精度取決于脈
    的頭像 發表于 11-18 16:38 ?1814次閱讀
    增量<b class='flag-5'>編碼器</b>與絕對值<b class='flag-5'>編碼器</b>的區別

    磁電編碼器和光電編碼器的區別

    磁電編碼器和光電編碼器是兩種不同類型的編碼器,它們原理、結構、性能和應用領域上都有所不同。 磁電編碼器和光電
    的頭像 發表于 10-12 09:54 ?2293次閱讀

    SSI絕對值編碼器EtherCAT運動控制的應用

    SSI絕對值編碼器EtherCAT運動控制的應用
    的頭像 發表于 10-09 10:13 ?1044次閱讀
    SSI絕對值<b class='flag-5'>編碼器</b><b class='flag-5'>在</b>EtherCAT運動控制<b class='flag-5'>器</b><b class='flag-5'>中</b>的應用

    電機控制系統編碼器概述與作用

    編碼器分辨率是描述編碼器測量運動過程中所能分辨的最小位置變化量的指標。理解編碼器分辨率對于設計和實現高精度的運動控制系統至關重要。以下是對編碼器
    的頭像 發表于 08-17 19:49 ?816次閱讀

    BissC絕對值編碼器EtherCAT運動控制的應用

    BissC多圈絕對值編碼器EtherCAT運動控制的應用!
    的頭像 發表于 07-24 10:02 ?1003次閱讀
    BissC絕對值<b class='flag-5'>編碼器</b><b class='flag-5'>在</b>EtherCAT運動控制<b class='flag-5'>器</b><b class='flag-5'>中</b>的應用

    AGV輪轂電機編碼器

    編碼器還可以提供電機的絕對位置信息,這對于AGV系統的定位和校準至關重要。AGV系統,一般會使用Z信號來表示編碼器的絕對位置。Z信號是一
    的頭像 發表于 07-22 11:33 ?745次閱讀
    AGV輪轂電機<b class='flag-5'>中</b>的<b class='flag-5'>編碼器</b>

    編碼器的原理和類型

    編碼器(Autoencoder, AE)是一種無監督學習的神經網絡模型,它通過編碼器和解碼的組合,實現了對輸入數據的壓縮和重構。自編碼器
    的頭像 發表于 07-09 11:25 ?1890次閱讀

    旋轉編碼器PLC怎么編程

    工業自動化領域,旋轉編碼器與可編程邏輯控制(PLC)的結合應用極為廣泛。旋轉編碼器通過提供精確的旋轉角度或位置信息,為PLC提供反饋信號,進而實現對設備的精確控制。本文將詳細介紹旋
    的頭像 發表于 06-17 09:24 ?2496次閱讀

    編碼器機器人系統的應用

    隨著科技的飛速發展,機器人技術已廣泛應用于工業、醫療、服務等多個領域。機器人系統編碼器作為核心的位置和速度檢測裝置,發揮著至關重要的作用。本文將從編碼器的原理、分類及其
    的頭像 發表于 06-13 14:51 ?1157次閱讀

    編碼器自動化系統的應用

    現代自動化系統編碼器作為一種關鍵的位置和速度檢測裝置,發揮著不可替代的作用。它能夠將電機的角位移或直線位移轉換為可計量的電信號,為控制系統提供精確的位置反饋和速度控制。本文將詳細介紹編碼
    的頭像 發表于 06-13 14:50 ?1161次閱讀

    增量編碼器和絕對值編碼器的區別

    工業自動化和精密測量領域,編碼器是不可或缺的關鍵設備。編碼器能夠將機械位移轉換為電信號,以便于計算機或其他數字系統進行處理。在編碼器的眾多類型
    的頭像 發表于 06-03 15:40 ?3570次閱讀

    絕對值編碼器的工作原理及其電機控制的應用

    絕對值編碼器電機控制系統的應用 電機控制系統,絕對值編碼器帶來了精確的位置反饋信號。依據
    的頭像 發表于 05-21 10:55 ?1613次閱讀
    絕對值<b class='flag-5'>編碼器</b>的工作原理及其<b class='flag-5'>在</b>電機控制<b class='flag-5'>中</b>的應用
    主站蜘蛛池模板: 6080yy亚洲久久无码 | 人妻免费久久久久久久了 | 男人把女人桶到爽免费看视频 | 视频在线免费观看 | 国产在线精品一区二区在线看 | 日韩视频中文在线一区 | 校花在公车上被内射好舒服 | 久久精品国产亚洲AV天美18 | 国产精品第十页 | 亚洲欧洲日本天天堂在线观看 | 久青草国产在线视频亚瑟影视 | 无限资源好看片2019免费观看 | 处初女处夜情视频在线播放 | 欧美2019高清hd巨大 | 好色美女小雅 | 国产人妻久久久精品麻豆 | 无码国产成人777爽死在线观看 | 日本无码毛片久久久九色综合 | 亚洲乱码中文字幕久久孕妇黑人 | 伊人精品影院一本到综合 | 天天影视网网色色欲 | 91伊人久久大香线蕉 | 男人J放进女人P全黄网站 | xx在线观看 | 视频在线观看高清免费看 | 爱暖暖1000部免费 | 伊人久久大香线蕉综合色啪 | 伊人久久综合影院 | 国产精品人成视频免费999 | 免费精品国产人妻国语麻豆 | 亚洲日韩欧美国产中文在线 | 亚洲色爽视频在线观看 | 无码AV动漫精品一区二区免费 | 亚洲精品国产自在现线最新 | 欧美一级做a爰片免费 | 97伦理97伦理2018最新 | 久久免费高清 | 久久噜国产精品拍拍拍拍 | 日本后进式猛烈xx00动态图 | 国内极度色诱视频网站 | 嘟嘟嘟在线视频免费观看高清中文 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品