色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

融合Image-Text和Image-Label兩種數據的多模態訓練新方式

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-07-14 14:12 ? 次閱讀

目前CV領域中包括兩種典型的訓練模式,第一種是傳統的圖像分類訓練,以離散的label為目標,人工標注、收集干凈、大量的訓練數據,訓練圖像識別模型。第二種方法是最近比較火的基于對比學習的圖文匹配訓練方法,利用圖像和其對應的文本描述,采用對比學習的方法訓練模型。這兩種方法各有優劣,前者可以達到非常高的圖像識別精度、比較強的遷移能力,但是依賴人工標注數據;后者可以利用海量噪聲可能較大的圖像文本對作為訓練數據,在few-shot learning、zero-shot learning上取得很好的效果,但是判別能力相比用干凈label訓練的方法較弱。今天給大家介紹一篇CVPR 2022微軟發表的工作,融合兩種數據的一個大一統對比學習框架。

78152864-033a-11ed-ba43-dac502259ad0.png

論文題目:Unified Contrastive Learning in Image-Text-Label Space

下載地址:https://arxiv.org/pdf/2204.03610.pdf

CVPR 2022微軟發表的這篇工作,希望同時利用圖像、文本、label三者的信息,構建一個統一的對比學習框架,同時利用兩種訓練模式的優勢。下圖反映了兩種訓練模式的差異,Image-Label以離散label為目標,將相同概念的圖像視為一組,完全忽視文本信息;而Image-Text以圖文對匹配為目標,每一對圖文可以視作一個單獨的label,文本側引入豐富的語義信息。

7828afec-033a-11ed-ba43-dac502259ad0.png

1

兩種數據的融合

上面所說的Image-Label和Image-Text兩種數據,可以表示成一個統一的形式:(圖像,文本,label)三元組。其中,對于Image-Lable數據,文本是每個label對應的類別名稱,label對應的每個類別的離散標簽;對于Image-Text數據,文本是每個圖像的文本描述,label對于每對匹配的圖文對都是不同的。將兩種數據融合到一起,如下圖右側所示,可以形成一個矩陣,填充部分為正樣本,其他為負樣本。Image-Label數據中,對應類別的圖文為正樣本;Image-Text中對角線為正樣本。

785b4fba-033a-11ed-ba43-dac502259ad0.png

2

損失函數

在上述矩陣的基礎上,可以利用對比學習的思路構建融合Image-Label和Image-Text兩種數據優化函數。對于一個batch內的所有樣本,分別使用圖像Encoder和文本Encoder得到圖像和文本的表示,并進行歸一化,然后計算圖像文本之間的相似度,和CLIP類似。其中Image-to-Text損失函數可以表示為:

7881cfb4-033a-11ed-ba43-dac502259ad0.png

以樣本i(文本)為中心,k表示當前batch內,和樣本i的label相同的圖像,j表示batch內所有其他樣本。也就是說,對于每個文本,損失函數的分子是和該文本匹配的圖像,分母是batch內所有圖像。Text-to-Image損失函數也類似。最終BiC loss是二者之和:

789533f6-033a-11ed-ba43-dac502259ad0.png

3

與其他損失函數的對比

BiC loss和交叉熵、Supervised Contrast以及CLIP三種方法的損失函數差別如下圖所示,這幾種損失函數之間存在著一定的聯系。

78a56e88-033a-11ed-ba43-dac502259ad0.png

與交叉熵損失的關系:如果text encoder只是一個普通的全連接,并且batch size相比類別數量足夠大,以至于一個batch內所有類別的樣本都出現過,那么BiC和交叉熵等價。因此BiC相比交叉熵更具一般性,BiC讓具有相似文本描述的圖像表示形成類簇,不具有相似文本描述的圖像被拉遠。文本側也更加靈活,能夠使用任意種類的文本輸入,結合更豐富的文本Encoder聯合學習。

與SupCon的關系:SupCon是圖像對比學習,訓練數據每對pair都是圖像,共用一個Encoder;而BiC針對的是跨模態對比學習,圖片和文本跨模態對齊。但是兩者的核心思路都是根據有label數據,將batch內出現樣本更多置為正樣本。

與CLIP的關系:和CLIP的主要差別在于,利用label信息將一部分非對角線上的元素視為正樣本。如果這里不使用Image-Label數據,那么就和CLIP相同。

4

實驗效果

圖像分類效果對比:相比使用交叉熵損失和有監督對比學習,文中提出的UniCL在多個模型和數據集上取得較好的效果。尤其是在小數據集上訓練時,UniCL比交叉熵訓練效果提升更明顯,因為引入的圖文匹配方式讓具有相似語義圖像聚集在一起,緩解了過擬合問題。

78b9b1cc-033a-11ed-ba43-dac502259ad0.png

文本Encoder和損失函數對比:文中也對比了文本Encoder是否引入的效果,如果將Transformer替換成線性層,效果有所下降,表明文本Encoder的引入能夠幫助模型學習到1000多個類別之間的關系文本語義關系,有助于提升圖像分類效果。同時,如果去掉i2t的loss只保留t2i的loss,會導致效果大幅下降。

78d53dde-033a-11ed-ba43-dac502259ad0.png

Image-Text引入對Image-Label效果提升:對于上面3行和下面3行,下面3行引入額外Image-Text數據的圖像分類效果要顯著優于只使用圖像分類數據的效果。

78f8c3b2-033a-11ed-ba43-dac502259ad0.png

Image-Label引入對Image-Text效果提升:通過下面實驗對比,引入Image-Label對Image-Text效果有一定提升作用。

792c30f8-033a-11ed-ba43-dac502259ad0.png

下圖繪制了使用CLIP(左)和UniCL(右)兩種方法訓練的圖像embedding的t-sne圖。可以看到,使用CLIP訓練的模型,不同類別的圖像表示混在一起;而使用UniCL訓練的模型,不同類別的圖像表示能夠比較好的區分。

7946524e-033a-11ed-ba43-dac502259ad0.png

5

總結

本文介紹了融合Image-Text和Image-Label兩種數據的的多模態訓練新方式,充分利用了不同的圖像-文本數據,信息相互補充,相比單獨使用一個數據取得非常好的效果。Label的引入也讓對比學習的正負樣本構造更加科學。

原文標題:圖文匹配 + 圖像分類 = 統一多模態對比學習框架

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7080

    瀏覽量

    89175
  • 圖像識別
    +關注

    關注

    9

    文章

    520

    瀏覽量

    38290
  • 函數
    +關注

    關注

    3

    文章

    4338

    瀏覽量

    62739

原文標題:圖文匹配 + 圖像分類 = 統一多模態對比學習框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SN74AVC8T245能同時支持推挽輸出和開漏輸出兩種數據進行轉換嗎?

    你好,請問SN74AVC8T245這款芯片能同時支持推挽輸出和開漏輸出兩種數據進行轉換嗎?
    發表于 12-20 06:46

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言模型,以及構建
    的頭像 發表于 12-03 15:18 ?149次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——下

    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造模態影像融合系統

    模態影像融合超聲系統的市場規模也在不斷擴大,國內眾多超聲系統廠家也在不斷尋找合適的硬件平臺,用以承載旗下的模態影像
    的頭像 發表于 11-11 10:52 ?659次閱讀
    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態</b>影像<b class='flag-5'>融合</b>系統

    《DNK210使用指南 -CanMV版 V1.0》第三十七章 image圖像對比實驗

    提供了difference()方法,用于計算個圖像的差值絕對值,difference()方法如下所示:image.difference(image, mask)difference()方法計算
    發表于 11-07 09:33

    《DNK210使用指南 -CanMV版 V1.0》第三十三章 image元素繪制實驗

    ()方法,用于在圖像上繪制字符串,draw_string()方法如下所示:image.draw_string(x, y, text, color=0xFFFF, scale=1.0
    發表于 11-04 14:22

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說
    的頭像 發表于 10-18 09:39 ?480次閱讀

    圖片動畫控件和Video image控件的使用方法

    在UI開發過程中,序列幀基本是繞不開的,AWTK 支持多種方法實現序列幀顯示,本文介紹圖片動畫控件和Video image控件的使用方法。
    的頭像 發表于 08-06 16:44 ?975次閱讀
    圖片動畫控件和Video <b class='flag-5'>image</b>控件的使用方法

    Labview與Halcon圖片Image互相轉換

    Labview 與Halcon 聯合開發 分享一下Labview 與Halcon Image格式相互轉換的程序, 整理了一個VI,LV_to _Halconxl.vi,可以直接調用,相互轉換兩種格式
    發表于 06-27 23:00

    鴻蒙ArkTS聲明式組件:Image

    Image為圖片組件,常用于在應用中顯示圖片。Image支持加載[PixelMap]、[ResourceStr]和[DrawableDescriptor]類型的數據源,支持png、jpg、bmp、svg和gif類型的圖片格式。
    的頭像 發表于 06-23 20:32 ?965次閱讀
    鴻蒙ArkTS聲明式組件:<b class='flag-5'>Image</b>

    OpenHarmony實戰開發-如何實現模態轉場

    模態轉場是新的界面覆蓋在舊的界面上,舊的界面不消失的一種轉場方式。 表1 模態轉場接口 接口 說明 使用場景 bindContentCover 彈出全屏的模態組件。 用于自定義全屏的
    發表于 04-28 14:47

    未來已來,傳感器融合感知是自動駕駛破局的關鍵

    數據,與現有主流AI計算平臺完全兼容,它可以復用已有的圖像數據樣本,免除了產品的神經網絡訓練數據需要完全重新采集的困擾。 “多維像素”數據
    發表于 04-11 10:26

    測量系統新秀:全自動影像測量儀(閃測儀)IMAGE 3 Pro-H

    全自動影像測量儀(閃測儀)IMAGE 3系列的多樣型號提供了不同的測量優勢,可以根據具體的測量需求和產品特點選擇合適的測量儀型號。
    的頭像 發表于 02-20 14:42 ?779次閱讀
    測量系統新秀:全自動影像測量儀(閃測儀)<b class='flag-5'>IMAGE</b> 3 Pro-H

    關于跳通信和單跳通信兩種方式有什么區別

    跳通信和單跳通信是兩種不同的通信方式,各有優缺點。單跳通信簡單直接,但距離有限;跳通信可以擴大覆蓋范圍、降低能耗、提高網絡性能和可靠性,但需要節點間的協作和信息共享,增加了網絡的復
    的頭像 發表于 01-19 17:58 ?1814次閱讀

    機器人基于開源的模態語言視覺大模型

    ByteDance Research 基于開源的模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練
    發表于 01-19 11:43 ?424次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b>語言視覺大模型

    CMOS Image sensor的基礎知識

    攝像機用來成像的感光元件叫做Image Sensor或Imager。目前廣泛使用的2種Image Sensor是CCD和CMOS Image Sensor(CIS)。
    的頭像 發表于 01-15 11:07 ?5284次閱讀
    CMOS <b class='flag-5'>Image</b> sensor的基礎知識
    主站蜘蛛池模板: 在教室轮流被澡高H林萌| 国产精品第1页在线观看| 久久re视频这里精品09首页| 亚洲中文字幕乱倫在线| 毛片内射久久久一区| 白丝女仆被强扒内裤| 无码11久岁箩筣| 旧里番6080在线观看| 波多野结衣的AV一区二区三区| 十8禁用B站在线看漫画| 九九热精品在线观看| www.青青草原| 亚洲精品中文字幕无码A片蜜桃| 美女大本营| 国产精品伊人| 99RE8国产这里只有精品| 丝瓜视频樱桃视频在线观看免费| 久久成人国产精品一区二区| 伧理片午夜伧理片| 亚洲国产中文字幕在线视频| 男生插女生下体| 国产午夜精品理论片免费观看 | 丝瓜影院观看免费高清国际观察| 精品视频中文字幕| 叮当成人社区| 中文字幕无码亚洲视频| 帅小伙和警官同性3p| 麻豆一区二区免费播放网站| 国产精片久久久久久婷婷| 最近中文字幕MV高清在线 | 亚洲免费三级电影| 区产品乱码芒果精品P站在线| 久久99re热在线播放7| 高清大胆欧美videossexo| 69夫妇交友群| 亚洲AV 日韩 国产 有码| 欧美派对xxxhdparty| 久久久久综合| 國產日韓亞洲精品AV| 动漫美女被h动态图| 99精品国产高清自在线看超|