色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于將 CLIP 用于下游few-shot圖像分類(lèi)的方案

OpenCV學(xué)堂 ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-09-27 09:46 ? 次閱讀

一.研究背景

對(duì)比性圖像語(yǔ)言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強(qiáng)大的視覺(jué)領(lǐng)域遷移能力,可以在一個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。為了進(jìn)一步提升 CLIP 的遷移性能,現(xiàn)有方法使用了 few-shot 的設(shè)置,例如 CoOp 和 CLIP-Adapter,即提供了少量下游數(shù)據(jù)集的訓(xùn)練數(shù)據(jù),使得 CLIP 能夠更好的針對(duì)不同的視覺(jué)場(chǎng)景做出調(diào)整。但是,這種額外的訓(xùn)練步驟會(huì)帶來(lái)不小的時(shí)間和空間資源開(kāi)銷(xiāo),一定程度上影響了 CLIP 固有的快速知識(shí)遷移能力。因此,我們提出了 Tip-Adapter,一種不需要額外下游訓(xùn)練并且能很大程度提升 CLIP 準(zhǔn)確率的 few-shot 圖像分類(lèi)方法。基于此,我們又提出了一種僅需要少量微調(diào)就能達(dá)到 state-of-the-art 性能的方案:Tip-Adapter-F,實(shí)現(xiàn)了效率和性能的最佳折中。如下表 1 所示,Tip-Adapter 不需要任何訓(xùn)練時(shí)間,即可以將 CLIP 在 ImageNet 數(shù)據(jù)集提升 + 1.7% 準(zhǔn)確率(Accuracy),而 Tip-Adapter-F 僅需要之前方案十分之一的訓(xùn)練時(shí)間(Epochs,Time),就可以實(shí)現(xiàn)現(xiàn)有最佳的分類(lèi)性能。

1843f9d4-3dae-11ed-9e49-dac502259ad0.png

表 1:不同方案在 ImageNet 數(shù)據(jù)集上 16-shot 的圖像分類(lèi)準(zhǔn)確率和訓(xùn)練時(shí)間的比較

二.研究方法

1.Tip-Adapter

Tip-Adapter 的整體網(wǎng)絡(luò)結(jié)構(gòu)如下圖 1 所示,對(duì)于給定的 few-shot 訓(xùn)練數(shù)據(jù)集和標(biāo)簽,我們借助 CLIP 通過(guò)一個(gè)非訓(xùn)練的方案來(lái)構(gòu)建一個(gè)緩存模型(Cache Model),它存儲(chǔ)了來(lái)自下游訓(xùn)練數(shù)據(jù)的分類(lèi)知識(shí);在測(cè)試時(shí),Tip-Adapter 通過(guò)將 Cache Model 的預(yù)測(cè)和原始 CLIP 的預(yù)測(cè)進(jìn)行線(xiàn)性加和,來(lái)得到更強(qiáng)的最終分類(lèi)結(jié)果。

詳細(xì)的來(lái)說(shuō),我們使用 CLIP 預(yù)訓(xùn)練好的視覺(jué)編碼器(Visual Encoder)來(lái)提取 few-shot 訓(xùn)練集所有圖片的特征,作為 Cache Model 的 Keys;并且將對(duì)應(yīng)的圖片標(biāo)簽轉(zhuǎn)化為 one-hot 編碼的形式,作為 Cache Model 的 Values。這種 Key-Value Cache Model 的構(gòu)建方法由于使用的是已經(jīng)預(yù)訓(xùn)練好的 Visual Encoder,所以不需要任何訓(xùn)練開(kāi)銷(xiāo);并且考慮到 few-shot 訓(xùn)練集中,每一個(gè)類(lèi)別只含有少量的圖片(1~16 shots),Cache Model 也幾乎不會(huì)占用額外的顯存開(kāi)銷(xiāo),參考表一中的 GPU Mem. 指標(biāo)。

對(duì)于一張測(cè)試圖片,我們首先會(huì)利用 CLIP 的 Visual Encoder 來(lái)得到它的特征,再將該特征視為 Query 去 Cache Model 中進(jìn)行下游 few-shot 數(shù)據(jù)的知識(shí)檢索。由于 Keys 也是由 CLIP 的 Visual Encoder 提取得倒,因此和測(cè)試圖片特征 Query 同源,我們可以直接計(jì)算它們之間的余弦相似度得倒一個(gè) Key-Query 的鄰接矩陣,此矩陣可以看作是每一個(gè)對(duì)應(yīng) Value 的權(quán)重。因此,我們可以計(jì)算 Values 的加權(quán)和來(lái)得到該測(cè)試圖像通過(guò)檢索 Cache Model 得到的分類(lèi)預(yù)測(cè)。除此之外,我們還可以通過(guò)將測(cè)試圖片特征和 CLIP 的 Textual Encoder 文本特征進(jìn)行匹配,來(lái)得到 CLIP 的 zero-shot 預(yù)測(cè)。通過(guò)將兩者進(jìn)行線(xiàn)性加權(quán)求和,我們得到了最終的分類(lèi)預(yù)測(cè),該預(yù)測(cè)既蘊(yùn)含了 CLIP 預(yù)訓(xùn)練的圖像語(yǔ)言對(duì)比性知識(shí),也結(jié)合了下游新數(shù)據(jù)集的 few-shot 知識(shí),因此可以實(shí)現(xiàn)更強(qiáng)的圖像分類(lèi)準(zhǔn)確率。

基于 Tip-Adapter 的網(wǎng)絡(luò)結(jié)構(gòu),我們可以進(jìn)一步將 Cache Model 中的 Keys 部分變?yōu)閷W(xué)習(xí)參數(shù),即可以通過(guò)訓(xùn)練來(lái)進(jìn)行更新,該方案為 Tip-Adapter-F。借助已經(jīng)構(gòu)建好的 Cache Model,Tip-Adapter-F 僅需要現(xiàn)有 CLIP-Adapter 十分之一的訓(xùn)練回合數(shù)和時(shí)間,就可以實(shí)現(xiàn)更高的性能,如表一所示。

18541486-3dae-11ed-9e49-dac502259ad0.png

圖 1:Tip-Adapter 和 Tip-Adapter-F 的網(wǎng)絡(luò)流程圖

2.Tip-Adapter 和現(xiàn)有方案的區(qū)別與聯(lián)系

對(duì)比 CLIP-Adapter,如圖 2 所示,Tip-Adapter 存儲(chǔ)的 Keys 和 Values 其實(shí)可以分別對(duì)應(yīng)于 CLIP-Adapter 中 adapter 結(jié)構(gòu)的兩個(gè)線(xiàn)性層,只不過(guò)前者是不需要訓(xùn)練來(lái)構(gòu)建的,后者是隨機(jī)初始化,然后需要訓(xùn)練來(lái)學(xué)習(xí)最佳的參數(shù)。

1868c3e0-3dae-11ed-9e49-dac502259ad0.png

圖 2:Tip-Adapter 相比于 CLIP-Adapter

對(duì)比現(xiàn)有的其他構(gòu)建 Cache Model 的方案,如圖 3 所示,Tip-Adapter 的 Cache Model 可以看作是一種多模態(tài)的視覺(jué)語(yǔ)言 Cache。因?yàn)?CLIP 的 Textual Encoder 輸出的特征可以看作是文本的 Key-Value,即相當(dāng)于測(cè)試圖片特征作為 Query,分別在視覺(jué)和文本的 Cache 中檢索知識(shí),相對(duì)于現(xiàn)有的僅含視覺(jué) Cache 的方案,Tip-Adapter 能夠利用多模態(tài)知識(shí)得到更強(qiáng)的識(shí)別性能。

187a8f08-3dae-11ed-9e49-dac502259ad0.png

圖 3:Tip-Adapter 相比于其他構(gòu)建 Cache Model 的方案

三.實(shí)驗(yàn)結(jié)果

1. 在 ImageNet 的分類(lèi)準(zhǔn)確率

圖 4 和表 2 比較了 Tip-Adapter、Tip-Adapter-F 和現(xiàn)有各個(gè)方案在 1、2、4、8、16 shots 的 few-shot 圖像分類(lèi)準(zhǔn)確率;表 3 比較了 16-shot ImageNet 數(shù)據(jù)集上使用不同 CLIP 的 Visual Encoder 的準(zhǔn)確率比較??梢?jiàn),我們的兩種方案都在資源開(kāi)銷(xiāo)很小的情況下,達(dá)到了非常卓越的性能。

18858e6c-3dae-11ed-9e49-dac502259ad0.png

18963faa-3dae-11ed-9e49-dac502259ad0.png

圖 4 和表 2:ImageNet 數(shù)據(jù)集上不同方法的 1~16-shot 圖像分類(lèi)準(zhǔn)確率比較

18a759f2-3dae-11ed-9e49-dac502259ad0.png

表 5:16-shot ImageNet 上不同 CLIP 的 Visual Encoder 的圖像分類(lèi)準(zhǔn)確率比較

2. 在另外 10 個(gè)圖像分類(lèi)數(shù)據(jù)集

如圖 5 所示,我們提供了另外 10 個(gè)圖像分類(lèi)數(shù)據(jù)集的準(zhǔn)確率比較結(jié)果,分別是 StandfordCars,UCF101,Caltech101,F(xiàn)lowers102,SUN397,DTD,EuroSAT,F(xiàn)GVCAircraft,OxfordPets 和 Food101。如圖所示,我們的 Tip-Adapter-F 均取得了最高的識(shí)別準(zhǔn)確率。

18b57226-3dae-11ed-9e49-dac502259ad0.png

18dce2a2-3dae-11ed-9e49-dac502259ad0.png

圖 5:另外 10 個(gè)數(shù)據(jù)集上不同方法的 1~16-shot 圖像分類(lèi)準(zhǔn)確率比較

3. 領(lǐng)域泛化能力的測(cè)評(píng)

我們也測(cè)試了 Tip-Adapter 和 Tip-Adapter-F 在領(lǐng)域泛化(Domain Generalization)方面的表現(xiàn)。如表 6 所示,我們的兩種方案都表現(xiàn)出了很強(qiáng)的魯棒性以及特征遷移能力。

18e95c08-3dae-11ed-9e49-dac502259ad0.png

四.結(jié)論

本文提出了 Tip-Adapter,一種可以免于訓(xùn)練的將 CLIP 用于下游 few-shot 圖像分類(lèi)的方案。Tip-Adapter 通過(guò)構(gòu)建一個(gè) Key-Value Cache Model,來(lái)作為測(cè)試圖片 Query 的知識(shí)檢索庫(kù),并通過(guò)融合 Cache Model 的預(yù)測(cè)和 CLIP 的 zero-shot 預(yù)測(cè),來(lái)得到更強(qiáng)的識(shí)別性能。我們期望 Tip-Adapter 可以啟發(fā)更多預(yù)訓(xùn)練模型高效遷移的后續(xù)工作。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像識(shí)別
    +關(guān)注

    關(guān)注

    9

    文章

    520

    瀏覽量

    38267
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6664
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    36

    瀏覽量

    3811

原文標(biāo)題:ECCV 2022 | 無(wú)需下游訓(xùn)練,Tip-Adapter大幅提升CLIP圖像分類(lèi)準(zhǔn)確率

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度學(xué)習(xí):小樣本學(xué)習(xí)下的多標(biāo)簽分類(lèi)問(wèn)題初探

    本多標(biāo)簽分類(lèi)問(wèn)題。對(duì)于多標(biāo)簽分類(lèi)的SOTA方法往往會(huì)先估計(jì)標(biāo)簽-樣本相關(guān)性得分,然后使用閾值來(lái)選擇多個(gè)關(guān)聯(lián)的標(biāo)簽。 為了在只有幾個(gè)樣本的Few-shot場(chǎng)景下確定合適的閾值,我們首先在數(shù)據(jù)豐富的多個(gè)領(lǐng)域上學(xué)習(xí)通用閾值設(shè)置經(jīng)驗(yàn),然
    的頭像 發(fā)表于 01-07 14:51 ?7077次閱讀

    膠囊網(wǎng)絡(luò)在小樣本做文本分類(lèi)中的應(yīng)用(下)

    論文提出Dynamic Memory Induction Networks (DMIN) 網(wǎng)絡(luò)處理小樣本文本分類(lèi)。 兩階段的(two-stage)few-shot模型: 在監(jiān)督學(xué)習(xí)階段(綠色的部分
    的頭像 發(fā)表于 09-27 17:46 ?2161次閱讀
    膠囊網(wǎng)絡(luò)在小樣本做文本<b class='flag-5'>分類(lèi)</b>中的應(yīng)用(下)

    樣本量極少可以訓(xùn)練機(jī)器學(xué)習(xí)模型嗎?

    本文首先介紹了用小樣本訓(xùn)練模型會(huì)導(dǎo)致的問(wèn)題,再介紹了Few-Shot Learning的基本原理即三大思路下的方法。
    的頭像 發(fā)表于 06-23 15:02 ?6947次閱讀

    介紹兩個(gè)few-shot NER中的challenge

    此部分著重介紹了兩個(gè)few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指
    的頭像 發(fā)表于 08-24 10:01 ?850次閱讀

    Few-shot NER的三階段

    Few-shot NER的三階段:Train、Adapt、Recognize,即在source域訓(xùn)練,在target域的support上微調(diào),在target域的query上測(cè)試。
    的頭像 發(fā)表于 08-24 16:12 ?1423次閱讀

    介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

    CLIP是近年來(lái)在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練,模型的Zero-shot性能非??捎^(guān),甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。
    的頭像 發(fā)表于 10-13 09:13 ?4735次閱讀

    語(yǔ)言模型性能評(píng)估必備下游數(shù)據(jù)集:ZeroCLUE/FewCLUE與Chinese_WPLC數(shù)據(jù)集

    零樣本學(xué)習(xí)是AI識(shí)別方法之一。簡(jiǎn)單來(lái)說(shuō)就是識(shí)別從未見(jiàn)過(guò)的數(shù)據(jù)類(lèi)別,即訓(xùn)練的分類(lèi)器不僅僅能夠識(shí)別出訓(xùn)練集中已有的數(shù)據(jù)類(lèi)別, 還可以對(duì)于來(lái)自未見(jiàn)過(guò)的類(lèi)別的數(shù)據(jù)進(jìn)行區(qū)分。小樣本學(xué)習(xí)(Few-shot Learning)是解決在極少數(shù)據(jù)情況下的機(jī)器學(xué)習(xí)問(wèn)題展開(kāi)的評(píng)測(cè)。
    的頭像 發(fā)表于 03-27 11:38 ?1444次閱讀

    基于GLM-6B對(duì)話(huà)模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒(méi)搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過(guò)程中的no gradient upd
    的頭像 發(fā)表于 03-28 10:11 ?6959次閱讀

    邁向多模態(tài)AGI之開(kāi)放世界目標(biāo)檢測(cè)

    OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shot 和 zero-shot兩大類(lèi)場(chǎng)景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類(lèi)別,zero-shot則是指不存在任何人
    的頭像 發(fā)表于 06-15 16:08 ?783次閱讀
    邁向多模態(tài)AGI之開(kāi)放世界目標(biāo)檢測(cè)

    基于多任務(wù)預(yù)訓(xùn)練模塊化提示

    對(duì) Few-shot 場(chǎng)景時(shí),PT 的調(diào)優(yōu)方法還是存在一定的局限性。針對(duì)這個(gè)問(wèn)題, 復(fù)旦提出了多任務(wù)預(yù)訓(xùn)練模塊化 Prompt(簡(jiǎn)稱(chēng)為:),來(lái)提高模型在 Few-shot 場(chǎng)景下的 PT 效果,使模型能夠快速適應(yīng)下游
    的頭像 發(fā)表于 06-20 11:04 ?680次閱讀
    基于多任務(wù)預(yù)訓(xùn)練模塊化提示

    APE:對(duì)CLIP進(jìn)行特征提純能夠提升Few-shot性能

    CLIP是一個(gè)通用的模型,考慮到下游數(shù)據(jù)分布的差異,對(duì)某個(gè)下游任務(wù)來(lái)說(shuō),CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪聲。因此,在這篇文章中,我們首先提出一種特征提純的方法,
    的頭像 發(fā)表于 07-19 14:19 ?1708次閱讀
    APE:對(duì)<b class='flag-5'>CLIP</b>進(jìn)行特征提純能夠提升<b class='flag-5'>Few-shot</b>性能

    在英特爾開(kāi)發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索

    embedding,根據(jù)特征相似度匹配可完成圖像分類(lèi)和相似查找任務(wù)。CLIP 模型的 zero-shot 分類(lèi)效果就能達(dá)到在 Imagen
    的頭像 發(fā)表于 10-27 11:06 ?854次閱讀
    在英特爾開(kāi)發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索

    如何利用CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來(lái)與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來(lái)完成下游任務(wù)引起了廣泛的關(guān)注。本文利用
    的頭像 發(fā)表于 10-29 16:54 ?1471次閱讀
    如何利用<b class='flag-5'>CLIP</b> 的2D <b class='flag-5'>圖像</b>-文本預(yù)習(xí)知識(shí)進(jìn)行3D場(chǎng)景理解

    基于A(yíng)X650N+CLIP的以文搜圖展示

    能否有一種“識(shí)別萬(wàn)物”的圖像識(shí)別大模型呢?今天就借此機(jī)會(huì),通過(guò)實(shí)操來(lái)重溫下由OpenAI在2021年初發(fā)布的Zero-Shot視覺(jué)分類(lèi)模型CLIP,并移植到愛(ài)芯派Pro上實(shí)現(xiàn)簡(jiǎn)單的以圖
    的頭像 發(fā)表于 11-01 16:44 ?1444次閱讀
    基于A(yíng)X650N+<b class='flag-5'>CLIP</b>的以文搜圖展示

    基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

    最近,上下文學(xué)習(xí)策略已被證明在沒(méi)有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進(jìn)行zero-shot信息提取。不幸的是,推理的證據(jù)在思維鏈提示的構(gòu)建過(guò)程中沒(méi)有被考慮或隱式建模。
    的頭像 發(fā)表于 11-20 17:44 ?894次閱讀
    基于顯式證據(jù)推理的<b class='flag-5'>few-shot</b>關(guān)系抽取CoT
    主站蜘蛛池模板: 国产成人免费片在线观看| 免费视频亚洲| 最近中文字幕MV免费看| 美女被男人撕衣舔胸| 办公室沙发口爆12P| 日韩欧美精品有码在线播放| 国产伦精品一区二区免费| 性夜a爽黄爽| 欧美 另类 美腿 亚洲 无码| 国产久爱青草视频在线观看| 999精品免费视频| 亚洲精品久久久一区| 欧美精品一区二区三区视频| 狠狠色综合久久丁香婷婷| jizz日本黄色| 中文字幕人成乱码中国| 妻中蜜在线播放| 97精品国产亚洲AV高清| 日本毛片久久国产精品| 久章草一区二区| 好吊妞在线成人免费| 亚洲免费在线观看| 麻豆一区二区三区蜜桃免费| 国产色精品久久人妻无码看片| 国产 浪潮AV性色四虎| 成人在线观看播放| 成人免费视频在线| 囯产免费久久久久久国产免费 | 70岁妇女牲交色牲片| 有码在线播放| 国产成人久久精品AV| 337p啪啪人体大胆| 在线一本码道高清| 永久免费看A片无码网站四虎| 亚洲欧美日本久久综合网站| 香艳69xxxxx有声小说| 日韩亚洲欧美中文高清| 欧美中文字幕一区二区三区| 免费毛片播放| 男男免费看| 欧美AAAAAA级午夜福利视频|