一.研究背景
對(duì)比性圖像語(yǔ)言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強(qiáng)大的視覺(jué)領(lǐng)域遷移能力,可以在一個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。為了進(jìn)一步提升 CLIP 的遷移性能,現(xiàn)有方法使用了 few-shot 的設(shè)置,例如 CoOp 和 CLIP-Adapter,即提供了少量下游數(shù)據(jù)集的訓(xùn)練數(shù)據(jù),使得 CLIP 能夠更好的針對(duì)不同的視覺(jué)場(chǎng)景做出調(diào)整。但是,這種額外的訓(xùn)練步驟會(huì)帶來(lái)不小的時(shí)間和空間資源開(kāi)銷(xiāo),一定程度上影響了 CLIP 固有的快速知識(shí)遷移能力。因此,我們提出了 Tip-Adapter,一種不需要額外下游訓(xùn)練并且能很大程度提升 CLIP 準(zhǔn)確率的 few-shot 圖像分類(lèi)方法。基于此,我們又提出了一種僅需要少量微調(diào)就能達(dá)到 state-of-the-art 性能的方案:Tip-Adapter-F,實(shí)現(xiàn)了效率和性能的最佳折中。如下表 1 所示,Tip-Adapter 不需要任何訓(xùn)練時(shí)間,即可以將 CLIP 在 ImageNet 數(shù)據(jù)集提升 + 1.7% 準(zhǔn)確率(Accuracy),而 Tip-Adapter-F 僅需要之前方案十分之一的訓(xùn)練時(shí)間(Epochs,Time),就可以實(shí)現(xiàn)現(xiàn)有最佳的分類(lèi)性能。
表 1:不同方案在 ImageNet 數(shù)據(jù)集上 16-shot 的圖像分類(lèi)準(zhǔn)確率和訓(xùn)練時(shí)間的比較
二.研究方法
1.Tip-Adapter
Tip-Adapter 的整體網(wǎng)絡(luò)結(jié)構(gòu)如下圖 1 所示,對(duì)于給定的 few-shot 訓(xùn)練數(shù)據(jù)集和標(biāo)簽,我們借助 CLIP 通過(guò)一個(gè)非訓(xùn)練的方案來(lái)構(gòu)建一個(gè)緩存模型(Cache Model),它存儲(chǔ)了來(lái)自下游訓(xùn)練數(shù)據(jù)的分類(lèi)知識(shí);在測(cè)試時(shí),Tip-Adapter 通過(guò)將 Cache Model 的預(yù)測(cè)和原始 CLIP 的預(yù)測(cè)進(jìn)行線(xiàn)性加和,來(lái)得到更強(qiáng)的最終分類(lèi)結(jié)果。
詳細(xì)的來(lái)說(shuō),我們使用 CLIP 預(yù)訓(xùn)練好的視覺(jué)編碼器(Visual Encoder)來(lái)提取 few-shot 訓(xùn)練集所有圖片的特征,作為 Cache Model 的 Keys;并且將對(duì)應(yīng)的圖片標(biāo)簽轉(zhuǎn)化為 one-hot 編碼的形式,作為 Cache Model 的 Values。這種 Key-Value Cache Model 的構(gòu)建方法由于使用的是已經(jīng)預(yù)訓(xùn)練好的 Visual Encoder,所以不需要任何訓(xùn)練開(kāi)銷(xiāo);并且考慮到 few-shot 訓(xùn)練集中,每一個(gè)類(lèi)別只含有少量的圖片(1~16 shots),Cache Model 也幾乎不會(huì)占用額外的顯存開(kāi)銷(xiāo),參考表一中的 GPU Mem. 指標(biāo)。
對(duì)于一張測(cè)試圖片,我們首先會(huì)利用 CLIP 的 Visual Encoder 來(lái)得到它的特征,再將該特征視為 Query 去 Cache Model 中進(jìn)行下游 few-shot 數(shù)據(jù)的知識(shí)檢索。由于 Keys 也是由 CLIP 的 Visual Encoder 提取得倒,因此和測(cè)試圖片特征 Query 同源,我們可以直接計(jì)算它們之間的余弦相似度得倒一個(gè) Key-Query 的鄰接矩陣,此矩陣可以看作是每一個(gè)對(duì)應(yīng) Value 的權(quán)重。因此,我們可以計(jì)算 Values 的加權(quán)和來(lái)得到該測(cè)試圖像通過(guò)檢索 Cache Model 得到的分類(lèi)預(yù)測(cè)。除此之外,我們還可以通過(guò)將測(cè)試圖片特征和 CLIP 的 Textual Encoder 文本特征進(jìn)行匹配,來(lái)得到 CLIP 的 zero-shot 預(yù)測(cè)。通過(guò)將兩者進(jìn)行線(xiàn)性加權(quán)求和,我們得到了最終的分類(lèi)預(yù)測(cè),該預(yù)測(cè)既蘊(yùn)含了 CLIP 預(yù)訓(xùn)練的圖像語(yǔ)言對(duì)比性知識(shí),也結(jié)合了下游新數(shù)據(jù)集的 few-shot 知識(shí),因此可以實(shí)現(xiàn)更強(qiáng)的圖像分類(lèi)準(zhǔn)確率。
基于 Tip-Adapter 的網(wǎng)絡(luò)結(jié)構(gòu),我們可以進(jìn)一步將 Cache Model 中的 Keys 部分變?yōu)閷W(xué)習(xí)參數(shù),即可以通過(guò)訓(xùn)練來(lái)進(jìn)行更新,該方案為 Tip-Adapter-F。借助已經(jīng)構(gòu)建好的 Cache Model,Tip-Adapter-F 僅需要現(xiàn)有 CLIP-Adapter 十分之一的訓(xùn)練回合數(shù)和時(shí)間,就可以實(shí)現(xiàn)更高的性能,如表一所示。
圖 1:Tip-Adapter 和 Tip-Adapter-F 的網(wǎng)絡(luò)流程圖
2.Tip-Adapter 和現(xiàn)有方案的區(qū)別與聯(lián)系
對(duì)比 CLIP-Adapter,如圖 2 所示,Tip-Adapter 存儲(chǔ)的 Keys 和 Values 其實(shí)可以分別對(duì)應(yīng)于 CLIP-Adapter 中 adapter 結(jié)構(gòu)的兩個(gè)線(xiàn)性層,只不過(guò)前者是不需要訓(xùn)練來(lái)構(gòu)建的,后者是隨機(jī)初始化,然后需要訓(xùn)練來(lái)學(xué)習(xí)最佳的參數(shù)。
圖 2:Tip-Adapter 相比于 CLIP-Adapter
對(duì)比現(xiàn)有的其他構(gòu)建 Cache Model 的方案,如圖 3 所示,Tip-Adapter 的 Cache Model 可以看作是一種多模態(tài)的視覺(jué)語(yǔ)言 Cache。因?yàn)?CLIP 的 Textual Encoder 輸出的特征可以看作是文本的 Key-Value,即相當(dāng)于測(cè)試圖片特征作為 Query,分別在視覺(jué)和文本的 Cache 中檢索知識(shí),相對(duì)于現(xiàn)有的僅含視覺(jué) Cache 的方案,Tip-Adapter 能夠利用多模態(tài)知識(shí)得到更強(qiáng)的識(shí)別性能。
圖 3:Tip-Adapter 相比于其他構(gòu)建 Cache Model 的方案
三.實(shí)驗(yàn)結(jié)果
1. 在 ImageNet 的分類(lèi)準(zhǔn)確率
圖 4 和表 2 比較了 Tip-Adapter、Tip-Adapter-F 和現(xiàn)有各個(gè)方案在 1、2、4、8、16 shots 的 few-shot 圖像分類(lèi)準(zhǔn)確率;表 3 比較了 16-shot ImageNet 數(shù)據(jù)集上使用不同 CLIP 的 Visual Encoder 的準(zhǔn)確率比較??梢?jiàn),我們的兩種方案都在資源開(kāi)銷(xiāo)很小的情況下,達(dá)到了非常卓越的性能。
圖 4 和表 2:ImageNet 數(shù)據(jù)集上不同方法的 1~16-shot 圖像分類(lèi)準(zhǔn)確率比較
表 5:16-shot ImageNet 上不同 CLIP 的 Visual Encoder 的圖像分類(lèi)準(zhǔn)確率比較
2. 在另外 10 個(gè)圖像分類(lèi)數(shù)據(jù)集
如圖 5 所示,我們提供了另外 10 個(gè)圖像分類(lèi)數(shù)據(jù)集的準(zhǔn)確率比較結(jié)果,分別是 StandfordCars,UCF101,Caltech101,F(xiàn)lowers102,SUN397,DTD,EuroSAT,F(xiàn)GVCAircraft,OxfordPets 和 Food101。如圖所示,我們的 Tip-Adapter-F 均取得了最高的識(shí)別準(zhǔn)確率。
圖 5:另外 10 個(gè)數(shù)據(jù)集上不同方法的 1~16-shot 圖像分類(lèi)準(zhǔn)確率比較
3. 領(lǐng)域泛化能力的測(cè)評(píng)
我們也測(cè)試了 Tip-Adapter 和 Tip-Adapter-F 在領(lǐng)域泛化(Domain Generalization)方面的表現(xiàn)。如表 6 所示,我們的兩種方案都表現(xiàn)出了很強(qiáng)的魯棒性以及特征遷移能力。
四.結(jié)論
本文提出了 Tip-Adapter,一種可以免于訓(xùn)練的將 CLIP 用于下游 few-shot 圖像分類(lèi)的方案。Tip-Adapter 通過(guò)構(gòu)建一個(gè) Key-Value Cache Model,來(lái)作為測(cè)試圖片 Query 的知識(shí)檢索庫(kù),并通過(guò)融合 Cache Model 的預(yù)測(cè)和 CLIP 的 zero-shot 預(yù)測(cè),來(lái)得到更強(qiáng)的識(shí)別性能。我們期望 Tip-Adapter 可以啟發(fā)更多預(yù)訓(xùn)練模型高效遷移的后續(xù)工作。
-
圖像識(shí)別
+關(guān)注
關(guān)注
9文章
520瀏覽量
38267 -
Clip
+關(guān)注
關(guān)注
0文章
31瀏覽量
6664 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
36瀏覽量
3811
原文標(biāo)題:ECCV 2022 | 無(wú)需下游訓(xùn)練,Tip-Adapter大幅提升CLIP圖像分類(lèi)準(zhǔn)確率
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論