多模態(tài)(Multimodality)是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺等,它們共同作用來傳遞更豐富、更全面的信息。在多模態(tài)系統(tǒng)中,不同模態(tài)之間的信息可以相互補(bǔ)充、交互作用,從而提供更深入、更全面的理解和溝通。
以人類的感知為例,我們?cè)谌粘I钪型ǔ?huì)同時(shí)接收多種感知信息。當(dāng)我們觀看一部電影時(shí),我們不僅僅依靠視覺信息來理解情節(jié)和角色,還借助于聽覺信息(對(duì)話、音效)、語言信息(字幕或?qū)Π祝⒁约扒楦猩系挠|覺體驗(yàn)等,這些信息相互交織,共同構(gòu)成我們對(duì)電影的感知和理解。
在計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域,多模態(tài)的概念也得到廣泛應(yīng)用。例如,在自然語言處理中,多模態(tài)模型可以結(jié)合文本和圖像信息,使得計(jì)算機(jī)能夠更好地理解和生成豐富的內(nèi)容。在人機(jī)交互中,多模態(tài)界面可以通過語音、觸控和手勢(shì)等方式,讓用戶更自然、更便捷地與計(jì)算機(jī)進(jìn)行交互。此外,多模態(tài)也在自動(dòng)駕駛、醫(yī)療診斷、情感分析等領(lǐng)域有著廣泛的應(yīng)用前景。
正文:
不同模態(tài)語義的對(duì)齊問題一直是多模態(tài)人工智能研究的一個(gè)重點(diǎn)課題。傳統(tǒng)意義上的多模態(tài)數(shù)據(jù)包括有:視覺數(shù)據(jù)、文字?jǐn)?shù)據(jù)、聲音數(shù)據(jù)、觸覺數(shù)據(jù)等等;在不斷地研究與發(fā)展中,多模態(tài)數(shù)據(jù)又細(xì)化為圖像數(shù)據(jù)、視頻數(shù)據(jù)、語言文字?jǐn)?shù)據(jù)、其他文字?jǐn)?shù)據(jù)(如代碼等)、聲音數(shù)據(jù)、語音數(shù)據(jù)、紅外數(shù)據(jù)、3d點(diǎn)云數(shù)據(jù)等等眾多的數(shù)據(jù)形式。
1 引言
圖1. Vision Transformer Overview
不同模態(tài)數(shù)據(jù)的語義密度不同、信噪比不同、能覆蓋的知識(shí)范圍也不同。因此不同模態(tài)數(shù)據(jù)的對(duì)齊就面臨著巨大的困難。以視覺-語言數(shù)據(jù)的語義對(duì)齊為例,對(duì)齊不同模態(tài)數(shù)據(jù)需要解決形式對(duì)齊和內(nèi)容對(duì)齊兩個(gè)問題。
首先是形式對(duì)齊的問題。NLP領(lǐng)域的經(jīng)典工作ELMo[3]提出用上下文雙向預(yù)測(cè)來提取詞元底層語義向量的方法,Bert[4]中改善為類似完型填空的語句重建任務(wù),利用Transformer[5]的高并行性和更深的深度為大模型時(shí)代的到來解決了語言數(shù)據(jù)的人工標(biāo)注成本問題。NLP領(lǐng)域的高速發(fā)展同樣也刺激著計(jì)算機(jī)視覺領(lǐng)域?qū)W者們的眼球,探索Transformer在視覺領(lǐng)域的潛力,其中影響力最大的便是來自Google的Vision Transformer[6],此工作將一張分辨率為224*224的圖片分割為16*16個(gè)分辨率為14*14的patch,每個(gè)patch當(dāng)做一個(gè)token交給Transformer Encoder模塊進(jìn)行運(yùn)算。至此,Transformer統(tǒng)一了語言數(shù)據(jù)和視覺數(shù)據(jù)的數(shù)據(jù)格式和計(jì)算方式,解決了形式對(duì)齊的問題。
今天要給大家分享的論文,ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision,就是基于以上工作的Transformer多模態(tài)先導(dǎo)性工作。
2 相關(guān)工作
圖2. 四類視覺語言模型
在論文的第一部分作者總結(jié)了截止到2021年為止的多模態(tài)方法,并以計(jì)算量進(jìn)行了分類。如圖2所示,其中VE代表視覺編碼,TE代表文字編碼,MI代表模態(tài)融合,方框的面積代表計(jì)算量。
在ViT出現(xiàn)之前,視覺-語言模型的視覺部分由CNN[8] Backbone統(tǒng)治,VE部分也幾乎都是以基于像素和CNN的模型進(jìn)行嵌入,如Pixel-Bert[7]等工作。本文提到,大多數(shù)視覺-語言模型的研究都集中在提高VE部分的性能和計(jì)算量,又由于區(qū)域特征通常在訓(xùn)練時(shí)提前緩存,以減輕特征提取的負(fù)擔(dān),因此在學(xué)術(shù)嚴(yán)重中往往會(huì)忽略了過重的VE部分的缺點(diǎn),比如在實(shí)際的應(yīng)用場(chǎng)景中,需要極大的開銷和推理時(shí)間用于提取視覺特征,其推理過于緩慢,十分影響其真實(shí)可用性。同時(shí)筆者也認(rèn)為,此類方法過于依賴CNN Backbone的泛化性和訓(xùn)練數(shù)據(jù)量,有很大的優(yōu)化空間。
因此,在此篇工作中作者們專注于研究視覺嵌入的輕量化和快速化,并只使用Transformer作為網(wǎng)絡(luò)主體,以一種統(tǒng)一的方式處理兩種模態(tài)。區(qū)別于以往的視覺-語言模型,ViLT模型是沒有卷積網(wǎng)絡(luò)的,通過特殊的設(shè)計(jì),去除了專門用于視覺輸入的深度嵌入器顯著減少了模型大小和運(yùn)行時(shí)間,從圖3中可以看出此工作的參數(shù)有效模型(parameter-efficient model)的運(yùn)行速度比使用區(qū)域特征的VLP(Vision-Language Pretrain)模型要快幾十倍,比使用網(wǎng)格特征的VLP模型要快四倍以上,同時(shí)在性能上,并沒有比上述模型有明顯下降,甚至在某些任務(wù)上要優(yōu)于上述模型。
圖3.推理代價(jià)對(duì)比圖
ViLT工作的主要貢獻(xiàn)被作者總結(jié)為如下:
ViLT是迄今為止最簡(jiǎn)單的視覺-語言模型架構(gòu),它統(tǒng)一使用Transformer來處理視覺和語言特征,這種設(shè)計(jì)顯著降低了運(yùn)行時(shí)間并提高了參數(shù)效率。
ViLT首次證明了CNN不是視覺-語言任務(wù)上的唯一解,在不適用任何CNN網(wǎng)絡(luò)的情況下,在視覺和語言任務(wù)上取得了令人滿意的性能。視覺語義嵌入(VSE)模型,如VSE++(Faghri等人,2017年)和SCAN(Lee等人,2018年)屬于圖2a。他們對(duì)圖像和文本使用不同的嵌入器,前者要重得多。然后,它們用簡(jiǎn)單的點(diǎn)積或淺的注意層來表示兩種模態(tài)中嵌入特征的相似性。
ViLT證明了,在多模態(tài)任務(wù)的訓(xùn)練中,使用整詞掩蔽和圖像增強(qiáng)能進(jìn)一步增強(qiáng)模型的性能。
3 背景
3.1 視覺語言模型的分類方式
作者提出視覺和語言模型的分類法基于兩點(diǎn):( 1 )兩種模態(tài)在專用參數(shù)和,或計(jì)算方面是否具有均勻的表達(dá)能力;( 2 )兩種模態(tài)在深度網(wǎng)絡(luò)中是否存在相互作用。這些點(diǎn)的組合導(dǎo)致了圖2中的四個(gè)原型。
視覺語義嵌入(VSE)模型,如VSE++[9]和SCAN[10]屬于圖2a。他們對(duì)圖像和文本使用不同的嵌入器,前者要重得多。然后,它們用簡(jiǎn)單的點(diǎn)積或淺的注意層來表示兩種模態(tài)中嵌入特征的相似性。
CLIP[11](雷德福等人,2021年)屬于圖2b,因?yàn)樗鼮槊糠N模態(tài)使用單獨(dú)但同樣昂貴的Transformer model嵌入器。合并的圖像矢量和文本矢量之間的交互仍然很淺(點(diǎn)積)。盡管CLIP在圖像到文本檢索方面表現(xiàn)出色,但我們無法在其他視覺和語言下游任務(wù)中觀察到相同水平的表現(xiàn)。例如,使用來自CLIP的匯集的視覺和文本向量的點(diǎn)積作為多模態(tài)表示來微調(diào)NLVR2[12]上的MLP頭,給出了50.99±0.38的低dev精度(用三種不同的種子運(yùn)行);由于機(jī)會(huì)水平準(zhǔn)確度為0.5,我們得出結(jié)論,表示不能學(xué)習(xí)這項(xiàng)任務(wù)。這也符合Suhr[13]等人的發(fā)現(xiàn)。(2018)所有簡(jiǎn)單融合多模態(tài)表示的模型都無法學(xué)習(xí)NLVR2。
這一結(jié)果支持了作者的推測(cè),即使來自高性能單模態(tài)Embedder的輸出的簡(jiǎn)單融合也可能不足以學(xué)習(xí)復(fù)雜的視覺和語言任務(wù),這體現(xiàn)了對(duì)更嚴(yán)格的模態(tài)間交互方案的需求。
與具有淺層交互的模型不同,圖2c中較新的VLP模型使用深層transformer來模擬圖像和文本特征的交互。然而,除了交互模塊之外,卷積網(wǎng)絡(luò)仍然參與提取和嵌入圖像特征,這占了圖3所示的大部分計(jì)算。Modulation-based視覺和語言模型[14]也屬于圖2c,它們的視覺CNN詞干對(duì)應(yīng)于視覺嵌入器,RNN產(chǎn)生文本嵌入器的調(diào)制參數(shù),調(diào)制CNN產(chǎn)生模態(tài)交互。
本文提出的ViLT是屬于圖2d的第一個(gè)模型,其中原始像素的嵌入層很淺,并且與文本標(biāo)記相比計(jì)算量很輕。因此,這種架構(gòu)將大部分計(jì)算集中在建模模態(tài)交互上。
3.2 模態(tài)交互
Transformer技術(shù)是當(dāng)前VLP模型的核心,它們用視覺和文本嵌入序列作為輸入,在整個(gè)層中模擬模態(tài)內(nèi)和模態(tài)間的交互,然后輸出上下文相關(guān)的特征序列。
布利亞雷羅等人[15]將交互模式分為兩類:(1)單流方法(如VisualBERT[16]、UNITER[17]),其中各層集體操作圖像和文本輸入的串聯(lián);以及(2)雙流方法(例如,ViLBERT[18],LXMERT[19]),其中兩種模式在輸入級(jí)別上沒有連接。對(duì)于交互Transformer model模塊,作者遵循單流方法,因?yàn)殡p流方法引入了額外的參數(shù)。
3.3 視覺Embedding
所有高性能的VLP模型都共享相同的Text Embedding——BERT但它們?cè)谝曈X嵌入器上有所不同。盡管如此,在大多數(shù)(如果不是全部)情況下,視覺嵌入仍然是現(xiàn)有VLP模型的瓶頸。我們通過引入Patch Projection而不是使用區(qū)域或網(wǎng)格特征來減少這一瓶頸,因?yàn)閰^(qū)域或網(wǎng)格特征使用了更大的提取模塊。
區(qū)域特征。VLP模型主要利用區(qū)域特征,也稱為自下而上特征[20]。它們是從現(xiàn)成的物體檢測(cè)器如Faster R-CNN[21]獲得的。
生成區(qū)域特征的一般流程如下。首先,使用RPN基于從CNN主干網(wǎng)匯集的網(wǎng)格特征來建議感興趣的區(qū)域(RoI)。然后,非最大抑制(NMS)將ROI的數(shù)量減少到幾千個(gè)。在被RoI Align[22]等操作匯集后,RoI通過RoI頭并成為區(qū)域特征。NMS再次應(yīng)用于每個(gè)類,最終將特征的數(shù)量減少到100個(gè)以下。
上述過程涉及幾個(gè)影響性能和運(yùn)行時(shí)的因素:主干、NMS的風(fēng)格、RoI頭.以前的工作對(duì)控制這些因素很寬容,如下所示:
?骨干網(wǎng):ResNet-101[1]和ResNext-152[1]是兩種常用的骨干網(wǎng)。
?NMS:NMS通常以逐類的方式完成。在每個(gè)類中應(yīng)用NMS成為運(yùn)行時(shí)一個(gè)主要的瓶頸,例如在VG數(shù)據(jù)集[23]中有1.6 K的類。為了解決這個(gè)問題,最近引入了分類NMS[24]。
?RoI頭:最初使用的是C4[20]。頭是后來引入的[25]。當(dāng)heads為所有RoI工作時(shí),帶來了巨大的運(yùn)行時(shí)間負(fù)擔(dān)。
然而輕量級(jí)的目標(biāo)檢測(cè)模型不太可能比backbone或單層卷積更快。提前凍結(jié)視覺backbone和緩存區(qū)域特征只在訓(xùn)練時(shí)有幫助,在推理期間沒有幫助,更不用說它本就抑制性能。
網(wǎng)格特征。除了目標(biāo)檢測(cè)頭,卷積神經(jīng)網(wǎng)絡(luò)(如ResNets)的輸出特征網(wǎng)格也可以用作視覺和語言預(yù)訓(xùn)練的視覺特征。直接使用網(wǎng)格特征首先是由特定模型提出的[26],主要是為了避免使用嚴(yán)重緩慢的區(qū)域選擇操作。
X-LXMERT[27]通過將目標(biāo)區(qū)域固定為網(wǎng)格而不是來自區(qū)域建議網(wǎng)絡(luò)的網(wǎng)格來重新研究網(wǎng)格特征。然而,他們對(duì)特征的緩存排除了對(duì)主干網(wǎng)的進(jìn)一步調(diào)整。
Pixel - BERT是唯一一個(gè)將VG預(yù)訓(xùn)練的目標(biāo)檢測(cè)器替換為預(yù)訓(xùn)練ImageNet分類的ResNet變體主干的VLP模型。與基于區(qū)域特征的VLP模型中的凍結(jié)檢測(cè)器不同,Pixel - BERT的主干在視覺和語言預(yù)訓(xùn)練過程中進(jìn)行了調(diào)整。Pixel - BERT與ResNet - 50的下游性能低于基于區(qū)域特征的VLP模型,但與其他競(jìng)爭(zhēng)者相比,它使用了更重的ResNeXt - 152。
但作者聲稱網(wǎng)格特征不是首選項(xiàng),由于深度卷積神經(jīng)網(wǎng)絡(luò)代價(jià)昂貴,它們占整個(gè)計(jì)算很大一部分,如圖3所示。
Patch Projection.為了最小化開銷,作者采用最簡(jiǎn)單的視覺Embedding方案:在圖像塊上操作的線性投影。針對(duì)圖像分類任務(wù),ViT引入了塊投影Embedding。補(bǔ)丁投影將視覺Embedding步驟大大簡(jiǎn)化到文本Embedding的水平,同樣由簡(jiǎn)單的投影(projection)操作組成。
作者使用32 × 32的面片投影,只需要2.4 M的參數(shù)。這與復(fù)雜的ResNe(X)t Backbone和目標(biāo)檢測(cè)元件形成鮮明對(duì)比。其運(yùn)行時(shí)間也可忽略不計(jì),如圖3所示,在原文的4.6節(jié)做了詳細(xì)的運(yùn)行時(shí)分析。
4 ViLT
4.1 模型概述
本文所提出的ViLT模型是一個(gè)追求簡(jiǎn)潔的,單流視覺語言模型,具有本文所提所有方法中最小的VE模塊。具體的結(jié)構(gòu)可以參考圖2。
比較反直覺的是,作者在實(shí)際的實(shí)驗(yàn)過程中對(duì)模型進(jìn)行參數(shù)初始化以加速訓(xùn)練,直接使用bert進(jìn)行參數(shù)初始化的時(shí)候效果很差,在多次的實(shí)驗(yàn)中作者又分別嘗試了使用預(yù)訓(xùn)練的ViT初始化IM模塊的參數(shù)和僅使用ViT的patch embedding初始化ViLT的patch embedding。最后作者發(fā)現(xiàn),使用預(yù)訓(xùn)練的ViT初始化IM模塊的效果最好,其中ViT和Bert模型的結(jié)構(gòu)不同之處在于他們layer normalization(LN)的位置不同,在ViT中LN層位于多頭注意力和FC層的前面,而在Bert中則位于此兩層的后面。本工作所使用的預(yù)訓(xùn)練模型是ViT-B/32,在ImageNet上進(jìn)行預(yù)訓(xùn)練。
4.2 預(yù)訓(xùn)練目標(biāo)
作者使用兩個(gè)常用于訓(xùn)練VLP模型的目標(biāo)訓(xùn)練ViLT:圖像文本匹配( ITM )和掩蔽語言建模( MLM )。
ITM.圖像文本匹配。作者以0.5的概率將對(duì)齊后的圖像隨機(jī)替換為不同的圖像。單個(gè)線性層ITM頭將池化的輸出特征p投影到二進(jìn)制類上,我們計(jì)算負(fù)對(duì)數(shù)似然損失作為我們的ITM損失。
另外作者還使用基于最優(yōu)運(yùn)輸原理的此塊對(duì)齊思想,輔助ITM任務(wù)的訓(xùn)練。
MLM.掩蔽語言建模。作者在次任務(wù)中使用0.15的掩蔽概率進(jìn)行隨機(jī)掩蔽,進(jìn)行掩蔽重建任務(wù)以計(jì)算損失,其方法同Bert。
同時(shí)作者使用了不同于Bert的整詞掩蔽方式,使用視覺信息重建掩蔽詞,以加強(qiáng)模態(tài)之間的交互性。
4.3 圖像增強(qiáng)
在多模態(tài)任務(wù)中,由于圖像增強(qiáng)方法經(jīng)常會(huì)影響圖像的語義,故很少使用,比如圖片的裁剪可能會(huì)影響目標(biāo)的數(shù)量,圖像的歸一化會(huì)影響圖像本身的色彩。但圖像增強(qiáng)本身作為一個(gè)很好的增強(qiáng)模型魯棒性和泛化性的trick,故作者在微調(diào)過程中還是使用了部分不影響圖像語義的數(shù)據(jù)增強(qiáng)方法。
5 實(shí)驗(yàn)
圖4.數(shù)據(jù)集
具體的實(shí)驗(yàn)方法不在這里贅述,這里介紹一下本工作的數(shù)據(jù)集和評(píng)估效果。本工作使用了四個(gè)數(shù)據(jù)集共4M張圖片和約10M條描述用于預(yù)訓(xùn)練,如圖4所示。并在VQAv2和NLVR2上進(jìn)行評(píng)估,評(píng)估效果如下圖5-7所示。
圖5.評(píng)估結(jié)果-1
圖6.評(píng)估結(jié)果-2
圖片所展示的效果很清晰,可以看到ViLT的主要提升在Time上,大幅提升了推理速度,在分?jǐn)?shù)和效果上,ViLT并沒有因?yàn)橥评硭俣却蠓忍岣叨档停炊谀承┤蝿?wù)上有小幅度提升。
圖7.消融實(shí)驗(yàn)
圖7所示的消融實(shí)驗(yàn)探究了模型的哪些設(shè)計(jì)提升了性能,可以看到整詞掩蔽和圖像增強(qiáng)都帶來了幾個(gè)點(diǎn)的效果提升。
6 可視化效果
圖8.可視化多模態(tài)對(duì)齊展示
作者展示了ViLT的圖像可視化對(duì)齊效果,可以看到把更多了計(jì)算量分配給IM模塊時(shí),模型會(huì)展現(xiàn)出強(qiáng)大的對(duì)齊能力。作者認(rèn)為他們?cè)赪PA任務(wù)上的設(shè)計(jì)增強(qiáng)了模型的對(duì)齊能力。
審核編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7080瀏覽量
89175 -
人工智能
+關(guān)注
關(guān)注
1792文章
47409瀏覽量
238924 -
Transformer
+關(guān)注
關(guān)注
0文章
144瀏覽量
6022 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22053 -
大模型
+關(guān)注
關(guān)注
2文章
2482瀏覽量
2849
原文標(biāo)題:ViLT: 沒有卷積和區(qū)域監(jiān)督的視覺-語言Transformer模型
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論