斯坦福大學(xué)和Adobe研究院的研究者們提出了全新的通用深度網(wǎng)絡(luò)架構(gòu)CPNet,用于學(xué)習(xí)視頻中圖片之間的長(zhǎng)程對(duì)應(yīng)關(guān)系,來(lái)解決現(xiàn)有方法在處理視頻長(zhǎng)程運(yùn)動(dòng)中的局限性。在三大視頻分類數(shù)據(jù)集上取得了優(yōu)于之前結(jié)果的性能。相關(guān)論文獲CVPR 2019 oral。
這是一款全新的通用深度網(wǎng)絡(luò)架構(gòu)。
現(xiàn)有的視頻深度學(xué)習(xí)架構(gòu)通常依賴于三維卷積、自相關(guān)、非局部模塊等運(yùn)算,這些運(yùn)算難以捕捉視頻中幀間的長(zhǎng)程運(yùn)動(dòng)/相關(guān)性。
近日,來(lái)自斯坦福和Adobe的研究人員,受到點(diǎn)云上深度學(xué)習(xí)方法的啟發(fā),提出了一個(gè)通用的深度網(wǎng)絡(luò)架構(gòu)CPNet,用于學(xué)習(xí)視頻中圖片之間的長(zhǎng)程對(duì)應(yīng)關(guān)系,來(lái)解決上述問(wèn)題。
arXiv地址:
https://arxiv.org/abs/1905.07853
研究人員們所提出的CPNet是一個(gè)全新的通用的視頻深度學(xué)習(xí)框架。該網(wǎng)絡(luò)通過(guò)尋找對(duì)應(yīng)的表征來(lái)學(xué)習(xí)視頻中圖片之間稀疏且不規(guī)則的對(duì)應(yīng)模式,并且可以融合進(jìn)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中。
研究人員在三個(gè)視頻分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,CPNet在性能上取得了較大的突破。
CPNet:對(duì)應(yīng)提議網(wǎng)絡(luò)
視頻是由一串圖片組成。然而,視頻并不是任意圖片隨機(jī)的堆砌,其前后幀有強(qiáng)烈的相關(guān)性,表現(xiàn)為一幀圖片中的物體通常會(huì)在其它幀中出現(xiàn)。
相比于單張靜態(tài)的圖片,這樣的對(duì)應(yīng)關(guān)系構(gòu)成了視頻中動(dòng)態(tài)的部分。我們總結(jié)視頻中圖片之間的對(duì)應(yīng)關(guān)系有如下三大特點(diǎn):
對(duì)應(yīng)位置有相似的視覺(jué)或語(yǔ)義特征。這也是我們?nèi)祟惻卸▋蓭械南袼厥欠駥儆谕晃矬w的標(biāo)準(zhǔn)之一。
對(duì)應(yīng)位置在空間維和時(shí)間維上都可以有任意長(zhǎng)的距離。空間維上,物體可以很快從圖片的一端運(yùn)動(dòng)到另一端;時(shí)間維上,物體可以在視頻中存在任意長(zhǎng)的時(shí)間。
潛在的對(duì)應(yīng)位置所占比例為少數(shù)。對(duì)于一個(gè)像素/表征,在其它幀中通常只有極少的相似像素/表征是可能的對(duì)應(yīng),其它明顯不相似的像素/表征則可以忽略掉。換言之,對(duì)應(yīng)關(guān)系存在不規(guī)則性和稀疏性。
那么什么樣的網(wǎng)絡(luò)架構(gòu)可以滿足上述特點(diǎn)呢?
三維卷積無(wú)法檢測(cè)相似性;自相關(guān)是局部操作,無(wú)法勝任長(zhǎng)程對(duì)應(yīng);非局部模塊側(cè)重于注意力機(jī)制,無(wú)法適應(yīng)稀疏性和不規(guī)則性,也無(wú)法學(xué)到長(zhǎng)程運(yùn)動(dòng)的方向。因此我們需要全新的網(wǎng)絡(luò)架構(gòu)。
圖1
我們提出了對(duì)應(yīng)提議網(wǎng)絡(luò)CPNet(Correspondence Proposal Network),其架構(gòu)能同時(shí)滿足上述三種特點(diǎn)。
核心思想如圖1所示:深度網(wǎng)絡(luò)架構(gòu)中,我們將視頻表征張量視為一個(gè)點(diǎn)云,在語(yǔ)義特征空間中(而非一般的時(shí)空空間),對(duì)于表征張量中的每一個(gè)表征即“點(diǎn)”,我們尋找其在其它幀里最近的k個(gè)“點(diǎn)”,并將其視為該表征的潛在對(duì)應(yīng)。然后類似于點(diǎn)云上的深度學(xué)習(xí),對(duì)于這k對(duì)“點(diǎn)”中的每一對(duì),我們使用相同且互相獨(dú)立的神經(jīng)網(wǎng)絡(luò)處理他們的特征向量和位置,然后用最大池化操作從k個(gè)輸出中提取出最強(qiáng)的響應(yīng)。本質(zhì)上,我們的網(wǎng)絡(luò)架構(gòu)可以學(xué)到從這k對(duì)潛在對(duì)應(yīng)中選擇出最有趣的信息。如此一來(lái),最后的輸出表征向量就包含了視頻中的動(dòng)態(tài)信息。
CPNet的架構(gòu)
我們將網(wǎng)絡(luò)的核心命名為”CP模塊“,其結(jié)構(gòu)如下,大致分為兩個(gè)部分。輸入和輸出都是一個(gè)THW x C的視頻表征張量,我們將這兩者都視為一個(gè)THW個(gè)點(diǎn)的帶C維特征向量的點(diǎn)云。
第一個(gè)部分為語(yǔ)義特征空間k最近鄰算法,如圖2所示。我們先求出所有表征對(duì)之間的負(fù)L2語(yǔ)義距離得到THW x THW形狀的矩陣;然后將對(duì)角線上的T個(gè)HW x HW子矩陣的元素置為負(fù)無(wú)窮,這樣位于同一幀的表征就可以排除在潛在對(duì)應(yīng)表征之外了。之后對(duì)每一行進(jìn)行arg top k操作就可以得到潛在對(duì)應(yīng)表征的下標(biāo)。
圖2
第二個(gè)部分為對(duì)應(yīng)關(guān)系的學(xué)習(xí)。我們用上一步得到的下標(biāo)從輸入視頻表征張量中提取出表征。對(duì)于每一個(gè)輸入表征和其k個(gè)最近鄰表征組成的k對(duì)表征對(duì)中的一對(duì),我們將這一對(duì)表征的語(yǔ)義特征向量以及其之間的時(shí)空相對(duì)位置連在一起,得到k個(gè)長(zhǎng)向量。然后我們將這k個(gè)長(zhǎng)向量送入相同且互相獨(dú)立的多層感知器(MLP),然后再用元素級(jí)的最大池化操作(element-wise max-pooling)得到輸出向量,也就是輸出視頻表征張量該表征位置的語(yǔ)義特征向量。
圖3
為了防止訓(xùn)練時(shí)梯度爆炸或消失,類似于ResNet中的跳躍連接,我們將上一步的輸出表征張量加回到了輸入表征張量中??梢钥吹?,該模塊可以無(wú)縫銜接進(jìn)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如ResNet中。在實(shí)驗(yàn)中,所有CP模塊一開(kāi)始初始化為全等操作,這樣我們就可以使用ImageNet預(yù)訓(xùn)練模型來(lái)初始化網(wǎng)絡(luò)其它部分的參數(shù)。
實(shí)驗(yàn)結(jié)果
我們?cè)诖笠?guī)模視頻分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。首先,我們?cè)贙inetics數(shù)據(jù)集上進(jìn)行了小規(guī)模模型的實(shí)驗(yàn)來(lái)研究CP模塊的數(shù)量、位置以及k值的大小對(duì)視頻分類結(jié)果的影響。由結(jié)果可知,模型的性能隨CP模塊數(shù)量增多而提高并趨于飽和;CP模塊放置的位置對(duì)性能有影響;k值在訓(xùn)練時(shí)和推理時(shí)保持一致且合適的值可以得到最佳性能。
我們?cè)贙inetics數(shù)據(jù)集上與其它已發(fā)表結(jié)果進(jìn)行了比較。我們同時(shí)比較了小規(guī)模和大規(guī)模模型。CPNet在參數(shù)數(shù)量更少的情況下取得優(yōu)于之前結(jié)果的性能。
我們也在Something-Something和Jester數(shù)據(jù)集上與其它已發(fā)表結(jié)果進(jìn)行了比較。相比于Kinetics,這兩個(gè)數(shù)據(jù)集更偏重動(dòng)態(tài)信息對(duì)分類的影響。CPNet同樣在參數(shù)數(shù)量更少的情況下取得優(yōu)于之前結(jié)果。
值得注意的是,相比于沒(méi)有CP模塊的基準(zhǔn)二維卷積ResNet,CPNet僅僅額外加入了極少的參數(shù),就在這兩個(gè)數(shù)據(jù)集上得到了極大的性能提升,進(jìn)一步證明了其學(xué)習(xí)視頻中動(dòng)態(tài)信息的強(qiáng)大能力。
模型的可視化
我們對(duì)訓(xùn)練好的模型進(jìn)行了可視化來(lái)理解其工作原理。
我們選取了一個(gè)表征的位置,然后在圖片中用箭頭標(biāo)注出其k個(gè)最近鄰表征的位置。特別地,我們用紅色箭頭標(biāo)注出哪些最近鄰表征在最大池化過(guò)程中被選中。我們同時(shí)用熱圖來(lái)顯示表征圖在經(jīng)過(guò)CP模塊后的變化。
可以看到,通過(guò)語(yǔ)義特征的距離,CP模塊可以大致找到正確的潛在對(duì)應(yīng)位置,例如上圖中的籃球、易拉罐和大拇指。
在上述例子中,對(duì)于錯(cuò)誤的對(duì)應(yīng)提議,CP模塊也能在最大池化過(guò)程中忽略掉它們。同時(shí),熱圖顯示CP模塊對(duì)于處于運(yùn)動(dòng)狀態(tài)的圖片部分更加敏感。
-
矩陣
+關(guān)注
關(guān)注
0文章
423瀏覽量
34564 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24722 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121222
原文標(biāo)題:斯坦福&Adobe CVPR 19 Oral:全新通用深度網(wǎng)絡(luò)架構(gòu)CPNet
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論