CNN卷積神經(jīng)網(wǎng)絡(luò)問世以來,在計(jì)算機(jī)視覺領(lǐng)域備受青睞,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,其參數(shù)共享性和平移不變性,使得對于圖像的處理十分友好,然而,近日由Facebook AI、新家坡國立大學(xué)、360人工智能研究院的研究人員提出的一種新的卷積操作OctConv使得在圖像處理性能方面得到了重大突破與提升,OctConv和CNN中的卷積有什么不同呢?
論文下載地址:
https://arxiv.org/pdf/1904.05049.pdf
CNN網(wǎng)絡(luò)中的卷積層主要用來提取圖像特征,如下圖所示,利用卷積核(也稱濾波器)對輸入圖像的每個(gè)像素進(jìn)行卷積操作得到特征圖,由于圖像中相鄰像素的特征相似性,卷積核橫掃每個(gè)位置,獨(dú)立的存儲(chǔ)自己的特征描述符,忽略空間上的一致性,使得特征圖在空間維度上存在大量的冗余。
圖1 普通卷積操作示意圖
OctConv主要基于于處理多空間頻率的特征映射并減少空間冗余的問題提出的。
原文地址:
https://export.arxiv.org/pdf/1904.05049
下面文摘菌將從論文的四個(gè)部分展開對OctConv原理的闡述。
Why?—OctConv之誕生
文章摘要(Abstract)部分指出,在自然圖像中,信息以不同的頻率傳輸,其中高頻率通常以細(xì)節(jié)進(jìn)行編碼,而較低頻率通常以總體結(jié)構(gòu)進(jìn)行編碼,同理卷積層的輸出可以看做不同頻率的信息混合,在論文中,研究者提出通過頻率對特征融合圖進(jìn)行分解,并設(shè)計(jì)出了一種新的Octave卷積(OctConv)操作,旨在存儲(chǔ)和處理在空間上變化緩慢的較低分辨率的特征圖,從而降低內(nèi)存和計(jì)算成本。與現(xiàn)存的多尺度方法不同,OctConv是一種單一、通用、即插即用的卷積單元,可以直接代替普通卷積,而無需調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)。
OctConv與那些用于構(gòu)建更優(yōu)拓?fù)浠蛘邷p少分組或深度卷積中信道冗余的方法是正交和互補(bǔ)的。
實(shí)驗(yàn)表明,通過使用OctConv替代普通卷積,能很好的提高語音和圖像識別任務(wù)中的精度,同時(shí)降低內(nèi)存和計(jì)算成本,一個(gè)配備有OctConv的ResNet-152能夠以僅僅22.2 GFLOP在ImageNet數(shù)據(jù)集上達(dá)到82.5%的top-1分類準(zhǔn)確率。
What?—初探OctConv
論文Introduction(介紹)部分基于CNN現(xiàn)存的空間維度冗余問題引出了下圖:
圖2 論文思路闡述圖
(a)動(dòng)機(jī):研究表明,自然圖像可以分解為低空間頻率和高空間頻率兩部分;
(b)卷積層的輸出圖也可以根據(jù)空間頻率進(jìn)行分解和分組;
(c)所提出的多頻特征表示將平滑變化的低頻映射存儲(chǔ)字低分辨率張量中,以減少空間冗余;
(d)所提出的OctConv直接作用于這個(gè)表示。它會(huì)更新每個(gè)組的信息,并進(jìn)一步支持組之間的信息交換。
具體解釋為:如圖 2(a) 所示,自然圖像可以分解為描述平穩(wěn)變化結(jié)構(gòu)的低空間頻率分量和描述快速變化的精細(xì)細(xì)節(jié)的高空間頻率分量。類似地,我們認(rèn)為卷積層的輸出特征映射也可以分解為不同空間頻率的特征,并提出了一種新的多頻特征表示方法,將高頻和低頻特征映射存儲(chǔ)到不同的組中,如圖 2(b) 所示。因此,通過相鄰位置間的信息共享,可以安全地降低低頻組的空間分辨率,減少空間冗余,如圖 2(c) 所示。
How?—再探OctConv
論文Method(方法)部分:octave feature 減少了空間冗余,比原始表示更加緊湊。然而,由于輸入特征的空間分辨率不同,傳統(tǒng)卷積不能直接對這種表示進(jìn)行操作。避免這個(gè)問題的一種簡單方法是將低頻部分上采樣到原始的空間分辨率,將它與連接起來,然后進(jìn)行卷積,這將導(dǎo)致額外的計(jì)算和內(nèi)存開銷。為了充分利用緊湊的多頻特征表示,我們提出 Octave Convolution,它可以直接在分解張量X={XH,XL}上運(yùn)行,而不需要任何額外的計(jì)算或內(nèi)存開銷。
Octave Convolution的設(shè)計(jì)目標(biāo)是有效地處理相應(yīng)張量中的低頻和高頻分量,同時(shí)使得Octave特征表示的高頻分量和低頻分量之間能夠有效通信。設(shè)X,Y為分解輸入和輸出張量,那么輸出的高頻和低頻信號將由下式給出:
其中H→H,L→L表示自身的更新,L→H,H→L表示高頻與低頻分量之間的通信,如圖3所示綠色箭頭表示信息更新,紅色箭頭表示兩個(gè)頻率之間的信息交換。
圖3 Octave Convolution示意圖
同理,我們將卷積核分解為高頻和低頻W={WH,WL},WH=WH→H+WL→H;WL=WL→L+WH→L,如圖4所示:
圖3 Octave Convolution kernel示意圖
對于低頻特征所使用的低頻所占比例a的不同,當(dāng)a=0時(shí)(即沒有低頻成分),OctConv就會(huì)退化為普通卷積。經(jīng)過實(shí)驗(yàn)評估k×k Octave 卷積核與普通卷積核等價(jià),即二者具有完全相同的參數(shù)量。
To do—Just do it
論文的實(shí)驗(yàn)部分:研究人員驗(yàn)證了提出的Octave卷積對于2D和3D網(wǎng)絡(luò)的效能和效率,首先展示了ImageNet圖像分類的控制變量研究,然后將其與當(dāng)前最優(yōu)的方法進(jìn)行了比較。之后研究人員使用Kinetics-400和Kinetics-600數(shù)據(jù)集,展示了提出的OctConv也適用于3D CNN。
圖4 ImageNet上的控制變量結(jié)果圖
上表為論文中的表8,視頻中的動(dòng)作識別、控制變量研究結(jié)果統(tǒng)計(jì)。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46022 -
cnn
+關(guān)注
關(guān)注
3文章
352瀏覽量
22238
原文標(biāo)題:比CNN表現(xiàn)更好,CV領(lǐng)域全新卷積操作OctConv厲害在哪里?
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論