Grid R-CNN是商湯科技最新發(fā)表于arXiv的一篇目標檢測的論文,對Faster R-CNN架構(gòu)的目標坐標回歸部分進行了替換,取得了更加精確的定位精度,是最近非常值得一讀的論文。
今天就跟大家一起來細品此文妙處。
一、作者信息
該文所有作者均來自商湯科技:
該文直取Grid(網(wǎng)格)修飾R-CNN,意即將目標檢測中位置定位轉(zhuǎn)化為目標區(qū)域網(wǎng)格點的定位。
二、算法思想
如下圖所示:
在目前的R-CNN目標檢測算法中,目標的2個點(比如左上和右下)就能表征其位置,將目標的定位看為回歸問題,即將ROI特征flatten成向量,后接幾個全連接層回歸目標的坐標偏移量和寬高。
作者認為,這種處理方式?jīng)]能很好的利用特征的空間信息。
作者希望利用全卷積網(wǎng)絡的精確定位能力計算目標位置,將2個目標點的回歸問題,轉(zhuǎn)化為目標區(qū)域網(wǎng)格點(Grid Points)的定位問題。目標區(qū)域的網(wǎng)格點位置是全卷積網(wǎng)絡的監(jiān)督信息,因為是直接將目標區(qū)域等分,是可以直接計算的。網(wǎng)絡推斷時,計算heatmap的極值,即為求得的網(wǎng)格點(Grid Points)。
上圖展示了使用3*3網(wǎng)格點的情況。
三、算法流程
作者改造的是Faster R-CNN的目標定位部分,其算法流程如下:
前半部分與Faster R-CNN相同,在得到目標候選區(qū)域和ROI特征后,分類部分進行目標分類,而定位部分接全卷積網(wǎng)絡,其監(jiān)督信息來自根據(jù)目標位置計算得到的網(wǎng)格監(jiān)督信息。
流程圖中作者特別標出了特征融合模塊(feature fusion module),其意在使用網(wǎng)格中相鄰網(wǎng)格點的位置相關性,融合特征使得定位更加精確。
以下針對其中關鍵步驟進行詳細說明。
3.1 網(wǎng)格引導定位
將目標區(qū)域劃為網(wǎng)格,目標的定位即轉(zhuǎn)化為網(wǎng)格點的定位。
訓練時,ROI特征(14*14大小)通過8個3*3空洞卷積,再通過兩個反卷積把尺寸擴大(56*56),再通過一個卷積生成與網(wǎng)格點相關的 heatmaps(9 個點就是 9 張圖,后文實驗也使用了4個點的情況)。監(jiān)督信息是每一個點所處位置的交叉十字形狀的5個點的位置。最后再接sigmoid函數(shù),在heapmaps上得到概率圖。
推斷時,將heapmaps極值的位置映射回原圖,即得到了網(wǎng)格點的位置。
讀到這里,讀者可能會有一個疑問,即計算得到的網(wǎng)格點組成的形狀是方方正正的,而Heapmaps極值得到的網(wǎng)格點未必組合在一起是方方正正的,不好確定目標區(qū)域。
作者的方法是對原本應該具有相同x或者y坐標的網(wǎng)格點的坐標進行平均。
到此,即得到了目標位置。
3.2 網(wǎng)格點特征融合
很顯然,網(wǎng)格點之間具有內(nèi)在的聯(lián)系,相鄰網(wǎng)格點之間可以相互校正位置提高定位精度。
為此,作者設計了網(wǎng)格點特征融合的機制。
首先,在計算網(wǎng)格點heapmaps時,每個網(wǎng)格點使用不同的濾波器組,防止它們之間共用特征以至相互影響。
然后在每個網(wǎng)格點的Heapmap出來后,將相鄰網(wǎng)格點的Heapmaps經(jīng)過卷積濾波與其相加,形成新的heapmap。
作者將距離特定網(wǎng)格點最近的相鄰網(wǎng)格點(1個單位網(wǎng)格長度)組成的網(wǎng)格點集合的特征融合稱為一階特征融合,次近的相鄰網(wǎng)格點(2個單位網(wǎng)格長度)組成的網(wǎng)格點集合的特征融合稱為二階特征融合。下圖中(a)(b)分別展示了此融合過程。
3.3 擴展區(qū)域映射
這一步主要是為了應對在實際使用中,RPN 給出的 proposal并不總是將完整物體包含在內(nèi)。如下圖:
圖中白色的實線框表示 RPN 給出的候選框,它沒有完全包含所有的網(wǎng)格點。
而作者指出,簡單的擴大候選框的大小,不會帶來提升,甚至降低對小物體檢測的精度(后面有實驗驗證)。
作者認為heatmap的感受野其實是很大的,并不限于候選框內(nèi),所以就干脆直接將heatmap對應的區(qū)域看成候選框覆蓋的區(qū)域兩倍大(如圖中虛線圍起來的區(qū)域)。
這么做的好處是,只需簡單修改網(wǎng)格引導定位中的位置映射公式。即
四、實驗結(jié)果
作者首先研究了算法中網(wǎng)格點數(shù)對精度的影響。如下圖:
相比回歸的方法,Grid R-CNN精度更高,而且隨著點數(shù)增加精度也在提高。
比較AP0.5和AP0.75發(fā)現(xiàn),精度提升主要來自高IoU閾值的情況。
其次,作者實驗了網(wǎng)格點特征融合策略對性能的影響。如下圖:
可見該文提出的特征融合策略是有效的,而且二階特征融合更加有效。
然后,作者實驗了擴展區(qū)域映射對精度的影響。如下圖:
可見,直接擴大候選框區(qū)域的方法傷害了精度,而本文提出的擴展區(qū)域映射(extended region mapping)的方法則使精度有較大的提高(1.2個AP)。
作者又在主流的目標檢測數(shù)據(jù)庫上與state-of-the-art進行了比較。
下圖展示了在Pascal VOC數(shù)據(jù)集上,相比R-FCN、FPN,使用相同骨干網(wǎng)的情況下,精度取得了極大的提升!
在COCO minival數(shù)據(jù)集上的實驗,同樣取得了較大幅度精度提升。
在COCO test-dev數(shù)據(jù)集上也實現(xiàn)了一騎絕塵!如下圖:
與Faster R-CNN相比,發(fā)現(xiàn)精度提升主要來自高IoU閾值的部分,如下圖所示。
所以作者猜測,Grid定位分支也許輕微影響了分類的分支。
下圖是一些目標的定位示例(請點擊大圖查看):
作者最后列出了Grid R-CNN對各目標類別的精度增益,發(fā)現(xiàn)那些矩形和長方形目標(例如鍵盤,筆記本電腦,叉子,火車和冰箱)往往獲得更大的精度增益,而具有圓形性質(zhì)的物體(例如運動球,飛盤,碗,鐘和杯子)則性能下降或獲得較小的增益。
五、總結(jié)
該文反思了目標檢測中的定位問題,提出以覆蓋目標的網(wǎng)格點作為監(jiān)督信息使用全卷積網(wǎng)絡定位網(wǎng)格點的方法,大幅提高了目標定位精度。值得研究目標檢測的朋友學習~
文中沒有提及推斷速度、代碼是否會開源,希望有進一步的消息出來。
目標定位的方法還有什么可挖掘的嗎?
你認為Grid R-CNN會成為Faster R-CNN那樣的傳世經(jīng)典嗎?
-
濾波器
+關注
關注
161文章
7802瀏覽量
178054 -
數(shù)據(jù)庫
+關注
關注
7文章
3798瀏覽量
64370 -
網(wǎng)格
+關注
關注
0文章
139瀏覽量
16015
原文標題:Grid R-CNN解讀:商湯最新目標檢測算法,定位精度超越Faster R-CNN
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論