以2014年為分水嶺,作者將過去二十年的目標檢測發展進程分為兩個階段:2014年之前的傳統目標檢測,以及之后基于深度學習的目標檢測。接下來,文章列舉了二十年來目標檢測領域的關鍵技術,思路非常清晰。
過去二十年中與 “ 目標檢測 ” 相關的出版物數量的增長
二十年
在計算機視覺領域中有幾個基本的任務:圖像分類[3]、目標檢測[4]、實例分割[5]及語義分割[6],其中目標檢測作為計算機視覺中最基本的任務在近年來引起了廣泛關注。某種意義上,它在過去二十年內的發展也是計算機視覺發展史的縮影。如果我們將今天基于深度學習的目標檢測技術比作一場“熱兵器革命”,那么回顧20年前的技術時即可窺探“冷兵器”時代的智慧。
目標檢測是一項計算機視覺任務。正如視覺對于人的作用一樣,目標檢測旨在解決計算機視覺應用中兩個最基本的問題:1. 該物體是什么?2. 該物體在哪里?當然,聰明的人可能會立即想到第三個問題:“該物體在干什么?”這即是更進一步的邏輯及認知推理,這一點在近年來的目標檢測技術中也越來越被重視。不管怎樣,作為計算機視覺的基本任務,它也是其他計算機視覺任務的主要成分,如實例分割、圖像字幕、目標跟蹤等。
從應用的角度來看,目標檢測可以被分為兩個研究主題:“ 通用目標檢測(General Object Detection) ”及“檢測應用(Detection Applications)”,前者旨在探索在統一的框架下檢測不同類型物體的方法,以模擬人類的視覺和認知;后者是指特定應用場景下的檢測,如行人檢測、人臉檢測、文本檢測等。
近年來,隨著深度學習技術[7]的快速發展,為目標檢測注入了新鮮血液,取得了顯著的突破,也將其推向了一個前所未有的研究熱點。目前,目標檢測已廣泛應用于自動駕駛、機器人視覺、視頻監控等領域。
二十年間的發展
如下圖所示,以2014年為分水嶺,目標檢測在過去的二十年中可大致分為兩個時期:2014年前的“傳統目標檢測期”及之后的“基于深度學習的目標檢測期”。接下來我們詳細談論兩個時期的發展。
1、傳統檢測
早期的目標檢測算法大多是基于手工特征構建的。由于當時缺乏有效的圖像表示,人們別無選擇,只能設計復雜的特征表示及各種加速技術對有限的計算資源物盡其用。
(1) Viola Jones檢測器
18年前,P. Viola和M. Jones在沒有任何約束(如膚色分割)的情況下首次實現了人臉的實時檢測[8][9]。他們所設計的檢測器在一臺配備700MHz Pentium III CPU的電腦上運行,在保持同等檢測精度的條件下的運算速度是其他算法的數十甚至數百倍。這種檢測算法以共同作者的名字命名為“Viola-Jones (VJ) 檢測器”以紀念他們的重大貢獻。
VJ檢測器采用最直接的檢測方法,即滑動窗口(slide window):查看一張圖像中所有可能的窗口尺寸和位置并判斷是否有窗口包含人臉。這一過程雖然聽上去簡單,但它背后所需的計算量遠遠超出了當時計算機的算力。VJ檢測器結合了 “ 積分圖像 ”、“ 特征選擇 ” 和 “ 檢測級聯 ” 三種重要技術,大大提高了檢測速度。
1)積分圖像:這是一種計算方法,以加快盒濾波或卷積過程。與當時的其他目標檢測算法一樣[10],在VJ檢測器中使用Haar小波作為圖像的特征表示。積分圖像使得VJ檢測器中每個窗口的計算復雜度與其窗口大小無關。
2)特征選擇:作者沒有使用一組手動選擇的Haar基過濾器,而是使用Adaboost算法從一組巨大的隨機特征池 (大約18萬維) 中選擇一組對人臉檢測最有幫助的小特征。
3)檢測級聯:在VJ檢測器中引入了一個多級檢測范例 ( 又稱“檢測級聯”,detection cascades ),通過減少對背景窗口的計算,而增加對人臉目標的計算,從而減少了計算開銷。
(2) HOG 檢測器
方向梯度直方圖(HOG)特征描述器最初是由N. Dalal和B.Triggs在2005年提出的[11]。HOG對當時的尺度不變特征變換(scale-invariant feature transform)和形狀語境(shape contexts)做出重要改進。為了平衡特征不變性 ( 包括平移、尺度、光照等 ) 和非線性 ( 區分不同對象類別 ),HOG描述器被設計為在密集的均勻間隔單元網格(稱為一個“區塊”)上計算,并使用重疊局部對比度歸一化方法來提高精度。雖然HOG可以用來檢測各種對象類,但它的主要目標是行人檢測問題。如若要檢測不同大小的對象,則要讓HOG檢測器在保持檢測窗口大小不變的情況下,對輸入圖像進行多次重設尺寸(rescale)。這么多年來,HOG檢測器一直是許多目標檢測器和各種計算機視覺應用的重要基礎。
方向梯度直方圖(HOG),計算出每個像素朝四周的梯度方向和梯度強度,并統計形成梯度直方圖
(3) 基于可變形部件的模型(DPM)
DPM作為voco -07、-08、-09屆檢測挑戰賽的優勝者,它曾是傳統目標檢測方法的巔峰。DPM最初是由P. Felzenszwalb提出的[12],于2008年作為HOG檢測器的擴展,之后R. Girshick進行了各種改進[13][14]。
DPM遵循“分而治之”的檢測思想,訓練可以簡單地看作是學習一種正確的分解對象的方法,推理可以看作是對不同對象部件的檢測的集合。例如,檢測“汽車”的問題可以看作是檢測它的窗口、車身和車輪。工作的這一部分,也就是“star model”由P.Felzenszwalb等人完成。后來,R. Girshick進一步將star model擴展到 “ 混合模型 ”,以處理更顯著變化下的現實世界中的物體。
一個典型的DPM檢測器由一個根過濾器(root-filter)和一些零件濾波器(part-filters)組成。該方法不需要手動設定零件濾波器的配置(如尺寸和位置),而是在開發了一種弱監督學習方法并使用到了DPM中,所有零件濾波器的配置都可以作為潛在變量自動學習。R. Girshick將這個過程進一步表述為一個多實例學習的特殊案例,同時還應用了“困難負樣本挖掘(hard-negative mining)”、“邊界框回歸”、“語境啟動”等重要技術以提高檢測精度。而為了加快檢測速度,Girshick開發了一種技術,將檢測模型“ 編譯 ”成一個更快的模型,實現了級聯結構,在不犧牲任何精度的情況下實現了超過10倍的加速。
雖然今天的目標探測器在檢測精度方面已經遠遠超過了DPM,但仍然受到DPM的許多有價值的見解的影響,如混合模型、困難負樣本挖掘、邊界框回歸等。2010年,P. Felzenszwalb和R. Girshick被授予PASCAL VOC的 “終身成就獎”。
2、基于卷積神經網絡的雙級檢測器
隨著手動選取特征技術的性能趨于飽和,目標檢測在2010年之后達到了一個平穩的發展期。2012年,卷積神經網絡在世界范圍內重新煥發生機[15]。由于深卷積網絡能夠學習圖像的魯棒性和高層次特征表示,一個自然而然的問題是:我們能否將其應用到目標檢測中?R. Girshick等人在2014年率先打破僵局,提出了具有CNN特征的區域(RCNN)用于目標檢測[16]。從那時起,目標檢測開始以前所未有的速度發展。在深度學習時代,目標檢測可以分為兩類:“雙級檢測(two-stage detection)” 和 “單級檢測(one-stage detection)”,前者將檢測框定為一個“從粗到細 ”的過程,而后者將其定義為“一步到位”。
雙級檢測的發展及各類檢測器的結構[2]
(1) RCNN
RCNN[17]的思路很簡單:它首先通過選擇性搜索來提取一組對象作為“提案(proposal)”并當做對象的候選框。然后將每個提案重新調整成一個固定大小的圖像,再輸入到一個在ImageNet上訓練得到的CNN模型(如AlexNet) 來提取特征。最后,利用線性SVM分類器對每個區域內的目標進行預測,識別目標類別。RCNN在VOC07測試集上有明顯的性能提升,平均精準度 (mean Average Precision,mAP) 從33.7%(DPM-v5) 大幅提高到58.5%。
雖然RCNN已經取得了很大的進步,但它的缺點是顯而易見的:需要在大量重疊的提案上進行冗余的特征計算 (一張圖片超過2000個框),導致檢測速度極慢(使用GPU時每張圖片耗時14秒)。同年晚些時候,有人提出了SPPNet并克服了這個問題。
(2) SPPNet
2014年,K. He等人提出了空間金字塔池化網絡( Spatial Pyramid Pooling Networks,SPPNet)[18]。以前的CNN模型需要固定大小的輸入,例如AlexNet需要224x224圖像。SPPNet的主要貢獻是引入了空間金字塔池化(SPP)層,它使CNN能夠生成固定長度的表示,而不需要重新調節有意義圖像的尺寸。利用SPPNet進行目標檢測時,只對整個圖像進行一次特征映射計算,然后生成任意區域的定長表示以訓練檢測器,避免了卷積特征的重復計算。SPPNet的速度是R-CNN的20多倍,并且沒有犧牲任何檢測精度(VOC07 mAP=59.2%)。
SPPNet雖然有效地提高了檢測速度,但仍然存在一些不足:第一,訓練仍然是多階段的,第二,SPPNet只對其全連接層進行微調,而忽略了之前的所有層。而次年晚些時候出現Fast RCNN并解決了這些問題。
(3)Fast RCNN
2015年,R. Girshick提出了Fast RCNN檢測器[19],這是對R-CNN和SPPNet的進一步改進。Fast RCNN使我們能夠在相同的網絡配置下同時訓練檢測器和邊界框回歸器。在VOC07數據集上,Fast RCNN將mAP從58.5%( RCNN)提高到70.0%,檢測速度是R-CNN的200多倍。
雖然Fast-RCNN成功地融合了R-CNN和SPPNet的優點,但其檢測速度仍然受到提案檢測的限制。然后,一個問題自然而然地出現了:“ 我們能用CNN模型生成對象提案嗎? ” 之后的Faster R-CNN解決了這個問題。
(4) Faster RCNN
2015年,S. Ren等人提出了Faster RCNN檢測器[20],在Fast RCNN之后不久。Faster RCNN 是第一個端到端的,也是第一個接近實時的深度學習檢測器(COCO mAP@.5=42.7%,COCO mAP@[.5,.95]=21.9%, VOC07 mAP=73.2%,VOC12 mAP=70.4%)。Faster RCNN的主要貢獻是引入了區域提案網絡 (RPN)從而允許幾乎所有的cost-free的區域提案。從RCNN到Faster RCNN,一個目標檢測系統中的大部分獨立塊,如提案檢測、特征提取、邊界框回歸等,都已經逐漸集成到一個統一的端到端學習框架中。
雖然Faster RCNN突破了Fast RCNN的速度瓶頸,但是在后續的檢測階段仍然存在計算冗余。后來提出了多種改進方案,包括RFCN和 Light head RCNN。
(5) Feature Pyramid Networks(FPN)
2017年,T.-Y.Lin等人基于Faster RCNN提出了特征金字塔網絡(FPN)[21]。在FPN之前,大多數基于深度學習的檢測器只在網絡的頂層進行檢測。雖然CNN較深層的特征有利于分類識別,但不利于對象的定位。為此,開發了具有橫向連接的自頂向下體系結構,用于在所有級別構建高級語義。由于CNN通過它的正向傳播,自然形成了一個特征金字塔,FPN在檢測各種尺度的目標方面顯示出了巨大的進步。在基礎的Faster RCNN系統中使用FPN骨架可在無任何修飾的條件下在MS-COCO數據集上以單模型實現state-of-the-art 的效果(COCO mAP@.5=59.1%,COCO mAP@[.5,.95]= 36.2%)。FPN現在已經成為許多最新探測器的基本組成部分。
3、基于卷積神經網絡的單級檢測器
單階段檢測的發展及各類檢測器的結構[2]
(1) You Only Look Once (YOLO)
YOLO由R. Joseph等人于2015年提出[22]。它是深度學習時代的第一個單級檢測器。YOLO非常快:YOLO的一個快速版本運行速度為155fps, VOC07 mAP=52.7%,而它的增強版本運行速度為45fps, VOC07 mAP=63.4%, VOC12 mAP=57.9%。YOLO是“ You Only Look Once ” 的縮寫。從它的名字可以看出,作者完全拋棄了之前的“提案檢測+驗證”的檢測范式。相反,它遵循一個完全不同的設計思路:將單個神經網絡應用于整個圖像。該網絡將圖像分割成多個區域,同時預測每個區域的邊界框和概率。后來R. Joseph在 YOLO 的基礎上進行了一系列改進,其中包括以路徑聚合網絡(Path aggregation Network, PAN)取代FPN,定義新的損失函數等,陸續提出了其 v2、v3及v4版本(截止本文的2020年7月,Ultralytics發布了“YOLO v5”,但并沒有得到官方承認),在保持高檢測速度的同時進一步提高了檢測精度。
必須指出的是,盡管與雙級探測器相比YOLO的探測速度有了很大的提高,但它的定位精度有所下降,特別是對于一些小目標而言。YOLO的后續版本及在它之后提出的SSD更關注這個問題。
(2) Single Shot MultiBox Detector (SSD)
SSD由W. Liu等人于2015年提出[23]。這是深度學習時代的第二款單級探測器。SSD的主要貢獻是引入了多參考和多分辨率檢測技術,這大大提高了單級檢測器的檢測精度,特別是對于一些小目標。SSD在檢測速度和準確度上都有優勢(VOC07 mAP=76.8%,VOC12 mAP=74.9%, COCO mAP@.5=46.5%,mAP@[.5,.95]=26.8%,快速版本運行速度為59fps) 。SSD與其他的檢測器的主要區別在于,前者在網絡的不同層檢測不同尺度的對象,而后者僅在其頂層運行檢測。
(3) RetinaNet
單級檢測器有速度快、結構簡單的優點,但在精度上多年來一直落后于雙級檢測器。T.-Y.Lin等人發現了背后的原因,并在2017年提出了RetinaNet[24]。他們的觀點為精度不高的原因是在密集探測器訓練過程中極端的前景-背景階層不平衡(the extreme foreground-background class imbalance)現象。為此,他們在RetinaNet中引入了一個新的損失函數 “ 焦點損失(focal loss)”,通過對標準交叉熵損失的重構,使檢測器在訓練過程中更加關注難分類的樣本。焦損耗使得單級檢測器在保持很高的檢測速度的同時,可以達到與雙級檢測器相當的精度。(COCO mAP@.5=59.1%,mAP@[.5, .95]=39.1% )。
-
視頻監控
+關注
關注
17文章
1711瀏覽量
65015 -
目標檢測
+關注
關注
0文章
209瀏覽量
15616 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
46012
原文標題:綜述:目標檢測二十年
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論