目標(biāo)檢測(cè)介紹
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中最基礎(chǔ)且最具挑戰(zhàn)性的任務(wù)之一,其包含物體分類和定位。它為實(shí)例分割、圖像捕獲、視頻跟蹤等任務(wù)提供了強(qiáng)有力的特 征分類基礎(chǔ)。
傳統(tǒng)的目標(biāo)檢測(cè)方法包括預(yù)處理、區(qū)域提案、特征提取、特征選擇、特征分類和后處理六個(gè)階段,大多數(shù)檢測(cè)模型關(guān)注于物體特征的提取和區(qū)域分類算法的選擇。
Deformable Part?based Model(DPM)算法三次在PASCAL VOC目標(biāo)檢測(cè)競(jìng)賽上獲得冠軍,是傳統(tǒng)目標(biāo)檢測(cè)方法的巔峰之作. 然而在2008年至2012年期間,目標(biāo)檢測(cè)模型在PASCAL VOC數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率逐漸達(dá)到瓶頸. 傳統(tǒng)方法的弊端也展現(xiàn)出來(lái),主要包括:
算法在區(qū)域提案生成階段產(chǎn)生大量冗余的候選框且正負(fù)樣本失衡;
特征提取器如HOG、SIFT等未能充分捕捉圖像的高級(jí)語(yǔ)義特征和上下文內(nèi)容;
傳統(tǒng)檢測(cè)算法分階段進(jìn)行,整體缺乏一種全局優(yōu)化策略
目標(biāo)檢測(cè)數(shù)據(jù)集
目前主流的通用目標(biāo)檢測(cè)數(shù)據(jù)集有PASCAL VOC、ImageNet、MS COCO、Open Images和Objects365。
目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)
當(dāng)前用于評(píng)估檢測(cè)模型的性能指標(biāo)主要有幀率每秒(Frames Per Second,F(xiàn)PS)、準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、平均精度(Average Precision,AP)、平均 精度均值(mean Average Precision,mAP)等。
FPS即每秒識(shí)別圖像的數(shù)量,用于評(píng)估目標(biāo)檢測(cè)模型的檢測(cè)速度;
accuracy是正確預(yù)測(cè)類別的樣本數(shù)占樣本總數(shù)的比例;
precision是預(yù)測(cè)正確的正樣本數(shù)占所有預(yù)測(cè)為正樣本個(gè)數(shù)的比例;
recall是預(yù)測(cè)正確的正樣本數(shù)占所有真實(shí)值為正樣本個(gè)數(shù)的比例;
PR曲線是對(duì)應(yīng)precision和recall構(gòu)成的曲線;
AP是對(duì)不同召回率點(diǎn)上的精確率進(jìn)行平均,在PR曲線圖上表現(xiàn)為 PR 曲線下的面積;
mAP是所有類別AP的平均;
目標(biāo)檢測(cè)模型
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法根據(jù)有無(wú)區(qū)域提案階段劃分為雙階段模型和單階段檢測(cè)模型。
雙階段模型
區(qū)域檢測(cè)模型將目標(biāo)檢測(cè)任務(wù)分為區(qū)域提案生成、特征提取和分類預(yù)測(cè)三個(gè)階段。在區(qū)域提案生成階段,檢測(cè)模型利用搜索算法如選擇性搜索(SelectiveSearch,SS)、EdgeBoxes、區(qū) 域 提 案 網(wǎng) 絡(luò)(Region Proposal Network,RPN) 等在圖像中搜尋可能包含物體的區(qū)域。在特征提取階段,模型利用深度卷積網(wǎng)絡(luò)提取區(qū)域提案中的目標(biāo)特征。在分類預(yù)測(cè)階段,模型從預(yù)定義的類別標(biāo)簽對(duì)區(qū)域提案進(jìn)行分類和邊框信息預(yù)測(cè)。
單階段模型
單階段檢測(cè)模型聯(lián)合區(qū)域提案和分類預(yù)測(cè),輸入整張圖像到卷積神經(jīng)網(wǎng)絡(luò)中提取特征,最后直接輸出目標(biāo)類別和邊框位置信息。這類代表性的方法有:YOLO、SSD和CenterNet等。
目標(biāo)檢測(cè)研究方向
目標(biāo)檢測(cè)方法可分為檢測(cè)部件、數(shù)據(jù)增強(qiáng)、優(yōu)化方法和學(xué)習(xí)策略四個(gè)方面 。其中檢測(cè)部件包含基準(zhǔn)模型和基準(zhǔn)網(wǎng)絡(luò);數(shù)據(jù)增強(qiáng)包含幾何變換、光學(xué)變換等;優(yōu)化方法包含特征圖、上下文模型、邊框優(yōu)化、區(qū)域提案方法、類別不平衡和訓(xùn)練策略六個(gè)方面,學(xué)習(xí)策略涵蓋監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。
特征圖融合
特征圖是圖像經(jīng)過(guò)卷積池化層輸出的結(jié)果,大多數(shù)基準(zhǔn)檢測(cè)模型只在頂層特征圖做預(yù)測(cè),這在很大程度上限制了模型的性能。
多層特征圖單層預(yù)測(cè)模型
分層預(yù)測(cè)模型
結(jié)合多層特征圖多層預(yù)測(cè)模型
上下文信息融合
在物體遮擋、背景信息雜亂或圖像質(zhì)量不佳的情況下,根據(jù)圖像的上下文信息能更有效更精確地檢測(cè)。
全局上下文信息
局部上下文信息
邊框優(yōu)化
當(dāng)前檢測(cè)模型在小目標(biāo)檢測(cè)表現(xiàn)不佳的主要原因是定位錯(cuò)誤偏多,包含定位偏差大和重復(fù)預(yù)測(cè)。
優(yōu)化邊框定位
NMS優(yōu)化
類別不均衡優(yōu)化
類別不平衡的主要矛盾是負(fù)樣本數(shù)遠(yuǎn)多于正樣本數(shù),導(dǎo)致訓(xùn)練的深度模型效率低。
Online Hard Example Mining,OHEM
Focal Loss損失函數(shù)
審核編輯 :李倩
-
算法
+關(guān)注
關(guān)注
23文章
4615瀏覽量
92976 -
目標(biāo)檢測(cè)
+關(guān)注
關(guān)注
0文章
209瀏覽量
15618 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24719
原文標(biāo)題:小白學(xué)CV:目標(biāo)檢測(cè)任務(wù)和模型介紹
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論