一、開源
MogFace: Towards a Deeper Appreciation on Face Detection
1. 論文鏈接:
https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_MogFace_Towards_a_Deeper_Appreciation_on_Face_Detection_CVPR_2022_paper.pdf
2. 代碼模型:
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
3. 可玩應用:
https://modelscope.cn/studios/baigui/face_album/summary
二、背景
人臉檢測算法是在一幅圖片或者視頻序列中檢測出來人臉的位置,給出人臉的具體坐標,一般是矩形坐標。它是人臉關鍵點、屬性、編輯、風格化、識別等模塊的基礎。本文通過實驗觀察發現,對應設計出如下三個模塊構建出一個高性能的人臉檢測器MogFace:1.)動態標簽分配策略(dynamic label assignment),2.)誤檢上下文相關性分析(FP context analysis),3.)金字塔層級監督信號分配(pyramid layer level GT assignment)。該方法的模型在WIDER FACE榜單上取得了截止目前將近兩年的六項第一。
三、觀察
1.1 動態標簽分配策略(dynamic label assignment)
為每個anchor點定義cls和reg目標是訓練檢測器的必要過程,在人臉檢測中這個過程稱之為標簽分配(Label Assignment)。最近,標簽分配吸引了諸多研究人員的注意,在人臉檢測及通用物體檢測領域提出了一系列方法,例如:OTA、PAA,ATSS以及HAMBox。如示例圖(a),標簽分配過程依賴4個元素。分別是:1.)offline information: a.)IoU (anchor與ground-truth框的IoU) , b.)CPD (anchor與ground-truth中心點的距離) ,2.)online information: a.)PCS (cls分支對anchor的前景分類概率值) ,b.)PLC (reg分支對anchor的預測坐標值)。
但是,目前的標簽分配方法存在三個問題。1.)若只用offline information做靜態標簽分配,那么會有很多具備更強回歸能力的negative anchor無法被有效利用起來,會導致標簽分配策略欠飽和。2.)若過度信任online information動態調整正負anchor時(如OTA和Hambox),由于online information屬于預測信息可信度不高,會導致標簽分配策略錯誤多, 極端情況下會陷入trivial 的分配結果。3.) 若引入大量超參 (K in ATSS, alpha in OTA)做標簽分配,則當數據集分布發生變化時,需要大量的調參時間。
1.2 誤檢上下文相關性分析(FP context analysis)
在實際應用中,人臉檢測器并不會十分care AP的指標,而對誤檢(false positive [FP])的數量十分敏感。針對這個問題,目前的做法是收集大量帶有FP的圖片去fine-tune或者from scratch訓練檢測器,來幫助檢測器了解更多范式的FP,但是我們發現有些頻繁出現在訓練集中的的FP在這種策略下無法有效解決。這篇文章,我們發現了一個有趣的現象:對于同一個FP,當它的context發生變化時,對于同一個檢測器來說它可能就不是FP了。如下圖(c),最左面的圖片里日歷是FP,剩余兩張日歷都不是FP。
1.3 金字塔層級監督信號分配(pyramid layer level GT assignment)
scale-level 數據增強策略常常作通用物體檢測以及人臉檢測中解決scale variance主要手段。如圖(b)所示,相對于COCO,人臉檢測數據集Wider Face 中人臉的尺度分布更為嚴峻。為此,我們分提出了一個新的問題,如何合理的分配ground-truth 在不同pyramidlayer上的分布?即檢測器的性能與每個pyramidlayer匹配ground-truth的個數之間的關系是什么?是否越多越好?通過嚴格的對比實驗我們發現:“對于所有的pyramid layer來說,并不是這個pyramid layer匹配到越多的ground-truth就越好”。這說明要挖掘每一個pyramidlayer的最好性能,需要控制在這個pyramidlayer上的ground-truth分配的比例。
四、方法
2.1 Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)
針對上述“動態標簽分配策略(dynamic label assignment)”觀察分析,本文提出了在里面一種自適應的在線增量錨挖掘策略(Ali-AMS),它基于standard anchor matching 策略,并進一步adaptive 幫助outlier face匹配anchor。如下:
2.2 Hierachical Context-Aware Module (HCAM)
基于上述“誤檢上下文相關性分析(FP context analysis)”觀察分析,發現“對于同一個FP,當它的context發生變化時,對于同一個檢測器來說他可能就不是FP了”,我們進一步提出了一個two-step的模塊來顯示的encode context 信息來幫助區分FP和TP,顯著減少了FP的數量。
2.3 Selective Scale Enhancement Strategy (SSE)
基于上述的“金字塔層級監督信號分配(pyramid layer level GT assignment)”觀察分析,發現“對于所有的pyramid layer來說,并不是這個pyramid layer匹配到越多的ground-truth就越好”,我們提出通過控制pyramid layer 匹配的ground-truth的數量來最大化pyramid layer 的性能。
五、實驗
3.1 Ablation Study
3.2 Comparison with sota
審核編輯 :李倩
-
模塊
+關注
關注
7文章
2718瀏覽量
47560 -
檢測器
+關注
關注
1文章
866瀏覽量
47720 -
檢測算法
+關注
關注
0文章
119瀏覽量
25226
原文標題:WIDER FACE六項第一!阿里達摩院提出MogFace:人臉檢測新工作 | CVPR 2022
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論