作者:ronghuaiyang
來源:AI公園
導讀
實驗表明,對大型物體賦予更大的權重可以提高所有尺寸物體的檢測分數,從而整體提升目標檢測器的性能(在COCO val 2017數據集上使用InternImage-T模型,小物體檢測精度提高2個百分點,中等物體提高2個百分點,大物體提高4個百分點)。
摘要
目標檢測模型是一類重要的機器學習算法,旨在識別并精確定位圖像或視頻中的物體。然而,由于物體的大小差異以及用于訓練的圖像和標簽的質量,這項任務有時會產生不一致的表現。在本文中,我們強調了大型物體在學習適用于所有尺寸特征的重要性。基于這一發現,我們建議在訓練損失函數中引入一個權重項,該權重項與物體面積大小有關。實驗表明,對大型物體賦予更大的權重可以提高所有尺寸物體的檢測分數,從而整體提升目標檢測器的性能(在COCO val 2017數據集上使用InternImage-T模型,小物體檢測精度提高2個百分點,中等物體提高2個百分點,大物體提高4個百分點)。此外,使用不同模型和數據集進行的額外實驗和消融研究進一步證實了我們的發現的穩健性。
介紹
目標檢測是計算機視覺中的基本任務,在自動駕駛汽車、監控、機器人等領域有著廣泛的應用。自自動圖像處理技術誕生以來,它一直是計算機視覺研究的重點領域之一。卷積神經網絡(CNNs)的興起徹底改變了這一領域,催生了大量的方法,并在檢測精度方面取得了顯著的進步。研究人員提出了多種目標檢測模型的變體,包括單階段檢測器和雙階段檢測器,以提高目標檢測的速度和準確性。此外,諸如注意力機制和無錨點目標檢測等新技術也不斷涌現,進一步提升了現有模型的性能。在本文中,我們將重點放在目標檢測模型及其在圖像中定位物體的基本機制分析上。檢測數據集中通常包含大量的簡單樣本和少量的困難樣本。自動選擇這些困難樣本可以使訓練更加有效和高效。根據選擇困難樣本的標準,不同的數據采樣技術被提出。這些標準包括當前較高的訓練損失、前景/背景比例不平衡、向困難樣本傾斜的IoU不平衡以及類別不平衡。訓練數據集中物體大小分布對檢測性能的影響是文獻中較少探討的主題。常識認為,如果最終目標是在特定大小的物體(如小型物體)上實現最大性能,則在訓練過程中應該更關注這些目標物體。然而,我們的研究表明現實可能與直覺相反,即更多地關注大型物體可以改善所有尺寸物體的檢測性能,包括小型物體。事實上,我們發現對訓練損失的一個簡單調整可以提高各種目標檢測器的性能。目標檢測的損失函數可以分為兩類:分類損失和定位損失。前者用于訓練一個分類頭,用于檢測目標物體,并在多類目標檢測的情況下對其進行分類;后者用于訓練一個回歸頭,以找到目標物體的矩形框。我們建議在總損失計算中包含樣本權重函數,包括分類項(見圖1)。通過對較小物體分配較少的權重而對較大物體分配較多的權重,模型能夠有效地從大小不同的物體中學習。通過實證評估和消融研究,我們驗證了所提出的權重函數的有效性,并展示了其在目標檢測領域推動技術前沿的潛力。我們的貢獻如下:
我們驗證了在大型物體上的學習比在小型物體上的學習能帶來更好的檢測性能。
我們提出了一種簡單的損失重加權方案,更多地關注大型物體,從而在所有物體尺寸上整體提升目標檢測器的性能。
我們分析了哪些目標檢測子任務最能看到性能提升,從而更好地理解損失重加權的影響。
2、相關工作
除了幾何數據增強技術的應用外,多年來,目標檢測器架構中還加入了越來越多的元素來改進不同尺度物體的檢測性能。在本節中,我們將回顧一些我們認為對其影響力或性能重要的模型,主要突出它們處理不同大小物體的方法。接著,我們將重點討論數據增強技術如何用于相同的目標及其局限性。
特征金字塔網絡(FPN)
特征金字塔網絡(FPN)是由Lin等人提出的一種廣泛應用的模塊,旨在解決單一預測輸出對于所有物體尺度的限制問題。具體來說,它提出從骨干卷積網絡的不同層次提取特征,并將其合并回倒置的特征金字塔中。然后,倒置特征金字塔的每一層都有一個專門針對某一特定大小范圍物體的檢測分支。性能的提升可以歸因于在較高分辨率下捕捉語義信息的同時保持較低分辨率下的空間信息。
YOLO
YOLO(You Only Look Once),由Redmon等人提出,是一種基于錨點的實時單階段目標檢測系統,使用單一神經網絡實時直接從輸入圖像預測物體邊界框和類別概率。實現了業界領先的檢測速度和準確度。自問世以來,YOLO經歷了幾次迭代改進。YOLOv2通過引入錨點框增強了原始架構,使模型能夠高效檢測不同長寬比和大小的物體。YOLOv3集成了特征金字塔網絡,使模型能夠有效捕捉多個尺度的物體。YOLOv4采用了CSPDarknet53骨干網絡,提高了模型提取復雜特征的能力。它還集成了PANet模塊,該模塊在網絡的不同層次上執行特征聚合,進一步改進了多尺度物體檢測。YOLOv5是YOLO的PyTorch實現版本,具有實用的質量改進功能,適用于訓練和推理。就性能而言,它與YOLOv4相當。TTFNet
TTFNet源自CenterNet,將物體定義為其邊界框的中心點。它使用關鍵點估計來查找中心點,并回歸到其他所有物體屬性。TTFNet通過在中心像素周圍預測邊界框并使用高斯懲罰加快了CenterNet的訓練速度。考慮了幾種加權方案后,作者發現最佳性能是通過標準化權重然后乘以框面積的對數來實現的。然后,定位損失由批次中存在的所有權重之和進行標準化。受此方法啟發,我們建議也將對數加權應用于其他術語,即定位和分類。其他工作如FCOS研究了邊界框面積對訓練的影響,但據我們所知,還沒有人提出一種針對大物體的加權方案。在FCOS中,所有邊界框內的像素都參與預測,但隨后的損失在整個像素中平均。其后來擴展為FCOS Plus,將學習區域縮小到框內的中心區域。
DETR
DETR(Detection Transformer)引入了一種基于Transformer的目標檢測架構,能夠在一次傳遞中同時預測物體類別及其邊界框坐標。值得注意的是,DETR利用基于集合的全局損失函數,通過集成自注意力機制和位置編碼有效處理可變數量的物體。這使得模型在處理不同數量的物體時表現優異。
InternImage
InternImage由Wang等人提出,是一種大規模基于CNN的基礎模型,通過增加參數數量和訓練數據量來提高性能,類似于視覺變換器(Vision Transformers)。InternImage的核心操作是可變形卷積,這使其能夠捕獲更豐富的上下文信息。此外,InternImage結合了適應性空間聚合,這種聚合由輸入和任務信息條件決定,減少了傳統CNN中常見的嚴格歸納偏置。InternImage在不同數據集上的目標檢測結果得到了改進,并且目前在多項評估指標中排名靠前。正如我們將看到的那樣,通過引入大小依賴的加權項,我們可以進一步提升InternImage的性能。
數據增強數據增強是一種強大的解決方案,可以提升所有尺度物體檢測模型的性能。通過對訓練數據集應用變換,數據增強技術引入了多樣性并擴展了不同尺度物體的表示。諸如隨機縮放、翻轉、旋轉和平移等增強方法使模型能夠學習到穩健的特征,從而準確檢測小物體和大物體。特別是針對小物體設計的數據增強方法,例如隨機補丁復制粘貼和像素級增強,有助于緩解低分辨率細節和有限上下文信息的問題。類似地,那些保留空間上下文并在調整大小或裁剪過程中防止信息丟失的增強方法也有助于處理大物體。然而,需要注意的是,數據增強技術在應對物體大小方面存在局限性。盡管增強可以引入多樣性并擴展物體的表示,但放大物體本身并不會帶來額外的信息。通過增強增大小物體的尺寸可能會提高其可見性,但不會提供原本圖像中不存在的額外上下文細節或特征。另一方面,縮小或調整大物體的大小可能會導致重要信息和細粒度細節的丟失,這可能妨礙準確檢測。對于數據集本身的內容(除了標注錯誤之外),人們關注較少,尤其是物體大小分布對所有尺度檢測性能的影響。在下一節中,我們將強調從大物體中學到的特征對整體物體檢測器性能的重要性。
3、目標尺寸的重要性
諸如COCO這樣的數據集包含各種尺寸的多樣化物體。然而,檢測大物體與小物體相比面臨著不同的挑戰。大物體具有豐富的細節和紋理,這些細節可能需要被解釋或忽略,但通常這些豐富的信息足以識別它們而無需依賴周圍環境。小物體則不同,周圍環境對其解釋具有重要意義。圖2展示了一組沒有或帶有上下文的小物體裁剪圖,以此來說明這一事實。我們傾向于認為小物體檢測主要依賴于骨干網絡的早期階段。然而,這一觀察表明,骨干網絡的后期階段不僅包含了捕捉大物體的特征,還包含用于檢測小物體所需的上下文信息。因此,所有尺寸的物體都需要在網絡骨干的所有層級上具備高質量的特征。我們研究背后的直覺是,擁有各種尺寸的物體有助于在所有尺寸上學習高質量的特征,并且在損失函數中強調大物體的重要性會更好。這一直覺可以通過以下實驗來驗證:給定一個物體檢測器(本例中為YOLO v5 )和一個訓練數據集(COCO),我們首先使用隨機權重初始化模型,并僅使用大物體對其進行預訓練。我們使用了YOLO v5作者在其GitHub倉庫中定義的尺寸范圍,并如表1所示。然后凍結編碼層,并在所有訓練數據上微調模型。我們也重復同樣的過程,但在預訓練時使用小物體和中等物體的數據。訓練和測試的mAP與mAR結果如表2所示。這些實驗的目標是在僅使用大物體或小+中等物體訓練的情況下,觀察所學到的骨干網絡特征對于不同尺寸物體的質量。
我們可以看到,盡管相比數據集中其他物體而言,大物體的數量相對較少,但僅在大物體上預訓練并在整個數據集上微調的模型在所有尺寸上的表現都更優。這意味著較大物體的特征更具通用性,可以用于檢測所有尺寸的物體,包括較小的物體。而在小物體上學到的特征則不那么通用。
另一個有趣的發現是,僅在小物體和中等物體上訓練的網絡在這類物體上的表現不如在整個數據集上訓練的網絡。事實上,即使是使用僅在大物體上預訓練的骨干網絡并在整個數據集上微調的網絡,其在小物體上的檢測性能也更好。這一點突顯了大物體有助于學習適用于所有尺度的更有意義的特征的觀點。
4、方法
4.1 權重項
為了有效利用大尺寸物體來提升模型性能,我們提出在專為物體檢測任務設計的損失函數中加入一個權重項。
例如,我們考慮 YOLO v5 的損失函數。
在每個訓練步驟中,損失是通過對所有批次樣本取平均值得到的。
其中,是批次中的邊界框數量,是批次中邊界框的集合,i 是對單個邊界框的預測,是對應的地面實況。我們修改以加入權重:其中?。這一項旨在在訓練過程中給較大的物體分配更高的權重,從而鼓勵模型更多地從較大物體中學習。另一方面,由于批次中權重的總和是歸一化的,較小的物體對學習的影響會減少。然而,由于對數的緩慢增長意味著任何尺寸的物體在損失函數中都不是可以忽略的。
如第2節所述,加權項(式4)已經在 TTFNet 中使用過。然而,與 TTFNet 將此權重納入其尺寸回歸損失(GIoU)不同,我們在定位損失和分類損失項中都使用了它。我們在第6.1節中通過消融研究對此選擇進行了論證。
在損失函數中包含權重項鼓勵模型優先準確檢測和定位較大物體。這導致更具辨別力的特征和更好的上下文理解,特別是對于較大物體而言。因此,模型也更好地處理較小物體。
此外,權重項有助于解決數據集固有的對較小物體的偏差,通過在訓練過程中顯式地賦予較大物體更多的顯著性來糾正這種偏差。這種偏差校正使模型能夠更有效地從數據集中有限數量的較大物體中學習,縮小小物體和大物體識別之間的性能差距。例如,在表3中,每種物體尺寸的比例表明:
這一比例被用來與這些物體的加權和進行比較
在 COCO 和 NuScenes 數據集上,我們發現 r' 偏向于較大的物體,盡管這些物體的實際比例相對較小。這迫使訓練更加關注大物體,從而在所有尺寸上提升了性能。這就提出了一個問題,即在構建數據集時物體尺寸分布的理想比例是什么,而這可能取決于目標物體及其在不同尺寸下的復雜性。因此,每個數據集可能都有一個不同的最優加權函數。
4.2 權重項對訓練的影響
為了更深入地了解權重項對訓練的影響,我們需要量化每次樣本在訓練中的重要性,損失梯度的大小之和可以很好地衡量這一點。實際上,模型參數在訓練過程中的變化與損失相對于模型參數的梯度大小成正比,即。由于這些梯度存在于高維空間中,任意兩個輸入對應的梯度向量很可能是正交的。因此,三角不等式適用于這種情況。可以作為權重更新的緊密估計。因此,我們可以將?視為每個目標對學習特征影響的度量,并可以通過按目標大小重新分組這些量來觀察不同大小的目標對學習過程的影響。我們計算了大目標的梯度大小之和與小目標的梯度大小之和的比例。其中,?是大目標的集合,?是小目標的集合,而?是在輸入 ?i ?上評估的訓練損失項(在對整個圖像和批次進行縮減之前)。圖 3 展示了在 COCO 數據集上使用 YOLO v5 訓練 100 個周期時,該比例的變化情況,包括使用和未使用所提出的加權項的情況。我們可以看到,在沒有加權項的情況下,小目標和大目標對模型參數的貢獻相當。這表現為?圍繞 1 波動。相反,使用加權項會增加較大目標的影響。這一點通過??在訓練開始時較高(約為 1.8)并在訓練過程中保持大于 1 的值得以體現。
為了進一步研究這種效應,我們在網絡的不同層次上研究了這一行為。YOLO v5 架構基于 7 個 BottleNeckCSP 塊:其中兩個塊構成了骨干網,其余塊則是模型頸部(即 PANet 部分)的主要組件。我們將分析限制在第一個或最后一個 BottleNeckCSP 塊的參數上,并定義如下:其中,是模型中特定 BottleNeckCSP 塊的參數集。圖 4 展示了第一個或最后一個 BottleNeckCSP 塊參數的?變化情況。這為我們提供了關于低級特征和高級特征影響的見解。我們發現,當使用加權函數時,第一個塊受到特別顯著的影響,比例在訓練初期上升至原來的 16 倍,并最終穩定在 4 倍的增長水平。對于最后一層,我們仍然觀察到 ( r_{\text{grad}} ) 的增長,但幅度較小。這表明將訓練重點放在大目標上主要影響的是低級特征,并且在整個訓練過程中都是如此。可以認為這些通用的低級特征在大目標上比在小目標上更具區分性。這些發現揭示了重新加權如何影響訓練,表明低級特征從大目標中受益最多。此外,可以認為將注意力轉向大目標與整體性能提升有關,因為這一現象自最初的訓練周期就開始顯現(這一點將在下一節中討論)。
5、實驗
為了驗證所提出的加權方案的影響,我們在 COCO 和 nuScenes 數據集上對幾種目標檢測器(YOLO V5、InternImage、DETR 和 Mask R-CNN)進行了對比實驗,分別測試啟用和禁用權重項的情況。我們在兩塊 NVIDIA RTX 2080 Ti 上對這些模型進行了訓練,每個數據集訓練 35 個周期,批量大小為 16。對于 InternImage-T 使用了 5 個周期的預熱階段。我們使用了 Adam 優化器并采用余弦退火學習率,YOLO v5 和 Mask R-CNN 的初始最大值為 0.01,而 InternImage-T 和 DETR 的初始最大值為 0.1。驗證檢測的有效 IoU 閾值固定為 0.5,COCO 數據集的置信度閾值為 0.001,nuScenes 數據集的置信度閾值為 0.05。至于數據增強,我們保留了每種方法在其原始論文中定義的數據增強流程。
表 4 展示了這些實驗的平均精度均值(mAP)和平均召回率(mAR)得分。可以看出,所有模型在使用所提出的加權方案后,在各個尺度的目標上都表現出顯著的性能提升。例如,經過修改后的 InternImage-T 達到了 51.2% 的 mAP,而原版為 47.2%,提升了 4 個百分點。我們的基準結果重現了 InternImage 作者的實驗結果,其論文顯示參數數量超過 InternImage-T 一倍的 InternImage-B 在類似訓練條件下僅能達到 48.8% 的 mAP。由于訓練 InternImage-XL 需要昂貴的計算資源,因此我們無法對該模型應用修改,但該模型目前是最先進的。如果能夠訓練這樣的模型,很可能會定義新的技術前沿。盡管這里展示的結果涉及四種不同的卷積神經網絡目標檢測器,但所提出的加權方案較為簡單,可以輕松應用于其他目標檢測模型。
所選示例表明,所提出的修改使得模型能夠檢測出一些原本未被檢測到的目標。例如,在第一行和第三行中,領帶和飛機僅在應用了我們修改的模型中被檢測到。如第一行和第二行所示,邊界框預測也有所改進,兩個模型檢測到的目標在第二列中的邊界框更加精確。
我們還在另一個數據集 NuScenes 上驗證了改進效果。我們使用 InternImage 模型并對比了使用和不使用權重項的性能。表 5 展示了實驗結果。我們觀察到,在加權損失下,分數有輕微提升。圖 6 顯示了隨著訓練周期增加的整體 mAP 變化情況,證明了模型從一開始就受益于對大目標的關注,因為整個訓練過程中的性能始終更優。我們可以看到,從最初幾個周期開始,我們的加權策略平均帶來了近 3 個百分點的提升。這進一步證明了增加大目標的存在有助于引導訓練朝更好的方向發展,并避免陷入更差的局部極小點。這也表明未來對目標加權改進的效果可能在訓練早期就能顯現出來。
6、消融實驗和討論
6.1 損失項的影響
為了進一步研究加權策略對 YOLO v5 損失函數的影響,我們在 COCO 數據集上進行了消融研究。給定模型的總損失函數(公式 2),我們分別對分類損失和檢測損失應用了不同的加權函數。具體來說,我們探索了四種場景:無權重項、僅對分類項應用權重項、僅對檢測項應用權重項以及對所有損失項應用權重項。我們的分析重點在于評估平均精度均值(MAP@50:95)作為一般度量指標以及邊界框中心誤差作為定位度量指標。表 6 展示了各種組合對不同尺度物體 mAP 的影響。由于 mAP 受定位誤差和網絡檢測與正確分類物體能力的影響,我們補充了平均絕對誤差(MAE:預測邊界框中心與真實中心之間的平均 L1 距離)。MAE 僅在水平分量上進行估計。這是因為在垂直和水平 MAE 之間存在高度相關性(見圖 7)。為了減少網絡檢測物體能力的影響,這些結果是在正確檢測的物體集合上計算得出(正確的類別且 IoU > 0.5)。最后,由于 AP@50 對定位誤差不太敏感,我們展示了所有物體的相應結果。結果表明,當僅對分類項添加加權方案時,mAP 略有下降,特別是在小型物體上,盡管 AP50 和 MAE 有所改善。這種現象的確切解釋尚不清楚。然而,當改變的項是檢測項時,mAP、MAE 和 AP50 均有所提高。對于大型物體,MAE 的相對增益更大(30%),表明定位更好。最后,同時對兩個損失項應用加權方案在所有度量指標上表現最佳。與初始結果相比,最大的增益出現在小型目標上,mAP 提升了 12 個百分點(而中等物體提升 3 個百分點,大型物體提升 6 個百分點),MAE 減少了 43%(而中等物體減少了 23%,大型物體減少了 36%)。這表明,考慮到分類和檢測的綜合性方法,并適當分配權重項,對于實現 mAP 分數和邊界框中心誤差的最佳結果至關重要。
6.2 關于選擇 log(w × h)
如前所述,選擇 log(w × h) 的主要目的是增加大尺寸物體在網絡特征學習中的貢獻。我們測試了其他 w × h 的函數,并將其與所提出的函數進行了比較。表 7 在 COCO 數據集上評估了 YOLO v5 的一些樣本加權函數。我們堅持認為該函數應該依賴于物體的面積,并只改變了函數類型(線性、對數、平方根)。雖然 log(w×h) 在此表中表現出最佳結果,但我們認為還需要在這個方向上進行更多的研究和實驗,以識別更好的函數或證明所選的加權函數是否是最佳選擇以獲得更好的性能。6.3 數據集的影響在 COCO 和 NuScenes 這兩個數據集上驗證了性能提升的效果。盡管在這兩個數據集上的性能提升不容忽視,但并不能保證在其他數據集上也能獲得類似的收益。事實上,加權方案相當于人為增加數據集中大尺寸物體的比例,因此如果數據集本身已經具有最優比例,那么加權不會提高性能。然而,本研究的結論是,在構建數據集時,擁有一定比例的大尺寸物體是很重要的,如果沒有,則需要通過加權因子來彌補。影響加權需求的一個方面是每個物體尺寸檢測的難度。對于 COCO 和 NuScenes 數據集,小尺寸物體的檢測得分低于大尺寸物體。由于小尺寸物體更難檢測,因此它們在損失中往往產生更大的誤差,從而導致更高的梯度。加權方案可以看作是對這種行為的一種修正因子。
7、結論
在本文中,我們展示了訓練數據集中包含大尺寸物體有助于學習到在小尺寸和中等尺寸物體上也能取得更好性能的特征。隨后,我們提出了一種簡單的損失重新加權方案,該方案提高了目標檢測器的性能。我們的發現強調了考慮大尺寸物體的重要性,并展示了在增強整體目標檢測性能方面加入加權損失項的潛力。通過實驗和消融研究,我們驗證了所提方法的有效性。我們評估了不同模型和數據集,一致觀察到在所有尺寸上的檢測得分都有所提高。未來的研究可以探討新的策略,明確考慮大尺寸物體對不同尺度檢測準確性的影響。
-
檢測器
+關注
關注
1文章
863瀏覽量
47676 -
目標檢測
+關注
關注
0文章
209瀏覽量
15605 -
機器學習
+關注
關注
66文章
8406瀏覽量
132561
發布評論請先 登錄
相關推薦
評論