引言:
現有的遙感目標檢測模型通常依賴于大量的標記訓練數據,然而由于遙感場景中物體密度較高,因此手工標注所需的時間和金錢成本非常昂貴。主動學習通過有選擇地查詢信息豐富和代表性的未標記樣本,有效降低了數據標注成本。然而,現有的主動學習方法主要適用于類別平衡設置和基于圖像查詢的通用物體檢測任務,而在遙感目標檢測場景中,由于存在長尾類分布和密集小物體,這些方法并不太適用。如圖1所示,相較于通用場景下的物體分布,航空遙感圖像中的目標通常呈現較小、模糊的特點,并且在復雜背景中密集分布。
在本文中,我們提出了一種新穎的遙感目標檢測主動學習方法,旨在有效降低成本。具體而言,在物體采樣中考慮了對象級和圖像級的信息性,以避免冗余和短視的查詢。此外,還結合了一個易于使用的類平衡準則,以支持少數類對象,緩解模型訓練中的長尾類分布問題。我們進一步設計了一個訓練損失,來挖掘未標記圖像區域中的潛在知識。
方法:
使用主動學習進行遙感目標檢測旨在通過從大型未標記數據集中選擇信息量豐富的樣本來降低標注成本,從而訓練一個性能良好的檢測器。該問題由三組數據定義:用于初始化模型的小型完全標記集,用于數據選擇的大型未標記集,以及通過主動學習方法采樣的部分標記集。為了使用最小的標記成本來訓練一個性能良好的檢測器,我們使用采樣函數從中選擇信息最豐富的樣本進行標注,標注后的圖片加入。我們設計了兩個模塊來進行經濟高效的采樣:混合不確定性采樣模塊(MUS)和類別分布平衡采樣(CDB)。方法的整體框架如圖2所示。
混合不確定性采樣:
現有的基于對象的采樣方法主要考慮預測框本身的信息,即類別不確定性或回歸不確定性,但忽視了圖像的空間信息和語義結構。為了解決這個問題,我們提出考慮圖像和對象的不確定性,即結合全局和局部信息以進行更全面的數據評估。
關于圖像不確定性,如果一張圖像中有許多預測對象具有較高的不確定性,那么應該優先選擇該圖像進行采樣。為此,我們評估并聚合模型預測的不確定性值以表示整個圖像的不確定性值。具體而言,對于給定的圖像 ,圖像不確定性 的表達式如下所示:
其中, 表示集合中元素的數量, 是分數閾值。圖像不確定性值 是通過計算圖像中邊界框的平均置信度得到的。只有置信度大于閾值 的邊界框被用于計算平均置信度。當圖像中存在許多置信度較低的預測邊界框時, 值會較高。這是因為圖像中包含了難以區分的對象,導致預測結果不一致且置信度較低。因此,具有較高 值的圖像更有可能包含罕見模式的有用信息,也就更適合進行選擇。
關于對象不確定性,為了在查詢中考慮對象級別的信息,我們使用熵來評估每個預測邊界框的不確定性。具體而言,對象不確定性 的計算如下所示:
其中 是圖像中第 個邊界框在類別上的預測概率。
接下來,我們將圖像不確定性 和對象不確定性 結合起來,得到最終的對象信息分數 。
類別分布平衡采樣:
遙感數據存在類別不平衡的問題,其中罕見類別對模型性能產生嚴重損害。為了解決這個問題,我們提出了一種在主動查詢過程中強調低頻類別的采樣方法。具體而言,我們首先統計標記數據集中的類別分布情況,然后確定標記數據集中的罕見類別。設表示類別對應的對象數量,其中。我們的目標是在采樣階段通過對每個類別施加與成反比的偏好,來更多地查詢罕見的類別對象。采樣偏好的計算方式如下:
首先,根據ak值,我們計算標記集中每個類別的分布概率。然后,我們取其倒數得到類別權重βk,用于采樣過程中的權重調整。接下來,我們使用Softmax函數計算采樣期間預期的類別分布。通過這種方式,我們能夠為不同的類別設定偏好,并在選擇階段有選擇性地查詢罕見類別對象,以提高模型的性能和準確性。
處理部分標記圖像:
為了應對模型訓練過程中存在一些數據集完全標記,而另一些圖像數據集僅部分標記的情況,我們采用了不同的訓練損失函數來處理這兩個集合。對于完全標記的數據集,我們沿用了檢測器的默認訓練損失函數;而對于部分標記的數據集,我們則采用了自定義的損失函數,以有效地挖掘圖像中未標記區域的潛在知識。
具體來說,部分標記的圖像在模型訓練時會給分類損失中的負樣本損失引入噪聲,因為圖像中的某些對象可能沒有被標記并被視為負樣本。為了解決這個問題,我們提出了一種自適應權重損失函數,用來處理分類損失中的負樣本損失。該方法基于每個負樣本的預測背景分數來調整其對應的分類損失權重。這種方法可以有效地抑制模型對于具有低背景分數的負樣本(通常是前景對象)的分類損失。定義如下:
?包含分類損失(前兩項)和框回歸損失(最后一項)。其中,i和j是一個小批量中圖像和區域提案的索引,W代表著參與訓練的區域提案數。 和 是指示函數,用于表示圖像是否是部分標記或完全標記。用于表示區域提案是否是正樣本(即包含對象)。為了實現穩健的學習,引入了參數來降低背景對象的分類損失權重。
實驗:
1、與其他主動學習方法比較
我們在四個遙感檢測器(包括兩個單階段遙感檢測器:KLD和SASM,以及兩個雙階段遙感檢測器:ReDet和Oriented R-CNN)以及兩個數據集(DOTA-v1.0和DOTA-v2.0)上進行了性能比較。我們使用mAP作為比較指標。實驗結果如表I所示。通過在多個檢測器上進行的實驗證明了所提出的MUS-CDB方法的有效性和通用性。該方法可以輕松地集成到各種目標檢測框架中,并有助于提高不同應用中的目標檢測模型性能。
熵采樣僅在采樣過程中考慮目標級別的信息,而混合不確定性采樣則綜合考慮目標級別和圖像級別的信息。為了驗證混合采樣的有效性,我們進行了兩種采樣方法的性能比較。
2、消融實驗
為了證明我們提出的兩個采樣模塊的有效性,我們進行了如下的消融實驗??梢钥吹讲淮_定性采樣(MUS)和類別分布平衡采樣(DUS)兩個模塊都可以有效提升模型性能。兩者結合的二階段采樣可以更好的平衡采樣結果的多樣性和代表性。
我們還做消融實驗證明了自適應損失函數的有效性。(1)代表使用默認的損失函數,(2)代表使用提出的改進損失。
結論:
在本文中,我們提出了一種名為MUS-CDB的基于對象的主動學習方法,旨在減輕遙感目標檢測數據注釋所帶來的巨大負擔。我們在采樣過程中設計了一種基于圖像和對象的混合不確定性采樣模塊,以選擇信息最豐富的實例進行標注??紤]到遙感圖像數據集中的長尾問題,我們在采樣過程中引入了類別偏好的策略,以促進所選對象的多樣性。此外,我們還提出了一種針對部分標記數據的有效訓練方法,以充分利用主動查詢所獲取的知識。
-
遙感
+關注
關注
0文章
245瀏覽量
16816 -
目標檢測
+關注
關注
0文章
209瀏覽量
15605 -
數據集
+關注
關注
4文章
1208瀏覽量
24689
原文標題:遙感頂刊TGRS 2023!MUS-CDB:遙感目標檢測中的主動標注的具有類分布平衡的混合不確定性采樣
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論