論文地址:https://arxiv.org/pdf/1501.04587.pdf
摘要
阻礙CNN應用于視覺跟蹤的主要障礙是缺乏適當標記的訓練數(shù)據(jù)。雖然釋放CNN功率的現(xiàn)有應用程序通常需要大量數(shù)百萬的訓練數(shù)據(jù),但是視覺跟蹤應用程序通常在每個視頻的第一幀中僅具有一個標記的示例。我們通過離線預培訓CNN,然后將學到的豐富特征層次結構轉(zhuǎn)移到在線跟蹤來解決此研究問題。 CNN還在在線跟蹤期間進行微調(diào),以適應第一視頻幀中指定的跟蹤目標的外觀。為了適應對象跟蹤的特征,我們首先預先訓練CNN以識別什么是對象,然后生成概率圖而不是生成簡單的類標簽。使用兩個具有挑戰(zhàn)性的開放式基準進行性能評估。
1 簡介
在最近的研究興趣激增中,一些其他計算機視覺任務(例如視覺跟蹤)仍然相對未開發(fā)。我們認為,一個主要原因是缺乏足夠的標記訓練數(shù)據(jù),這些數(shù)據(jù)通常在實現(xiàn)其他應用的突破性表現(xiàn)方面起著非常重要的作用,因為CNN訓練通常以完全監(jiān)督的方式進行。
然而,在視覺跟蹤的情況下,標記的訓練數(shù)據(jù)通常非常有限,通常僅有一個標記的示例作為在每個視頻的第一幀中指定的跟蹤對象。這使得大規(guī)模CNN方法的直接應用變得不可行。在本文中,我們提出了一種可以解決這一挑戰(zhàn)的方法,因此可以將CNN框架引入視覺跟蹤。使用這種方法來實現(xiàn)跟蹤器,我們實現(xiàn)了非常有前途的性能,其性能優(yōu)于最先進的基線跟蹤器超過10%(對于一些定性跟蹤結果,參見圖1)。
雖然視覺跟蹤可以根據(jù)不同的應用在不同的設置中制定,但本文的重點是一次通過無模型的單目標跟蹤設置。具體來說,它假定給出了第一幀中單個對象的邊界框,但沒有其他外觀模型可用。給定這個單獨的(標記的)實例,目標是以在線方式跟蹤對象的移動。因此,該設置涉及基于跟蹤器的可能有噪聲的輸出使跟蹤器適應對象的外觀變化。制定這個問題的另一種方法是作為一個自學成才的單一學習問題,其中單個例子來自前一幀。由于從單個示例學習視覺模型是一個不適定的問題,因此成功的方法將需要使用一些輔助數(shù)據(jù)來學習通用對象特征的不變表示。雖然最近的一些工作也有這種精神,但由于一方面缺乏足夠的訓練數(shù)據(jù)而另一方面所用模型的代表能力有限,所報告的表現(xiàn)不如現(xiàn)有技術水平。通過學習更強大的功能,CNN可以在這里發(fā)揮作用。為了在在線跟蹤期間使用有限的培訓數(shù)據(jù)使其可行,我們離線預先培訓CNN,然后將學習的通用功能轉(zhuǎn)移到在線跟蹤任務。
文獻中報道的第一個深度學習跟蹤器(DLT)基于SDAE網(wǎng)絡。雖然這種方法非常有前途,但與其他最先進的跟蹤器相比,本文中報告的方法的確切實現(xiàn)有兩個限制,阻礙了DLT的跟蹤性能。首先,DLT的預訓練可能不太適合跟蹤應用。用于預訓練的數(shù)據(jù)來自80M Tiny Images數(shù)據(jù)集,每個圖像通過直接從全尺寸圖像下采樣獲得。盡管可以通過學習重建輸入圖像來學習一些通用圖像特征,但是在典型的跟蹤任務中跟蹤的目標是單個對象而不是整個圖像。對跟蹤有效的特征應該能夠?qū)ο笈c非對象(即背景)區(qū)分開,而不僅僅是重建整個圖像。其次,在每個幀中,DLT首先基于先前幀的預測生成目標的候選者或提議,然后將跟蹤視為分類問題。它忽略了邊界框的結構化性質(zhì),因為邊界框或分割結果對應于圖像的區(qū)域,而不僅僅是分類或回歸問題中的簡單標簽或?qū)崝?shù)。之前的一些工作表明,在模型中明確地利用結構化性質(zhì)可以顯著提高性能。此外,提案的數(shù)量通常在幾百個數(shù)量級,因此很難應用更大的深度學習模型。
我們提出了一種新穎的結構化輸出CNN,它傳輸用于在線跟蹤的通用對象特征。我們的論文的貢獻總結如下:
1.為了減輕在線跟蹤過程中的過度擬合和漂移問題,我們預先訓練CNN以區(qū)分對象和非對象,而不是簡單地重建輸入或?qū)哂袑ο蠹壸⑨尩拇笠?guī)模數(shù)據(jù)集進行分類分類。
2.CNN 的輸出是逐像素的映射,以指示輸入圖像中的每個像素屬于對象的邊界框的概率。像素輸出的主要優(yōu)點是其誘導的結構損失和計算可擴展性。
3.我們在開放基準以及具有挑戰(zhàn)性的非剛性物體跟蹤數(shù)據(jù)集上評估我們提出的方法,并獲得非常顯著的結果。特別是,對于開放基準,我們將重疊率曲線的 AUC 度量從0.529改善到0.602。
2 相關工作
3 我們的追蹤器
在本節(jié)中,我們將介紹我們的結構化輸出深度學習跟蹤器( structured output deep learning tracker SO-DLT)。我們首先介紹了SO-DLT中的CNN架構和CNN的離線預訓練過程。然后,我們將介紹在線跟蹤流程的詳細信息。
3.1 概觀
跟蹤器的訓練可分為兩個階段:
1.離線預訓練階段
2.在線微調(diào)和跟蹤階段。
在訓練前階段,我們訓練CNN學習用于區(qū)分對象與非對象的通用對象特征,即,從示例中學習對象的概念。我們不是在在線跟蹤期間修復CNN的學習參數(shù),而是對它們進行微調(diào),以便CNN能夠適應被跟蹤的目標。為了實現(xiàn)穩(wěn)健性,我們在在線跟蹤期間同時運行兩個CNN,以解決模型更新可能導致的錯誤。兩個CNN協(xié)同工作以確定每個視頻幀的跟蹤結果。
3.2 對象性預訓練
結構化輸出CNN的結構如圖2所示。它由七個卷積層和三個完全連接的層組成。在這兩部分之間,引入了多尺度池化以保留與地點相關的更多特征,因為輸出需要它們進行本地化。網(wǎng)絡的參數(shù)設置如圖2所示。與用于分類或回歸的傳統(tǒng)CNN相比,我們的模型存在一個重要的差異:CNN的輸出是50×50概率圖而不是單個數(shù)。每個輸出像素對應于原始輸入中的2×2區(qū)域,其值表示對應的輸入?yún)^(qū)域?qū)儆趯ο蟮母怕省T谖覀兊膶崿F(xiàn)中,輸出層是2500維全連接層,然后將其重新整形為50×50概率圖。由于概率圖的相鄰像素之間存在強相關性,因此我們僅使用前一層中的512個隱藏單元來幫助防止過擬合。
要訓??練如此大的CNN,必須使用大型數(shù)據(jù)集來防止過度擬合。由于我們對對象級功能感興趣,因此我們使用ImageNet 2014檢測數(shù)據(jù)集,其中包含訓練集中的478,807個邊界框。對于每個帶注釋的邊界框,我們在其周圍添加隨機填充和縮放。當正樣本的重疊率(Overlap Rate, OLR)低于某個閾值時,我們還隨機抽樣一些負樣本(negative samples)。請注意,它不會像在典型的分類或檢測任務中那樣學會區(qū)分不同的對象類,因為我們只想學習在此階段區(qū)分對象與非對象。因此,我們在50×50輸出圖的每個位置使用逐元素邏輯回歸模型,并相應地定義損失函數(shù)。對于訓練目標,邊界框內(nèi)的像素設置為1,而外部為0。對于負樣本整個概率圖目標是0。該設置相當于懲罰預測和地面實況之間的不匹配像素的數(shù)量,從而引起更好地適應問題的結構化損失函數(shù)。在數(shù)學上,讓pij表示(i,j)位置的預測,tij是二進制變量表示(i,j)位置的基本事實,我們方法的損失函數(shù)定義為:
\\min {p{i j}} \\sum_{i=1}^{50} \\sum_{j=1}^{50}-\\left(1-t_{i j}\\right) \\log \\left(1-p_{i j}\\right)-t_{i j} \\log \\left(p_{i j}\\right) \\tag{1}
4.1中描述了培訓的詳細參數(shù)。
圖3顯示了在ImageNet 2014檢測任務提供的保持驗證集上測試預訓練的CNN時的一些結果。 在大多數(shù)情況下,CNN可以成功地確定輸入圖像是否包含對象,如果是,則可以準確地定位感興趣的對象。 請注意,由于我們的訓練數(shù)據(jù)的標簽只是邊界框,因此50×50概率圖的輸出也是正方形。 雖然有方法[6]利用邊界框信息來提供弱監(jiān)督并獲得像素分割,但我們認為模型中的概率圖輸出足以用于跟蹤。
3.3 在線跟蹤
如上所述預訓練學習通用對象特征的CNN不能直接用于在線跟蹤,因為ImageNet數(shù)據(jù)的數(shù)據(jù)偏差不同于在線跟蹤期間觀察到的數(shù)據(jù)偏差。此外,如果我們不對CNN進行微調(diào),它將檢測到視頻幀中出現(xiàn)的所有對象,而不僅僅是被跟蹤的對象。因此,必須使用在線跟蹤期間收集的每個視頻的第一幀中的注釋來微調(diào)預訓練的CNN,以確保CNN特定于目標。微調(diào)或在線模型調(diào)整是我們跟蹤器中不可或缺的一部分,而不是僅為了進一步提高跟蹤性能而引入的可選功能。
我們維護兩個使用不同模型更新策略的CNN。在使用第一幀中的注釋進行微調(diào)之后,我們基于前一幀的估計從每個新幀中裁剪一些圖像塊。通過簡單地向前穿過CNN,我們可以獲得每個圖像塊的概率圖。然后通過搜索適當?shù)倪吔缈騺泶_定最終估計。如有必要,將更新兩個CNN。我們在圖4中說明了跟蹤算法的流程。
3.3.1 邊界框確定
當新框架到來時,我們的跟蹤器的第一步是確定目標的最佳位置和比例。我們首先指定可能包含目標的可能區(qū)域,并將區(qū)域送到CNN。接下來,我們根據(jù)概率圖確定邊界框的最可能位置。
**搜索機制:**為目標選擇合適的搜索范圍是一個非常重要的問題。使用太小的搜索區(qū)域使得在快速運動下很容易失去對目標的跟蹤,但是使用太大的搜索區(qū)域可能包括背景中的顯著干擾物。例如,在圖5中,輸出響應變?nèi)酰驗樗阉鲄^(qū)域被放大主要是由于雜亂的背景和附近的另一個人。為了解決這個問題,我們提出了一種用于確定正確邊界框的多尺度搜索方案。首先,所有裁剪區(qū)域都以前一幀的估計為中心。然后,我們開始用最小的比例搜索。如果輸出概率圖上的總和低于閾值(即,目標可能不在該比例中),那么我們進入下一個更大的比例。如果我們無法在所有比例中找到對象,我們會報告目標丟失。
**生成邊界框:**在我們選擇最佳比例后,我們需要為當前幀生成最終邊界框。我們首先確定邊界框的中心,然后估計其相對于前一幀的比例變化。為了確定中心,我們使用基于密度的方法,該方法為相應的概率圖設置閾值τ1,并找到具有高于閾值的所有概率值的邊界框。接下來,通過取τ1的不同值的平均值來估計當前尺度下的邊界框位置。確定中心后,我們需要在相應區(qū)域再次搜索以找到合適的比例。該比例旨在完美地擬合精確的目標區(qū)域。簡單地使用平均置信度(這使得跟蹤器更容易選擇中心區(qū)域具有高置信度)或完全置信度(這使得它更容易選擇整個幀)并不令人滿意。
設P表示輸出概率圖,并且p表示P中的第(i,j)個元素。我們考慮具有左上角(x,y),寬度w和高度h的邊界框。其得分計算為:
c=\\sum_{i=x}^{x+w-1} \\sum_{j=y}^{y+h-1}\\left(p_{i j}-\\epsilon\\right) \\cdot w \\cdot h \\tag{2}
在這里平衡邊界框的比例。我們還重復幾個值并對其結果進行平均以進行穩(wěn)健估計。借助積分圖像可以非常有效地計算置信度。
3.3.2 差分節(jié)奏微調(diào)
視覺跟蹤中的模型更新經(jīng)常面臨兩難選擇。如果跟蹤器更新頻率低,則無法很好地適應外觀變化。但是如果更新太頻繁,不準確的結果可能會影響其性能并導致漂移問題。
我們通過在線跟蹤期間使用兩個CNN來解決這一難題。基本的想法是使一個CNN(CNNS)短期出現(xiàn),而另一個(CNNL)長期出現(xiàn)。首先,兩個CNN都在視頻的第一幀中進行微調(diào)。之后,CNNL保守調(diào)整,而CNNS則積極調(diào)整。通過協(xié)作,CNNS適應戲劇性的外觀變化,而CNNL可以抵御潛在的錯誤。然后由更自信的人確定最終估計。因此,最終的綜合結果對于由遮擋或雜亂背景引起的漂移更加穩(wěn)健。
我們現(xiàn)在提供有關更新策略的更多詳細信息。我們首先觀察到,如果在預測低于閾值時立即更新模型,則模型將很容易受到噪聲結果的影響。另一方面,我們發(fā)現(xiàn)負面例子的質(zhì)量通常非常穩(wěn)定。結果,當存在這樣的負面示例時,CNNS被更新:
\\sum_{i=1}^{50} \\sum_{j=1}^{50} p_{i j}>\\tau_{2} \\tag{3}
這是為了確保應該抑制任何導致CNN起火的背景對象。 這樣做將減少跟蹤器在處理后續(xù)幀時向與跟蹤對象類似的一些負示例漂移的可能性。 相反,除了上述條件外,CNNL只會更新:
\\sum_{i=x}^{x+w-1} \\sum_{j=y}^{y+h-1} p_{i j}>\\tau_{3} \\cdot w \\cdot h \\tag{4}
其中(x,y,w,h)表示當前幀中的輸出目標邊界框。 這意味著我們更保守地更新 CNNL,因為如果我們對當前幀中的結果非常有信心,我們只會更新它。 這樣做可以降低真正目標已經(jīng)漂移到后臺時不正確更新的風險。
在每次更新中,我們都需要收集正面和負面的例子。 我們的抽樣方案如圖5所示。對于正例,我們基于前一幀的估計以四個尺度對它們進行抽樣。 還引入隨機翻譯以消除對中心位置的學習偏差。 至于反面的例子,我們在兩個尺度上在不同方向上圍繞目標裁剪八個非重疊邊界框。 正例的輸出也顯示在圖5中。
在左側(cè),紅色邊界框表示要跟蹤的目標,而其周圍的八個藍色邊框是負面示例。 在右邊,我們在上部顯示了進入CNN的正面例子。 它們用不同的比例和隨機翻譯填充。 下部顯示了對該幀進行微調(diào)后CNN的相應輸出。
4 實驗
在本節(jié)中,我們通過與其他最先進的跟蹤器進行比較,對經(jīng)過驗證的SO-DLT跟蹤器進行了實證驗證。為了公平比較,我們不僅需要一個相當大的基準數(shù)據(jù)集來避免由于數(shù)據(jù)選擇而產(chǎn)生的偏差,而且還應該有一個精心設計的協(xié)議,每個跟蹤器都遵循該協(xié)議。最近的一項工作引入了統(tǒng)一的跟蹤基準,其中包括數(shù)據(jù)集和協(xié)議。我們使用基準數(shù)據(jù)集進行比較研究,并嚴格遵循協(xié)議,為所有測試的視頻序列固定相同的參數(shù)集。如果論文被接受,我們將公開實施。
與CNN相關的部分使用Caffe工具箱實現(xiàn),在線跟蹤包裝器直接在MATLAB中實現(xiàn)。所有實驗都在具有3.40GHz CPU和K40 GPU的臺式計算機上運行。我們未經(jīng)優(yōu)化的代碼的速度約為每秒4到5幀。
對于CNN的預訓練,我們從學習率10-7開始,動量為0.9,并且每5個時期一次降低學習率。我們總共訓練了大約15個時期。請注意,由于我們使用的損失函數(shù)不同,我們的學習率遠低于典型選擇。為了減輕過度擬合,每層使用5×10-4的重量衰減,并且第一完全連接層以0.5的壓差率正規(guī)化。在微調(diào)期間,我們使用較大的學習率2×10-7,動量小于0.5。對于第一幀,我們對每個CNN進行微調(diào)20次。對于后續(xù)幀,我們只對一次迭代進行微調(diào)。
τ1的范圍為0.1至0.7,步長為0.05。將負例的置信度τ2的閾值設定為τ2= 100.將CNNL的更新閾值設定為τ3= 0.8。用于搜索適當比例的歸一化常數(shù)范圍從0.55到0.6,步長為0.025。
5 結論
在本文中,我們利用了傳輸高級特征層次結構進行視覺跟蹤的有效性。 據(jù)我們所知,我們是第一個將大規(guī)模CNN帶入視覺跟蹤領域的公司,并且顯示出對最先進的跟蹤器的顯著改進。 我們提出了一種用于視覺跟蹤的新穎結構化輸出CNN,而不是將跟蹤建模作為提議分類問題。 此外,CNN不是像以前的工作那樣學習重建輸入圖像,而是首先對大規(guī)模的ImageNet檢測數(shù)據(jù)集進行預訓練,以學習定位對象,從而緩解由于缺乏標記訓練而導致的問題。 數(shù)據(jù)。 然后在在線跟蹤過程中傳輸和微調(diào)該對象CNN。 大量實驗驗證了我們的SO-DLT跟蹤器的優(yōu)越性。
學習更多編程知識,請關注我的公眾號:
[代碼的路]
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4771瀏覽量
100719 -
圖像處理
+關注
關注
27文章
1289瀏覽量
56724 -
視覺跟蹤
+關注
關注
0文章
11瀏覽量
8796 -
cnn
+關注
關注
3文章
352瀏覽量
22204 -
SDAE
+關注
關注
0文章
2瀏覽量
1515
發(fā)布評論請先 登錄
相關推薦
評論