主要內容: 論文研究了機器人和自動駕駛車輛應用中的基于神經網絡的相機重定位問題,其解決方案是一種基于CNN的算法直接從單個圖像預測相機姿態(3D平移和3D旋轉),同時網絡提供姿勢的不確定性估計,姿態和不確定性與單個損失函數一起訓練,并在實際測試時與EKF融合,為此提出了一種新的全卷積架構,名為CoordiNet,其中嵌入了一些場景幾何結構。
Contributions:
提出了一種聯合訓練姿態估計和不確定性的方法,其具有可靠的不確定性估計和改進的訓練穩定性。
提出一種新的全卷積架構,它集成了幾何線索,并在所有公共基準上以較大的優勢優于單目最先進的方法。
在幾個大規模數據集上對幾種深度姿態回歸器進行了廣泛的評估,表明論文提出的CoordiNet可以實時(在RTX2080嵌入式GPU上實現ROS的18Hz)用于車輛定位。
論文表明在簡單的EKF中結合可靠的不確定性的姿態預測顯示出了平滑的軌跡并去除了異常值。
網絡架構:
用Coord卷積代替標準2D卷積,Coord卷積是Rosanne Liu等人在NIPS 2018年的論文An intriguing failing of convolutional neural networks and the coordconv solution中提出,Coord卷積在應用卷積之前將包含硬編碼像素坐標的2個附加通道連接到輸入張量,如下圖所示:
使用置信加權平均池(CWAP)而不是全局平均池(GAP),這是受到CWAP在其他應用中成功的啟發,為了將特征圖轉換為單個標量,GAP只需計算特征圖的平均值,CWAP使用附加信道作為置信圖來計算加權平均值,為每個空間位置提供權重,這些權重是根據先前的層激活來預測的,因此可以將此計算與低成本的自注意力機制進行比較。
置信圖的激活掩碼示例如下圖所示。觀察到在劍橋地標的小場景中,無論攝像機的姿勢如何,池化總是突出顯示同一個物體;在較大的場景中,即所有場景中都沒有可見的公共對象,在這種情況下池化會屏蔽出現動態對象的區域。
模型的整個架構如圖2所示,使用兩個解碼器頭從圖像編碼器獲得的潛在表示中預測姿態和不確定性,架構是全卷積的,即解碼器的參數數量不取決于輸入圖像的大小,與使用完全連接層來回歸最終姿態的標準姿態回歸器相比,論文的解碼器包含的參數少了一個數量級。
姿態和異方差不確定性的聯合學習:
結合不確定性估計的定位: 將回歸姿態與學習到的不確定性融合在一起,以過濾出誤差較大部分并獲得平滑且時間一致的軌跡。使用EKF,通過僅向濾波器提供由網絡給出的絕對姿態測量來完成積分,將簡化的對角協方差矩陣∑附加到每個測量值,定義如下:
不確定性校準:在評估其方法時觀察到學習的不確定性往往低估了實際誤差,這是由過擬合造成的,在訓練過程結束時,模型在訓練圖像上表現得非常好,不確定性層學習到了不代表實際誤差的誤差分布,為了減輕這種影響提出了一個兩步訓練程序:將可用的訓練數據分成訓練集和驗證/校準集。首先使用訓練集訓練CoordiNet,然后在凍結所有其他層的同時微調校準集上的不確定性層,這使得能夠校準代表測試條件的示例的不確定性。
實驗: 在多個場景評估CoordiNet。 首先比較了公共數據集上的相關方法;還研究CoordiNet的性能如何隨著數據集的大小而變化,這些數據集比公共數據集大幾個數量級;還證明了一旦CoordiNet與EKF融合,它就可以被認為是在實際任務中可靠定位的一個很好的選擇。 在Oxford Robotcar數據集上實驗結果:
Cambrige Landmarks數據集上實驗結果:
接下來探討CoordiNet在訓練集的數據量與公共基準相比高出一個數量級的情況下,其表現如何,使用dashcam相機在巴黎和上海地區收集了數據
CoordiNet在大面積上優于先前的SOTA姿態回歸器一個數量級,并觀察到使用更大的訓練集后在測試數據上達到亞米精度。將Oxford訓練集從2個序列擴大到15個序列,可以在同一測試序列上將平均誤差從9.56m降低到1.94m,中值誤差從3.55m降低到1.25m。得出結論,通過收集大型圖像數據集并使用CoordiNet作為姿態回歸器,能夠為選定的實際應用實現足夠可靠的定位精度。 接下來研究了將姿態和不確定性被融合到EKF中的實驗:
加上EKF后最終軌跡變得更平滑,運行中的最大誤差也減少了。 通過剔除異常值,與原始姿態相比,EKF減少了大部分時間的平均誤差。結果還表明為了獲得準確度和平滑度之間的最佳權衡,估計好的協方差值至關重要:與固定協方差值和基線版本相比,具有校準協方差的Coordinet+EKF在本實驗中表現最好。
消融研究:
總結: 提出了CoordiNet,一種新的深度神經網絡方法,結合不確定性估計將直接相機姿態回歸模型的精度進一步提高。此外由于不確定性量化和大型訓練集,證明了其方法可以集成在實時車輛定位系統中以便在大型城市環境中進行準確的姿態估計。
審核編輯:劉清
-
解碼器
+關注
關注
9文章
1143瀏覽量
40718 -
機器人
+關注
關注
211文章
28380瀏覽量
206918 -
GAP
+關注
關注
0文章
15瀏覽量
8307 -
自動駕駛
+關注
關注
784文章
13784瀏覽量
166394 -
ROS
+關注
關注
1文章
278瀏覽量
17001
原文標題:WACV 2022|CoordiNet:將不確定性感知和姿態回歸結合用于自動駕駛車輛定位
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論