論文探討了將連續學習用在視覺定位問題中,從而以增量方式在場景中訓練模型。一般的將深度學習方法與視覺定位相結合,比如利用深度神經網絡從輸入圖像直接回歸相機姿態或者3D場景坐標,這些方法都假設在訓練期間可以獲得所有場景的靜態數據分布,因為如果使用非平穩數據在視覺定位的深度網絡中會導致災難性遺忘,為了解決這個問題,論文提出了一種基于從固定緩沖區存儲和回放圖像的強基線,此外提出了一種新的基于覆蓋分數的采樣方法(Buff-CS),該方法將緩沖過程中的現有采樣策略用于視覺定位問題,實驗結果表明,在具有挑戰性的數據集(7Scenes、12 Scenes、19 Scenes)上,通過結合前一場景,標準緩沖方法得到了改進。
為什么使用連續學習,它與一般的深度學習聯合訓練所有場景數據有何不同?連續學習是不斷從傳入的數據流中學習,在這種設置下,所有場景是依次遇到的,如圖1所示。
與對所有任務進行聯合訓練相比,以連續方式學習任務在樣本和記憶效率方面有幾個好處: 1)在聯合訓練環境中,每次場景發生變化時模型都需要在數據庫中的所有場景上進行重新訓練,即使是沒有發生任何變化的場景。向數據庫中添加新場景還需要模型重新訓練,這會影響可伸縮性,需要將完整的數據集存儲在內存中。 2)連續學習旨在通過僅在改變或新場景和存儲在小緩沖區中的先前場景的圖像上微調模型來降低計算成本,由于僅需要將當前場景的數據與來自先前場景的圖像的小緩沖區一起存儲在存儲器中,因此也降低了存儲器成本。這對于存儲容量受設備限制的移動應用程序更友好。Contributions:1)介紹了視覺定位背景下的連續學習問題。 2)在多個室內數據集上,利用現有的基于緩沖方法創建了一個經驗回放基線。 3)根據場景的3D幾何結構提出一種新的緩沖策略.連續學習:
Buffering:為了防止在訓練時發生災難性遺忘,少量先前的數據存儲在固定大小為B的緩沖區中。當前任務或類的輸入圖像和相應的標簽存儲在緩沖區中,將這個在緩沖區中存儲圖像的過程稱為Img-buff,除了圖像之外還存儲了提供更好的流形結構的中間表示,例如存儲預softmax層邏輯提供了類概率的分布,該類概率對類間語義關系進行編碼。緩沖區存儲中間表示為Rep-buff。Replay:回放是在學習當前任務的同時對緩沖區中存儲的過去場景的樣本進行重新迭代的過程。當前任務樣本和緩沖區B中的任務樣本的最終損失計算如下:
存儲在B中的中間表示可以通過知識蒸餾的過程用作偽標簽。例如來自當前網絡狀態的邏輯被約束為與存儲在緩沖存儲器B中的相應邏輯相似
緩沖算法:緩沖算法決定當前任務中的哪些樣本將被存儲以供將來回放以及緩沖區中存儲的哪些樣本要被替換,算法有兩個階段,第一階段包括填充緩沖區,直到其充滿,然后第二階段決定額外傳入實例的緩沖概率。將連續學習用在視覺定位:本文基于之前提出的一種基于學習的方法,HSC-Net,其在一組參數化的分層網絡層中保持場景的隱式表示,這些分層網絡層預測每個2D像素位置的3D場景坐標,然后使用PnP,2D-3D對應關系用于獲得最終查詢相機姿態估計。在連續學習設置中,場景按順序呈現,對于Img buff,僅將輸入圖像和相應的3D場景坐標y存儲在B中,此外Rep buff存儲了中間聚類級別預測(此為HSCNet中的東西),與分類問題不同,視覺定位在場景或類上是多樣的,并且是獨立的,在特定子場景的圖像上學習定位不會使場景的其他部分通用化,為了在給定場景的所有子場景上保持定位性能,緩沖區需要保持最大化場景覆蓋率的圖像,此論文提出了一種方法去采樣圖像從而提供更好的場景覆蓋率,稱為Buff-CS,即如果與緩沖圖像觀察到的實例相比,傳入的新實例提供了新的場景觀察,則將緩沖概率增加到1,
實驗:數據集為7Scenes、12Scenes,為了以順序的方式評估連續學習方法,論文將單獨的七個場景和十二個場景集成到單個坐標系。 采用了兩種緩沖方法作為基線,即Reservoir和Class-balance。Reservoir旨在從未知大小的輸入流中采樣k個數據實例,其中k是預定義的樣本大小,這種方法保證了單個幀被選擇到緩沖區的概率相同。Class-balance旨在進一步解決在連續學習中的類不平衡問題。此方法使類盡可能保持平衡,同時保留每個類/場景的分布。 在視覺定位的連續學習任務中,單個場景以增量方式被饋送到訓練網絡,也就是說第一場景中的數據被訓練以估計場景坐標,然后訓練權重被用作第二場景的初始化,為了在連續學習設置中訓練HSCNet,在相應場景的訓練完成后,對每個場景的訓練數據進行采樣并存儲在緩沖器中,如前所述,僅緩沖輸入圖像和相應標簽被稱為Img-buff,另外緩沖中間表示被稱為Rep-buff,對于Img-buff將RGB圖像、深度圖和地面真實姿態存儲到緩沖區。對于Rep-buff還存儲了預softmax層邏輯和預測的場景坐標。 表1報告了訓練完成后在所有場景上平均的姿勢準確度和覆蓋得分方面的表現
表3中的平均精度評估了三種方法在完成新任務后對先前任務的性能。表3顯示了平均精度
總結:在多個室內定位數據集上對所提出的方法進行了評估,這些數據集在不同設置下相對于基線表現出更好的或有競爭力的性能。 論文實驗部分可以說是論文的亮點,有時間還是去讀一下論文實驗部分,其有更好的分析。
審核八年級:郭婷
-
神經網絡
+關注
關注
42文章
4773瀏覽量
100877 -
深度學習
+關注
關注
73文章
5506瀏覽量
121260
原文標題:把連續學習的思路用在基于圖像的相機定位問題中( ICCV 2021)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論