手机看片福利,一级毛片大全,天美传媒影视mv

最新SOTA！隱式學(xué)習(xí)場景幾何信息進(jìn)行全局定位

1. 論文淺談

全局視覺定位是指利用單張圖像，根據(jù)已有的地圖，估計(jì)相機(jī)的絕對(duì)姿態(tài)（位置和方向）。這種技術(shù)可以應(yīng)用于機(jī)器人和增強(qiáng)/虛擬現(xiàn)實(shí)等領(lǐng)域。這篇文章的主要貢獻(xiàn)是提出了一種利用姿態(tài)標(biāo)簽來學(xué)習(xí)場景的三維幾何信息，并利用幾何信息來估計(jì)相機(jī)姿態(tài)的方法。具體來說，作者設(shè)計(jì)了一個(gè)學(xué)習(xí)模型，它可以從圖像中預(yù)測兩種三維幾何表示（X, Y, Z坐標(biāo)），一種是相機(jī)坐標(biāo)系下的，另一種是全局坐標(biāo)系下的。然后，通過將這兩種表示進(jìn)行剛性對(duì)齊，就可以得到與姿態(tài)標(biāo)簽匹配的姿態(tài)估計(jì)。這種方法還可以引入額外的學(xué)習(xí)約束，比如最小化兩種三維表示之間的對(duì)齊誤差，以及全局三維表示和圖像像素之間的重投影誤差，從而提高定位精度。在推理階段，模型可以實(shí)時(shí)地從單張圖像中估計(jì)出場景的三維幾何信息，并通過對(duì)齊得到姿態(tài)。作者在三個(gè)常用的視覺定位數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，進(jìn)行了消融分析，并證明了他們的方法在所有數(shù)據(jù)集上都超過了現(xiàn)有的回歸方法的姿態(tài)精度，并且可以實(shí)時(shí)地從單張圖像中估計(jì)出場景的三維幾何信息，并通過對(duì)齊得到姿態(tài)。

圖1：我們?cè)趧虻貥?biāo)數(shù)據(jù)集(醫(yī)院場景)的樣本上的視覺定位方案的示意圖。我們的方法只需要一組圖像及其對(duì)應(yīng)的姿態(tài)作為訓(xùn)練的標(biāo)簽。左側(cè)：給定單個(gè)圖像，我們的方法估計(jì)相機(jī)在給定場景中的全局姿態(tài)。右側(cè)：我們展示了我們方案的中間輸出，這些輸出用于估計(jì)姿態(tài)。對(duì)于輸入圖像，所提出的過程估計(jì)兩個(gè)點(diǎn)云和一組權(quán)重。第一個(gè)點(diǎn)云表示相機(jī)坐標(biāo)系中的場景幾何(X，Y，Z 坐標(biāo))，而第二個(gè)點(diǎn)云表示全局坐標(biāo)系中的場景幾何。這兩個(gè)點(diǎn)云及預(yù)測的權(quán)重用于估計(jì)相機(jī)的全局姿態(tài)。在圖 1 的右側(cè)，我們可視化了三個(gè)樣本輸入圖像，它們相應(yīng)的間接估計(jì)的場景表示(點(diǎn)云)和權(quán)重。在右上方，我們可以看到只有一個(gè) 點(diǎn)云，它對(duì)應(yīng)于三個(gè)重疊的點(diǎn)云在全局坐標(biāo)系中，也是由我們的算法估計(jì)的。盡管我們的方法隱式地估計(jì)場景在局部和全局參考系中的點(diǎn)云表示，但它不是一個(gè)建圖或重建算法，而是一個(gè)定位算法，隱式地學(xué)習(xí)和使用場景幾何。

2. 原文摘要

全局視覺定位是在先前建模的區(qū)域中，從單個(gè)圖像估計(jì)相機(jī)的絕對(duì)姿態(tài)。從單個(gè)圖像獲得姿態(tài)對(duì)于許多機(jī)器人和增強(qiáng)/虛擬現(xiàn)實(shí)應(yīng)用具有重要意義。近年來，深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的進(jìn)展，促進(jìn)了許多方法的發(fā)展，這些方法直接從輸入圖像中回歸出自由度姿態(tài)。然而，這些方法忽略了基礎(chǔ)場景幾何對(duì)于姿態(tài)回歸的重要作用。單目重定位面臨的一個(gè)主要困難是，可用于監(jiān)督訓(xùn)練的數(shù)據(jù)非常稀少，只有圖像對(duì)應(yīng)的自由度姿態(tài)。為了解決這個(gè)問題，我們提出了一種新穎的方法，它能夠利用這些極少的可用標(biāo)簽(即姿態(tài))來學(xué)習(xí)場景的幾何，并利用幾何信息來估計(jì)相機(jī)的自由度姿態(tài)。我們提出了一種基于學(xué)習(xí)的方法，它利用這些姿態(tài)標(biāo)簽和剛性配準(zhǔn)來學(xué)習(xí)兩個(gè) 場景幾何表示，分別是相機(jī)坐標(biāo)系下的(X，Y，Z)坐標(biāo)和全局坐標(biāo)系下的(X，Y，Z)坐標(biāo)。給定單個(gè)圖像，我們的方法可以估計(jì)出這兩個(gè) 場景表示，然后通過將它們配準(zhǔn)來估計(jì)出與姿態(tài)標(biāo)簽一致的姿態(tài)。這種表達(dá)方式使我們能夠引入額外的學(xué)習(xí)約束，以最小化兩個(gè) 場景表示之間的配準(zhǔn)誤差和全局場景表示與圖像像素之間的重投影誤差，從而提高定位精度。在推理階段，我們的模型可以估計(jì)出相機(jī)和全局坐標(biāo)系下的場景幾何，并通過剛性配準(zhǔn)它們來實(shí)時(shí)地獲得姿態(tài)。我們?cè)谌齻€(gè)公開的視覺定位數(shù)據(jù)集上評(píng)估了我們的方法，進(jìn)行了消融實(shí)驗(yàn)，并展示了我們的方法在所有數(shù)據(jù)集上都優(yōu)于現(xiàn)有的姿態(tài)回歸方法的姿態(tài)精度。

3. 方法詳解

圖2：我們的方法的流程圖。

我們的方法使用全局相機(jī)姿態(tài) 作為輸入圖像的監(jiān)督標(biāo)簽，來訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)，以學(xué)習(xí)場景的表示。

為此，我們將定位過程定義為獲取一張圖像作為輸入，生成兩組點(diǎn)，每組在不同的坐標(biāo)系統(tǒng)中。第一組是全局參考系中的一組坐標(biāo) 。這些是由網(wǎng)絡(luò)直接預(yù)測的。第二組是相機(jī)坐標(biāo)系中的一組坐標(biāo) 。對(duì)于后者，網(wǎng)絡(luò)預(yù)測深度，然后使用內(nèi)參通過方程(6)進(jìn)行反向投影以獲得相機(jī)坐標(biāo)系中的坐標(biāo)。通過圖像像素坐標(biāo)，這兩個(gè) 點(diǎn)云內(nèi)在匹配。

使用剛性配準(zhǔn)，可以通過對(duì)齊兩個(gè)點(diǎn)云來估計(jì)姿態(tài) 。為此，我們利用 Kabsch 算法。它是可微的，無參數(shù)的，并以閉式解的形式在單步中獲得解決方案。這使得過程端到端可訓(xùn)練。

為了考慮預(yù)測的不完美性，網(wǎng)絡(luò)預(yù)測一組權(quán)重，用于評(píng)估每個(gè) 對(duì)應(yīng)點(diǎn)對(duì)剛性配準(zhǔn)的貢獻(xiàn)大小。給定這樣的對(duì)應(yīng)關(guān)系，然后應(yīng)用加權(quán) Kabsch 算法來估計(jì)從相機(jī)坐標(biāo)系統(tǒng)到全局坐標(biāo)系統(tǒng)的相對(duì)姿態(tài)。給定個(gè) 坐標(biāo)，該加權(quán)最小化目標(biāo)定義為：

，(1)

可以描述為：平移通過居中兩個(gè)點(diǎn)云來消除姿態(tài)的平移部分：。

然后通過奇異值分解(SVD)恢復(fù)旋轉(zhuǎn) 和平移：。

我們應(yīng)用姿態(tài)損失以引導(dǎo)剛性配準(zhǔn)，以使網(wǎng)絡(luò)學(xué)習(xí) 幾何表示。給定地面真實(shí)姿態(tài) ，由旋轉(zhuǎn) 和平移組件組成，可以定義一個(gè)成本函數(shù)來最小化估計(jì)分量和地面真實(shí)分量之間的差異。我們將損失定義為位置損失和旋轉(zhuǎn)損失的總和：，(2)其中,，(3)

定義了計(jì)算出的平移與實(shí)際平移之間的位置誤差，且(4)

度量計(jì)算出的旋轉(zhuǎn) 與地面真實(shí)旋轉(zhuǎn) 之間的角度誤差。

通過梯度下降預(yù)測的姿態(tài)被調(diào)整，在訓(xùn)練過程中，由姿態(tài)損失方程(2)引導(dǎo)，以匹配地面真實(shí)姿態(tài)，從而間接調(diào)整兩個(gè)幾何表示(3D 云)。所提出的表達(dá)方式允許包含額外的約束，這些約束可主動(dòng)指導(dǎo)從姿態(tài)進(jìn)行隱含 3D 幾何表示的優(yōu)化。因此，我們引入一致性損失來約束幾何預(yù)測根據(jù)地面真實(shí)姿態(tài)對(duì)齊。我們首先使用地面真實(shí)姿態(tài)將相機(jī)坐標(biāo)系中的 3D 點(diǎn)轉(zhuǎn)換到全局坐標(biāo)系中。一致性損失測量全局坐標(biāo)系中的 3D 點(diǎn) 與從相機(jī)坐標(biāo)系轉(zhuǎn)換的 3D 點(diǎn) 之間的誤差，使用地面真實(shí)姿態(tài)，我們將其稱為一致性損失。我們將其定義為：

，(5)

而不是直接預(yù)測坐標(biāo)，我們可以調(diào)整網(wǎng)絡(luò)以預(yù)測深度。給定深度，其形成相機(jī)透視圖中的 Z 坐標(biāo)，給定相機(jī)內(nèi)參，X 和 Y 直接從圖像像素和深度獲得。因此，相機(jī)坐標(biāo)系中的 3D 點(diǎn) 是通過根據(jù)方程(6)反投影深度獲得的：

，(6)

其中、、和分別表示同質(zhì)像素坐標(biāo)、相機(jī)內(nèi)參矩陣、深度和相應(yīng)的相機(jī)坐標(biāo)系中的點(diǎn)。

此外，通過利用重投影損失來最小化重新投影全局坐標(biāo)系中的 3D 坐標(biāo)與圖像框架中的 2D 圖像像素之間的誤差，以進(jìn)一步約束全局坐標(biāo)中的 3D 坐標(biāo)。其定義為：

，(7)

其中將點(diǎn)從 3D 全局坐標(biāo)系投影到圖像坐標(biāo)系中。

利用姿態(tài)標(biāo)簽和定義的表達(dá)方式，我們的方法隱式學(xué)習(xí)場景的幾何表示。在推理時(shí)給定圖像，所提出的方法估計(jì)場景的幾何并將其用于姿態(tài)計(jì)算。

然后總損失是姿態(tài)損失、重投影損失和一致性損失的加權(quán)組合：

，(8)

其中、和是損失加權(quán)因子。

4. 實(shí)驗(yàn)結(jié)果

本文在三個(gè)常用的視覺定位數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，分別是劍橋地標(biāo)數(shù)據(jù)集，7場景數(shù)據(jù)集和12場景數(shù)據(jù)集。這些數(shù)據(jù)集包含了不同的場景，如室內(nèi)、室外、動(dòng)態(tài)、靜態(tài)等，以及不同的姿態(tài)變化，如旋轉(zhuǎn)、平移、縮放等。本文使用了兩種評(píng)價(jià)指標(biāo)，分別是位置誤差和方向誤差。位置誤差是指估計(jì)的相機(jī)位置和真實(shí)位置之間的歐氏距離，方向誤差是指估計(jì)的相機(jī)方向和真實(shí)方向之間的角度差。實(shí)驗(yàn)結(jié)果表明，本文的方法在所有數(shù)據(jù)集上都超過了現(xiàn)有的回歸方法的姿態(tài)精度。并且可以實(shí)時(shí)地從單張圖像中估計(jì)出場景的三維幾何信息，并通過對(duì)齊得到姿態(tài)。

表I：我們的方法和最先進(jìn)的定位方法在劍橋地標(biāo)數(shù)據(jù)集和7場景數(shù)據(jù)集上的姿態(tài)誤差的比較。

表II：我們的方法在劍橋地標(biāo)數(shù)據(jù)集、7場景數(shù)據(jù)集和12場景數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果。

表III：不同的過濾方法對(duì)我們的方法的姿態(tài)精度的影響。

圖3：在7Scenes數(shù)據(jù)集上的預(yù)測結(jié)果的可視化示例。

5. 結(jié)論

我們提出了一種新穎的方法，它可以從單個(gè) RGB 圖像進(jìn)行全局 6 自由度姿態(tài)估計(jì)。我們的方法與大多數(shù)現(xiàn)有的姿態(tài)回歸方法有相同的約束條件，即：從一組圖像姿態(tài)對(duì)進(jìn)行訓(xùn)練，從單個(gè)圖像估計(jì)姿態(tài)，僅保存網(wǎng)絡(luò)權(quán)重，并在實(shí)時(shí)內(nèi)輸出姿態(tài)。然而，我們的方法能夠獲得更準(zhǔn)確的姿態(tài)估計(jì)，這是因?yàn)槲覀儗缀涡畔⒓{入了姿態(tài)估計(jì)過程中。要實(shí)現(xiàn)這一點(diǎn)，我們面臨的挑戰(zhàn)是，如何利用僅給出的標(biāo)簽(姿態(tài))來學(xué)習(xí)這種幾何，以及如何在實(shí)時(shí)內(nèi)利用幾何來估計(jì)姿態(tài)。

我們方法的主要?jiǎng)?chuàng)新之處在于，我們使用姿態(tài)目標(biāo)來指導(dǎo)深度神經(jīng)網(wǎng)絡(luò)，通過可微分的剛性配準(zhǔn)，學(xué)習(xí)場景幾何，而不需要在訓(xùn)練時(shí)提供這種幾何的顯式地面真值。我們的方法接收單個(gè)圖像作為輸入，并僅使用姿態(tài)標(biāo)簽來隱式地學(xué)習(xí)場景的幾何表示。這些隱式學(xué)習(xí)的幾何表示是場景在兩個(gè)參考系(全局坐標(biāo)系和相機(jī)坐標(biāo)系)下的三維坐標(biāo)(X，Y，Z 坐標(biāo))。

我們使用無參數(shù)和可微分的剛性配準(zhǔn)，通過深度神經(jīng)網(wǎng)絡(luò)傳遞梯度，以調(diào)整其權(quán)重并持續(xù)地學(xué)習(xí)這些表示，而不需要這些量的顯式地面真值標(biāo)簽。除了姿態(tài)損失之外，我們方法的另一個(gè)創(chuàng)新之處在于，它允許引入額外的學(xué)習(xí)損失，而這在僅進(jìn)行姿態(tài)回歸的定位過程中是不可行的。我們引入了一致性損失，使兩個(gè)幾何表示與幾何姿態(tài)保持一致，并引入了重投影損失，以將全局坐標(biāo)下的三維坐標(biāo)約束到二維圖像像素上。通過大量的實(shí)驗(yàn)，我們展示了我們的方法在定位精度上優(yōu)于當(dāng)前最先進(jìn)的回歸方法，并且可以實(shí)時(shí)運(yùn)行。
最后，我們展示了我們的方法可以利用部分標(biāo)簽(僅位置標(biāo)簽)來對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，從而改善定位和定向的性能。在未來的工作中，我們希望利用基礎(chǔ)模型生成的嵌入，并將其集成到我們學(xué)習(xí)的三維表示中，以利用場景語義進(jìn)行更精確的姿態(tài)估計(jì)。

審核編輯：黃飛

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103824
視覺定位

視覺定位

+關(guān)注

關(guān)注
5

文章
55

瀏覽量
12728

原文標(biāo)題：最新SOTA！隱式學(xué)習(xí)場景幾何信息進(jìn)行全局定位

文章出處：【微信號(hào)：GiantPandaCV，微信公眾號(hào)：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

從單張圖像中揭示全局幾何信息：實(shí)現(xiàn)高效視覺定位的新途徑

評(píng)論

電子發(fā)燒友