色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從單張圖像中揭示全局幾何信息:實現高效視覺定位的新途徑

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2024-01-08 14:58 ? 次閱讀

最新SOTA!隱式學習場景幾何信息進行全局定位

1. 論文淺談

全局視覺定位是指利用單張圖像,根據已有的地圖,估計相機的絕對姿態(位置和方向)。這種技術可以應用于機器人和增強/虛擬現實等領域。這篇文章的主要貢獻是提出了一種利用姿態標簽來學習場景的三維幾何信息,并利用幾何信息來估計相機姿態的方法。具體來說,作者設計了一個學習模型,它可以從圖像中預測兩種三維幾何表示(X, Y, Z坐標),一種是相機坐標系下的,另一種是全局坐標系下的。然后,通過將這兩種表示進行剛性對齊,就可以得到與姿態標簽匹配的姿態估計。這種方法還可以引入額外的學習約束,比如最小化兩種三維表示之間的對齊誤差,以及全局三維表示和圖像像素之間的重投影誤差,從而提高定位精度。在推理階段,模型可以實時地從單張圖像中估計出場景的三維幾何信息,并通過對齊得到姿態。作者在三個常用的視覺定位數據集上進行了實驗,進行了消融分析,并證明了他們的方法在所有數據集上都超過了現有的回歸方法的姿態精度,并且可以實時地從單張圖像中估計出場景的三維幾何信息,并通過對齊得到姿態。

56117c42-9a36-11ee-8b88-92fbcf53809c.png

圖1:我們在劍橋地標數據集(醫院場景)的樣本上的視覺定位方案的示意圖。我們的方法只需要一組圖像及其對應的姿態作為訓練的標簽。左側:給定單個圖像,我們的方法估計相機在給定場景中的全局姿態。右側:我們展示了我們方案的中間輸出,這些輸出用于估計姿態。對于輸入圖像,所提出的過程估計兩個點云和一組權重。第一個點云表示相機坐標系中的場景幾何(X,Y,Z 坐標),而第二個點云表示全局坐標系中的場景幾何。這兩個點云及預測的權重用于估計相機的全局姿態。在圖 1 的右側,我們可視化了三個樣本輸入圖像,它們相應的間接估計的 場景表示(點云)和權重。在右上方,我們可以看到只有一個 點云,它對應于三個重疊的點云在全局坐標系中,也是由我們的算法估計的。盡管我們的方法隱式地估計場景在局部和全局參考系中的 點云表示,但它不是一個建圖或 重建算法,而是一個定位算法,隱式地學習和使用 場景幾何。

2. 原文摘要

全局視覺定位是在先前建模的區域中,從單個圖像估計相機的絕對姿態。從單個圖像獲得姿態對于許多機器人和增強/虛擬現實應用具有重要意義。近年來,深度學習計算機視覺領域取得了顯著的進展,促進了許多方法的發展,這些方法直接從輸入圖像中回歸出 自由度姿態。然而,這些方法忽略了基礎場景幾何對于姿態回歸的重要作用。單目重定位面臨的一個主要困難是,可用于監督訓練的數據非常稀少,只有圖像對應的 自由度姿態。為了解決這個問題,我們提出了一種新穎的方法,它能夠利用這些極少的可用標簽(即姿態)來學習場景的 幾何,并利用幾何信息來估計相機的 自由度姿態。我們提出了一種基于學習的方法,它利用這些姿態標簽和剛性配準來學習兩個 場景幾何表示,分別是相機坐標系下的(X,Y,Z)坐標和全局坐標系下的(X,Y,Z)坐標。給定單個圖像,我們的方法可以估計出這兩個 場景表示,然后通過將它們配準來估計出與姿態標簽一致的姿態。這種表達方式使我們能夠引入額外的學習約束,以最小化兩個 場景表示之間的 配準誤差和全局 場景表示與 圖像像素之間的 重投影誤差,從而提高定位精度。在推理階段,我們的模型可以估計出相機和全局坐標系下的 場景幾何,并通過剛性配準它們來實時地獲得姿態。我們在三個公開的視覺定位數據集上評估了我們的方法,進行了消融實驗,并展示了我們的方法在所有數據集上都優于現有的姿態回歸方法的姿態精度。

3. 方法詳解

563f4a32-9a36-11ee-8b88-92fbcf53809c.png

圖2:我們的方法的流程圖。

我們的方法使用全局相機姿態 作為輸入圖像 的監督標簽,來訓練一個深度神經網絡,以學習場景的表示。

為此,我們將定位過程定義為獲取一張圖像作為輸入,生成兩組 點,每組在不同的坐標系統中。第一組是全局參考系中的一組 坐標 。這些是由網絡直接預測的。第二組是相機坐標系中的一組 坐標 。對于后者,網絡預測深度,然后使用內參通過方程(6)進行反向投影以獲得相機坐標系中的 坐標。通過圖像像素坐標,這兩個 點云內在匹配。

使用剛性配準,可以通過對齊兩個點云來估計姿態 。為此,我們利用 Kabsch 算法。它是可微的,無參數的,并以閉式解的形式在單步中獲得解決方案。這使得過程端到端可訓練。

為了考慮預測的不完美性,網絡預測一組權重 ,用于評估每個 對應點對剛性配準的貢獻大小。給定這樣的對應關系,然后應用加權 Kabsch 算法來估計從相機坐標系統到全局坐標系統的相對姿態。給定 個 坐標,該加權最小化目標定義為:

,(1)

可以描述為:平移 通過居中兩個點云來消除姿態的平移部分:

然后通過奇異值分解(SVD)恢復旋轉 和平移 :

我們應用姿態損失以引導剛性配準,以使網絡學習 幾何表示。給定地面真實姿態 ,由旋轉 和平移 組件組成,可以定義一個成本函數來最小化估計分量和地面真實分量之間的差異。我們將損失定義為位置損失和旋轉損失的總和:,(2)其中,,(3)

定義了計算出的平移 與實際平移 之間的位置誤差,且(4)

度量計算出的旋轉 與地面真實旋轉 之間的角度誤差。

通過梯度下降預測的姿態被調整,在訓練過程中,由姿態損失方程(2)引導,以匹配地面真實姿態,從而間接調整兩個幾何表示(3D 云)。所提出的表達方式允許包含額外的約束,這些約束可主動指導從姿態進行隱含 3D 幾何表示的優化。因此,我們引入一致性損失來約束幾何預測根據地面真實姿態對齊。我們首先使用地面真實姿態將相機坐標系中的 3D 點轉換到全局坐標系中。一致性損失測量全局坐標系中的 3D 點 與從相機坐標系轉換的 3D 點 之間的誤差,使用地面真實姿態,我們將其稱為一致性損失。我們將其定義為:

,(5)

而不是直接預測 坐標,我們可以調整網絡以預測深度。給定深度,其形成相機透視圖中的 Z 坐標,給定相機內參,X 和 Y 直接從圖像像素和深度獲得。因此,相機坐標系中的 3D 點 是通過根據方程(6)反投影深度獲得的:

,(6)

其中 、、 和 分別表示同質像素坐標、相機內參矩陣、深度和相應的相機坐標系中的點。

此外,通過利用重投影損失來最小化重新投影全局坐標系中的 3D 坐標與圖像框架中的 2D 圖像像素之間的誤差,以進一步約束全局坐標中的 3D 坐標。其定義為:

,(7)

其中 將點從 3D 全局坐標系投影到圖像坐標系中。

利用姿態標簽和定義的表達方式,我們的方法隱式學習場景的幾何表示。在推理時給定圖像,所提出的方法估計場景的幾何并將其用于姿態計算。

然后總損失是姿態損失、重投影損失和一致性損失的加權組合:

,(8)

其中 、 和 是損失加權因子。

4. 實驗結果

本文在三個常用的視覺定位數據集上進行了實驗,分別是劍橋地標數據集,7場景數據集和12場景數據集。這些數據集包含了不同的場景,如室內、室外、動態、靜態等,以及不同的姿態變化,如旋轉、平移、縮放等。本文使用了兩種評價指標,分別是位置誤差和方向誤差。位置誤差是指估計的相機位置和真實位置之間的歐氏距離,方向誤差是指估計的相機方向和真實方向之間的角度差。實驗結果表明,本文的方法在所有數據集上都超過了現有的回歸方法的姿態精度。并且可以實時地從單張圖像中估計出場景的三維幾何信息,并通過對齊得到姿態。

5662e7c6-9a36-11ee-8b88-92fbcf53809c.png

表I:我們的方法和最先進的定位方法在劍橋地標數據集和7場景數據集上的姿態誤差的比較。

568fa81a-9a36-11ee-8b88-92fbcf53809c.png

表II:我們的方法在劍橋地標數據集、7場景數據集和12場景數據集上的消融實驗結果。

56a8a388-9a36-11ee-8b88-92fbcf53809c.png

表III:不同的過濾方法對我們的方法的姿態精度的影響。

56c448f4-9a36-11ee-8b88-92fbcf53809c.png

圖3:在7Scenes數據集上的預測結果的可視化示例。

5. 結論

我們提出了一種新穎的方法,它可以從單個 RGB 圖像進行全局 6 自由度姿態估計。我們的方法與大多數現有的姿態回歸方法有相同的約束條件,即:從一組圖像姿態對進行訓練,從單個圖像估計姿態,僅保存網絡權重,并在實時內輸出姿態。然而,我們的方法能夠獲得更準確的姿態估計,這是因為我們將幾何信息納入了姿態估計過程中。要實現這一點,我們面臨的挑戰是,如何利用僅給出的標簽(姿態)來學習這種幾何,以及如何在實時內利用幾何來估計姿態。

我們方法的主要創新之處在于,我們使用姿態目標來指導深度神經網絡,通過可微分的剛性配準,學習場景幾何,而不需要在訓練時提供這種幾何的顯式地面真值。我們的方法接收單個圖像作為輸入,并僅使用姿態標簽來隱式地學習場景的幾何表示。這些隱式學習的幾何表示是場景在兩個參考系(全局坐標系和相機坐標系)下的三維坐標(X,Y,Z 坐標)。

我們使用無參數和可微分的剛性配準,通過深度神經網絡傳遞梯度,以調整其權重并持續地學習這些表示,而不需要這些量的顯式地面真值標簽。除了姿態損失之外,我們方法的另一個創新之處在于,它允許引入額外的學習損失,而這在僅進行姿態回歸的定位過程中是不可行的。我們引入了一致性損失,使兩個幾何表示與幾何姿態保持一致,并引入了重投影損失,以將全局坐標下的三維坐標約束到二維圖像像素上。通過大量的實驗,我們展示了我們的方法在定位精度上優于當前最先進的回歸方法,并且可以實時運行。
最后,我們展示了我們的方法可以利用部分標簽(僅位置標簽)來對預訓練模型進行微調,從而改善定位和定向的性能。在未來的工作中,我們希望利用基礎模型生成的嵌入,并將其集成到我們學習的三維表示中,以利用場景語義進行更精確的姿態估計。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100714
  • 視覺定位
    +關注

    關注

    5

    文章

    51

    瀏覽量

    12389

原文標題:最新SOTA!隱式學習場景幾何信息進行全局定位

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于labview機器視覺圖像定位

    大家好,畢業設計做基于labview機器視覺圖像定位系統,打算調用筆記本的攝像頭進行圖像采集,再進行圖像處理,
    發表于 03-31 14:54

    如何通俗理解視覺定位?帶你看懂對極幾何與基本矩陣

    本文為大家介紹對極幾何與基本矩陣這兩個視覺定位原理。對極幾何提到對極幾何,一定是對二幅圖像而言,
    發表于 06-01 08:00

    想設計炫酷的移動機器人?視覺定位設計方案分享給你!

    和可行性。  運動視覺研究的是如何變化場景的一系列不同時刻的圖像中提取出有關場景的目標的形狀、位置和運動信息, 將之應用于移動機器人的導
    發表于 06-01 08:00

    LabVIEW 的Tripod 機器人視覺處理和定位研究

    為對幾何體的識別和抓放過程?利用邊緣提取、濾波去噪、圓心檢測等算法采用LabVIEW視覺模塊及其庫函數進行了圖像的預處理、特征提取以及中心點定位?研究結果表明基于LabVIEW的Tri
    發表于 06-01 06:00

    嵌入式軟件新途徑是什么

    第一章 嵌入式軟件新途徑–組件化設計嵌入式軟件發展趨勢隨著數字家電、汽車電子化等發展,使得人們對嵌入式軟件的需求越來越多,嵌入式軟件變得越來越復雜,且對軟硬件整合設計有強烈的訴求。嵌入式軟件必須在軟
    發表于 11-09 08:26

    幾何校正自動化的相機自動定位方法

    在多投影儀曲面顯示墻幾何校正中需要用數碼相機捕獲圖像反饋信息。為了方便準確地定位到每臺投影儀的投影幕,提出并實現了一種數碼相機自動
    發表于 01-25 14:56 ?17次下載

    主動性維護,降低機房TCO的新途徑

    主動性維護,降低機房TCO的新途徑   信息技術的飛速發展推動著企業信息
    發表于 06-21 08:38 ?878次閱讀

    實現汽車內部照明的新途徑

    實現汽車內部照明的新途徑 如果你有幸擁有或試駕過當今的歐洲豪華汽車,你就可能注意到什么是汽車的“舒適照明”。不僅僅是內部照明,它還包括在不同車內空
    發表于 08-27 10:50 ?554次閱讀

    中國平板顯示產業發展新途徑

    在十年發展,我國借鑒日本、韓國發展TFT-LCD面板制造經驗,探索出中國平板顯示產業發展的新途徑
    發表于 08-16 10:49 ?1057次閱讀

    視覺定位原理:對極幾何與基本矩陣

    本文為大家介紹對極幾何與基本矩陣這兩個視覺定位原理。
    發表于 01-23 10:44 ?6191次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>定位</b>原理:對極<b class='flag-5'>幾何</b>與基本矩陣

    如何使用結合全局信息進行局部圖像灰度擬合模型

    針對局部圖像擬合( LIF)模型對初始輪廓大小、形狀和位置敏感的問題,提出一個結合全局信息的局部圖像灰度擬合模型。首先,構造了一個基于全局
    發表于 12-24 15:53 ?9次下載
    如何使用結合<b class='flag-5'>全局</b><b class='flag-5'>信息</b>進行局部<b class='flag-5'>圖像</b>灰度擬合模型

    融合3D場景幾何信息視覺定位算法

    了大量創新性工作。不久前,視覺定位組提出的融合3D場景幾何信息視覺定位算法被ICRA2020收
    的頭像 發表于 11-13 10:50 ?5007次閱讀
    融合3D場景<b class='flag-5'>幾何</b><b class='flag-5'>信息</b>的<b class='flag-5'>視覺</b><b class='flag-5'>定位</b>算法

    VPLC系列視覺運控一體機實現圖像幾何變換

      機器視覺圖像處理軟件對相機采集的圖像進行縮放/平移/旋轉等操作后,會改變原來采集圖像各區域的空間關系,這類操作就是
    的頭像 發表于 02-16 12:02 ?1284次閱讀
    VPLC系列<b class='flag-5'>視覺</b>運控一體機<b class='flag-5'>實現</b><b class='flag-5'>圖像</b>的<b class='flag-5'>幾何</b>變換

    基于單張RGB圖像定位被遮擋行人設計案例

    基于單張RGB圖像在3D場景空間中定位行人對于各種下游應用至關重要。目前的單目定位方法要么利用行人的包圍盒,要么利用他們身體的可見部分進行定位
    的頭像 發表于 09-08 09:29 ?763次閱讀
    基于<b class='flag-5'>單張</b>RGB<b class='flag-5'>圖像</b><b class='flag-5'>定位</b>被遮擋行人設計案例

    境外SOCKS5代理:安全高效的網絡訪問新途徑

    境外SOCKS5代理作為一種高效、安全的網絡訪問新途徑,正逐漸成為越來越多用戶的選擇。
    的頭像 發表于 10-14 08:12 ?383次閱讀
    主站蜘蛛池模板: 美女扒开腿让男人桶个爽| 黄色直接观看| 国产精品人妻无码77777| 国产精品久久久久久久A片冻果| 国产成人精品综合久久久| 国产人妻精品无码AV在线五十路| 国产中的精品AV一区二区| 久久se精品一区二区国产| 伦 乱真实故事| 日本888 xxxx| 小女生RAPPER入口| 夜夜躁婷婷AV蜜桃视频| 99久久国产综合精品网成人影院| 高龄熟女50P| 精选国产AV精选一区二区三区| 美女被免费喷白浆视频| 桥本有菜护士| 性满足久久久久久久久| 中文无码不卡的岛国片国产片| FREEHDXXXX学生妹| 国产在线亚洲精品观看不卡| 蜜臀AV熟女人妻中文字幕| 色综合a在线| 一本道综合久久免费| gogo亚洲肉体艺术照片9090| 国产精品亚洲电影久久成人影院| 久久精品中文闷骚内射| 日本人69xxx| 一二三四在线观看韩国| z00兽200俄罗斯| 黄色一级毛片免费| 全黄H全肉禁乱公| 亚洲在线成色综合网站| www.伊人| 精品国产福利一区二区在线| 全彩无翼污之邪恶女教师| 野花日本高清在线观看免费吗 | 99精品视频在线观看| 国产成人在线视频网站| 麻豆精品2021最新| 午夜福利合集1000在线|