摘要
深度網(wǎng)絡在從大量數(shù)據(jù)中學習模式方面表現(xiàn)出色。另一方面,許多幾何視覺任務被指定為優(yōu)化問題。
為了將深度學習和幾何視覺無縫地結合起來,至關重要的是進行端到端的學習和幾何優(yōu)化。
為了實現(xiàn)這一目標,我們提出了BPnP,這是一個新穎的網(wǎng)絡模塊,通過Perspective-nPoints(PnP)求解器反向傳播梯度,以指導神經(jīng)網(wǎng)絡的參數(shù)更新。
基于隱式微分,我們表明一個 "獨立的 "PnP求解器的梯度可以被準確有效地導出,就像優(yōu)化器塊是一個可微分的函數(shù)。
我們通過將BPnP納入一個深度模型來驗證它,該模型可以從訓練數(shù)據(jù)集中學習相機的內(nèi)在因素、相機的外在因素(姿勢)和三維結構。
此外,我們開發(fā)了一個用于物體姿勢估計的端到端可訓練管道,該管道通過將基于特征的熱圖損失與二維-三維重投影誤差相結合,實現(xiàn)了更高的準確性。
由于我們的方法可以擴展到其他優(yōu)化問題,我們的工作有助于以一種原則性的方式實現(xiàn)可學習的幾何視覺。
主要貢獻
我們的主要貢獻是一個名為BPnP的新型網(wǎng)絡模塊,它包含了一個PnP求解器。BPnP通過PnP "層 "反向傳播梯度,以指導神經(jīng)網(wǎng)絡權重的更新,從而利用既定的目標函數(shù)(二維-三維重投影誤差的平方和)和幾何視覺問題的求解器實現(xiàn)端到端的學習。
盡管只結合了一個PnP求解器,我們展示了BPnP如何被用來學習有效的深度特征表征,用于多種幾何視覺任務(姿勢估計、運動結構、相機校準)。
我們還將我們的方法與最先進的幾何視覺任務的方法進行比較。從根本上說,我們的方法是基于隱式微分的。
主要方法
反向傳播的PnP算法: 讓g表示一個 "函數(shù) "形式的PnP求解器
從n個2D-3D的對應關系中返回攝像機的6DOF姿態(tài)y和其內(nèi)部參數(shù)K∈R3×3
其中(xi , zi)是第i個對應關系。讓π(-|y, K)是三維點在圖像平面上的投影變換,姿態(tài)為y,相機本征為K。
從本質(zhì)上講,g的 "評估 "需要解決優(yōu)化問題如下:
ri表示第i對對應關系的重投影誤差。
πi是三維點zi在圖像平面上的投影。
我們的最終目標是將g納入一個可學習的模型中,其中x、z和K可以是一個深度網(wǎng)絡的(中間)輸出。此外,公式(4)的求解器應該被用來參與網(wǎng)絡參數(shù)的學習。為此,我們需要把g當作一個可微調(diào)的函數(shù),這樣它的"梯度 "就可以反向傳播到網(wǎng)絡的其他部分。接下來我們將詳細介紹如何對反向傳播的梯度進行計算。
1. 隱式函數(shù)定理(IFT) 這里簡單公式推導了IFT隱式函數(shù)定理。
IFT允許計算一個函數(shù)g相對于其輸入a的導數(shù),而不需要函數(shù)的明確形式,但有一個函數(shù)f約束a和g(a)。
2. 構造約束函數(shù)f
為了調(diào)用隱式微分的IFT,我們首先需要定義約束函數(shù)f(a, b)。對于我們的問題,我們使用所有四個變量x、y、z和K來構造f。
但我們將f視為一個雙變量函數(shù)f(a, b),其中a在{x, z, K}中取值--取決于要得到的偏導--而b=y(即g的輸出姿勢)。
為了維護約束函數(shù)f(a,b),我們利用了優(yōu)化過程的靜止約束。
在這里,將PnP求解器的目標函數(shù)g表示為:
由于PnP求解器的輸出姿態(tài)y是目標函數(shù)的局部最優(yōu),所以可以通過對目標的一階導數(shù)與y的關系來建立一個靜止約束,即:
給出一個PnP求解器的輸出姿勢y = [y1, ..., ym] T,我們構建f,可以寫為:
3. 前向和反向傳播
我們對g的PnP公式基本上是執(zhí)行最小二乘法(LS)估計,這對離群值(x、z和K的惡劣誤差)并不穩(wěn)健。
另外,我們可以采用一個更穩(wěn)健的目標,如加入M-估計器[56]或使離群值的數(shù)量最大化[15]。
然而,我們的結果表明,LS實際上更合適,因為它對輸入測量中的誤差的敏感性鼓勵學習快速收斂到不產(chǎn)生x、z和K中的異常值的參數(shù)。
相反,一個穩(wěn)健的目標會阻止異常值的誤差信號,導致學習過程不穩(wěn)定。
鑒于(4),解算器的選擇仍然存在。
為了進行隱式微分,我們不需要精確地解決(4),因為cij只是(4)的靜止條件,任何局部最小值都能滿足。
為此,我們采用Levenberg-Marquardt(LM)算法,該算法保證了局部收斂。
作為一種迭代算法,LM在求解(4)時需要初始化y(0)。
我們通過將(1)重寫為:"(1)"來明確這種依賴關系:
在反向傳播中,我們首先構建f,然后得到g相對于其每個輸入的雅可比系數(shù),即:
給出輸出梯度,BPnP返回輸入梯度:
算法流程如下圖所示:
主要結果:
審核編輯:劉清
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4789瀏覽量
101549 -
網(wǎng)絡模塊
+關注
關注
0文章
27瀏覽量
9464 -
求解器
+關注
關注
0文章
78瀏覽量
4593
原文標題:BPnP:基于反向傳播PnP優(yōu)化的端到端可學習幾何視覺
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
基于WiMAX接入技術的端到端網(wǎng)絡架構
反向傳播算法的工作原理

端到端的自動駕駛研發(fā)系統(tǒng)介紹

基于深度神經(jīng)網(wǎng)絡的端到端圖像壓縮方法

基于生成式對抗網(wǎng)絡的端到端圖像去霧模型

結合深度學習的自編碼器端到端物理層優(yōu)化方案
BP(BackPropagation)反向傳播神經(jīng)網(wǎng)絡介紹及公式推導

一種對紅細胞和白細胞圖像分類任務的主動學習端到端工作流程
神經(jīng)網(wǎng)絡反向傳播算法的優(yōu)缺點有哪些
連接視覺語言大模型與端到端自動駕駛

評論