對于具有豐富的日常經驗的人類來說,我們可以通過單一的圖像推斷出物體的三維形貌,甚至對從未見過的物體也能夠通過單一視角的圖像對其形狀有八九不離十的感官認知,但這對計算機來說卻是一個巨大的挑戰。目前從單一視圖重物體的三維形貌極大地受到了訓練數據的影響,對于未知物體的重建依然存在著一系列問題。
視覺領域的研究人員認為人類的這種能力來自于對于物體表示的復雜層級關系,通過將圖像映射到表面最終得到物體的體積和形狀信息,利用不同形式的表示來處理形狀不同方面的信息。為了有效的解決這一問題,研究人員提出了一種稱為一般性重建(Generalizable Reconstruction, GenRe)的算法,來捕捉與物體類別無關的形狀先驗特征,并實現了表現良好的單視圖形狀恢復,對于未包含在訓練集內的物體也具有良好的重建效果。
近年來很多計算機視覺和機器學習領域的研究人員探索了從單張二維圖像重建出三維形狀的方法,包括ShapeNet和MarrNet等工作都在這個方向進行了一系列有益的探索,通過學習復雜龐大的數據集與其對應視圖的映射關系來實現2D到3D的映射。三維形狀重建問題可以分解為f(2.5D->3D)&f(2D->2.5D)兩個子過程。
但很多現存的方法卻忽略了一個問題,從2D或者2.5D到3D形狀的映射會涉及復雜但確定的幾何投影過程,如果不為這個映射過程精確建模而簡單地使用神經網絡來近似,會造成過度參數化/過擬合的現象。同時還會忽略這一投影過程中有價值的歸納偏置(inductive biases)。正是由于這兩個因素造成了目前的算法對于未知分類的重建泛化能力不盡如人意。
在這篇文章中,研究人員提出了一種解耦形狀重建幾何投影的過程,來實現對于未知物體更好的外形重建泛化能力。在MarrNet的基礎上,將先前的f(2.5D-3D)的映射解耦成了兩個過程:現充2.5D數據投影到部分的3D模型,再將部分3D模型構建出完整的3D模型,此時f(2.5D->3D)=c(2.5D->3D)&p(2.5D->3D),變成了一個部分三維投影問題和三維體素補全問題的組合。但三維的形狀補全問題卻面臨著嚴重的稀疏性問題,得不到很好的重建效果。
于是研究人員提出了基于球坐標(spherical maps)的三維補全。spherical maps是一種在單位球面上由UV坐標定義的表示,其中坐標點的值表示從這點沿直徑到三維物體表面的最短距離。這種表示結合了2D和3D的特征:其中球面可以看做是2D圖像的一種形式,那么就可以利用神經網絡圖像修復的方法來進行補全;同時其中保留的語義信息可以將它重新投影到3D恢復完整的幾何形狀。這種表示使得我們可以通過可見區域來補全不可見區域,作為實現三維重建的中間步驟。此時上面的步驟就可以轉換為:f(2.5D->3D)=p(S->3D)c(s->s)p(2.5D->S),即2.5D先投影到S表示下,補全后再由S投影到3D。
綜上所述,將單幅圖像重建為三維形貌的模型總共包含了三部分:
首先利用單幅圖像來預測深度圖(2D->2.5D),并將深度圖投影到球表示上(2.5D->S);
隨后利用球面修復網絡來對其中的數據進行補全(s->s),將補全后的數據投影到3D體素表示(s->3D);
最后利用體素精調網絡來進一步提高體素空間中3D形狀的表示。
這一神經網絡只需要為目標的幾何外形建模而無需學習復雜的幾何投影關系。除了這一因素外,還有以下幾點提高了模型的泛化性:
模塊化設計使得模型學習上一模塊給出的特征,避免了模型記住訓練集的形狀。
每個模塊的模型輸入輸出都在同一個域內,保證了更為有效的映射。
下面將具體介紹各個模塊的具體實現過程。
單視角深度估計器
這一模塊可以從干凈背景的輸入圖片估計出深度圖。深度估計是一個與類別無關的任務,使用了自編碼器和U-NET的網絡架構,從256-256的輸入生成了512-1-1的特征圖,并通過對稱的網絡預測出深度圖。
球面修復網絡
通過將3D形狀補全問題轉化為二維球面的修復問題來實現,這對于新類別物體有很好的泛華性,同時也比體素的方法更為高效。球面修復網絡的結構類似深度估計,利用了標準的卷積網絡,但為了適應球面周期性的結構,在訓練目標和輸入上加入了周期性的padding。
體素精煉網絡
在球面修復后投影到體素空間的三維形狀還存在自遮擋問題,還需要通過精煉網絡來改善最終輸出的形狀。通過輸入從球面投影而來的體素表示和直接從深度圖投影而來的體素表示,共同生成最終的結果。
由于遮擋來自于局部的鄰近區域,網絡只需要學習局部的結構先驗,而這也是與物體類別無關的過程。這一模塊的輸入包含了兩通道的128-128-128的三維體素,并輸入320D的隱變量,在解碼時每一個解碼層還接入了對應編碼層的輸出。
模型表現
通過對三部分模塊進行訓練后,研究人員給出了模型對于未知物體的重建表現。首先,利用汽車、椅子和飛機訓練的單視圖深度估計器,在訓練集未包含的物體類別上精度表現良好。
隨后對于訓練集包含和未知的物體,這一算法GenRe也有著良好的表現。可以看到,除了飛機、汽車和椅子外其他都是沒有見過的物體,但依然可以獲得與GT較為接近的結果。
在真實數據上的重建誤差也達到了前沿水平:
最后為了驗證算法的有效性,研究人員利用訓練好的模型對非剛體和高度規則化的幾何體進行了從深度圖到三維外形重建,依然保持了較好的效果。
這篇文章通過將三維形狀補全的工作投影到了二維球面上,使用了二維圖像修復類似的方法來實現三維圖像補全,提高了從單張圖像恢復三維形貌的精度,希望這一工作能對相關領域的研究帶來一些有益的想法。
-
計算機視覺
+關注
關注
8文章
1698瀏覽量
46031 -
機器學習
+關注
關注
66文章
8425瀏覽量
132770 -
二維圖像
+關注
關注
0文章
9瀏覽量
7460
原文標題:MIT研究人員提出新方法,可從單張圖片實現未知物體的三維外形重建
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論