1. 文章摘要與主要貢獻
從一張圖片中推斷出具有合理形狀和外觀的物體是一個具有挑戰性的問題。現有的研究往往更多地關注點云生成網絡的結構,而忽略了二維圖像的特征提取,減少了網絡中特征傳播過程中的損失。本文提出了一種單級單視圖三維點云重建網絡3D SSRecNet。所提出的3D SSRecNet是一個簡單的單級網絡,由2D圖像特征提取網絡和點云預測網絡組成。單級網絡結構可以減少提取的2D圖像特征的丟失。二維圖像特征提取網絡以DetNet為骨干。DetNet可以從2D圖像中提取更多細節。
為了生成形狀和外觀更好的點云,在點云預測網絡中,使用ELU作為激活函數,并使用CD和EMD的聯合函數作為3D SSRecNet的損失函數。為了驗證3D SSRecNet的有效性,該文在ShapeNet和Pix3D數據集上進行了一系列實驗。CD和EMD測量的實驗結果表明,3D SSRecNet優于最先進的重建方法。
該文工作的主要貢獻如下:
- 該文提出了一種用于從單個圖像進行3D重建的單階段神經網絡,即3D SSRecNet。3D SSRecNet將圖像作為輸入,并直接輸出預測的點云,而無需進一步處理。
- 3D SSRecNet包括特征提取和三維點云生成。特征提取網絡更善于提取2D輸入的詳細特征。點云生成網絡具有簡單的結構,并在其多層感知器中使用適當的激活函數,這減少了轉發傳播過程中的特征損失,以獲得精細的輸出。
- 在ShapeNet和pix3D數據集上的實驗表明,3D SSRecNet在單視圖重建任務上優于現有技術的重建方法。同時,該文還通過實驗證明了點云生成網絡激活函數的有效性。
**2. **研究方法
2.1 3D-SSRecNet的結構
3D SSRecNet的體系結構如圖1所示。3D SSRecNet包括兩個主要部分:二維圖像特征提取網絡和點云預測網絡。這兩個部分構成了一個簡單的單階段點云重建網絡。單階段網絡結構僅在3D SSRecNet的網絡內傳輸2D圖片的特征。與需要跨網絡傳輸特征的兩階段重建網絡相比,這種網絡結構減少了特征的損失。
圖 1 3D-SSRecNet框架—architecture of 3D-SSRecNet.
給定一個2D圖像,首先,該文通過DetNet獲得一個潛在的表示V。然后,該文通過全連接(FC)層將V映射到低維特征V’。然后直接應用多層感知器(MLP)對點集進行預測。在訓練過程中,計算倒角距離和推土機的距離損失函數,并監督可訓練參數的更新。
2.2 二維圖像特征提取
許多圖像特征網絡應用下采樣,帶來了更高的感受野,但不可避免地造成了圖像細節的損失。然而,對于重建,圖像細節對于幾何形狀的恢復至關重要。這種網絡更適合圖像分類任務,但不適合需要更詳細特征的重建任務。
DetNet不僅保留了更多的細節,而且保留了很大的感受野。盡管DetNet是為物體檢測而設計的,但其新穎的擴張瓶頸結構提供了高分辨率的特征圖和大的感受野。該文使用DetNet作為圖像特征提取的主干。DetNet在階段4之前遵循與ResNet-50相同的結構,因此DetNet還具有易于訓練且不會陷入梯度消失的優點。表1顯示了DetNet最后兩個階段的參數,即DetNet和ResNet-50之間的差異。
在第4階段之后,DetNet將特征圖的大小保持在16×16,這使得能夠保留更多細節。DetNet的第五和第六階段由具有擴張卷積的瓶頸組成,一些瓶頸在其快捷連接上具有1×1卷積。擴大的卷積增加了感受野。然而,考慮到計算量和存儲量,階段5和階段6設置相同的通道數256。在基線結束時,將應用完全連接的圖層。
表 1 DetNet最后兩個階段的參數—the parameters of last two stages DetNet.
如圖1所示,在對輸入圖像進行特征提取后,該文獲得了輸入圖像的1000維潛在特征V。之后,全連接(FC)層將向量V的維度從1000壓縮到100,并獲得向量V’。
2.3 點云預測
該文使用三層MLP來直接預測點集。三個MLP層的輸出尺寸分別為512、1024和N×3。特征提取網絡的輸出:向量V'被饋送到點云預測網絡的MLP中。在前兩層上,引入ELU作為激活函數。
ELU激活函數及其導數的曲線分別如圖2a、b所示。對于常見的激活函數,如ReLU,對應于負軸的值為0。然而,標準化的點云坐標間隔為[-1,1],這表明點云坐標將具有負值。如圖2a所示,ELU激活函數的負軸對應的值為非零。因此,使用ELU作為激活函數,重建網絡中的負值信息在前向傳播過程中不會丟失。如圖3b所示,ELU的導數在負軸上也是非零的。在網絡的反向傳播過程中,負梯度不會丟失,它可以幫助更新網絡權重。
(a)激活函數ELU曲線 (b) ELU導數曲線
Curve of activation function ELU Curve of derivative of ELU
圖 2 ELU激活函數及其導數—ELU activation function and its derivative
圖 3 具有相同CD損失值的不同重建—different reconstructions with the same CD loss value
在實驗部分,該文證明了使用ELU作為激活函數的重建效果優于使用其他激活函數。該文在最后一個激活層之后直接輸出預測的點集。它由tanh函數實現,其輸出屬于[-1,1],與所需的點集數據相同。
2.4 損失函數
定義點云重建的損失函數。該文必須考慮兩個重要的性質。(1)點云是一個無序的點集,因此無論該文如何改變點的順序,該文都將獲得相同的數據。(2)無論任何旋轉變換,真實物體的幾何特征均不得發生顯著變化。然而,例如,當該文進行旋轉變換時,點坐標似乎不同。
CD定義如下:
EMD定義如下:
綜合CD和EMD的優缺點,該文的網絡的損失函數定義為:
3. 實驗過程 ****
該文分別在ShapeNet和Pix3D數據集上評估了所提出的3D SSRecNet。ShapeNet是一個紋理CAD模型的大集合,由13個類和43809個點云模型組成,用于訓練和測試。該文使用80–20%的訓練/測試分割來執行該文的實驗。該文在Pix3D數據庫上進行了同樣的實驗。Pix3D數據庫由三個類和7595個點云模型組成。該數據集是真實場景的CAD模型。在Pix3D上的實驗可以更好地評估點云重建算法的實用性。
該文使用梯度優化算法Adam來優化所提出的3DSSRecNet。在訓練中,該文將學習率設置為0.0005,將歷元設置為50。訓練環境如下:Ubuntu 18.04.6,CUDA 10.1,GPU型號為NVIDIA Tesla T4×4。該文使用在1024個采樣點上計算的CD和EMD值來評估重建點云的質量。
表 2 ShapeNet數據集上不同激活函數的重構結果—reconstruction results of different activation functions on ShapeNet dataset.
表 3 CD評估的ShapeNet重建結果—reconstruction results on ShapeNet evaluated by CD
表 4 EMD評估的ShapeNet重建結果—reconstruction results on ShapeNet evaluated by EMD
**4. **文章結論
本文提出了一種高效的三維點云重建方法3DSSRecNet。給定圖像,它學習潛在的表示,在降維后,該文應用MLP直接預測對應點云。該文在ShapeNet和Pix3D數據集上進行了幾個實驗。該文證明了在發電網絡中使用激活函數ELU的重建效果優于使用其他激活函數。也就是說,使用ELU生成的點云的CD和EMD值低于使用其他激活函數生成的點云中的CD和EMD值。
**5. **閱讀心得
這篇論文提出了一種名為3D-SSRecNet的單階段和單視圖3D點云重建網絡,該網絡由2D圖像特征提取網絡和點云預測網絡組成。單階段網絡結構可以減少提取的2D圖像特征的損失。2D圖像特征提取網絡采用DetNet作為骨干網絡,可以從2D圖像中提取更多細節。為了生成形狀和外觀更好的點云,在點云預測網絡中,使用ELU作為激活函數,并使用Chamfer距離(CD)和Earth mover’s distance(EMD)的聯合函數作為3D-SSRecNet的損失函數。在ShapeNet和Pix3D數據集上進行的實驗結果表明,通過CD和EMD測量,3D-SSRecNet優于現有的重建方法。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100714 -
CAD
+關注
關注
17文章
1090瀏覽量
72449 -
EMD
+關注
關注
1文章
43瀏覽量
20030 -
感知器
+關注
關注
0文章
34瀏覽量
11841 -
MLP
+關注
關注
0文章
57瀏覽量
4241
發布評論請先 登錄
相關推薦
評論