本文介紹的論文提出了一種新的實時通用語義分割體系結構RGPNet,在復雜環境下取得了顯著的性能提升。
作者: Tom Hardy
首發:3D視覺工坊微信公眾號
論文:RGPNet: A Real-Time General Purpose Semantic Segmentation (文末可下載)
論文鏈接:https://arxiv.org/abs/1912.01394
一、主要思想
本文提出了一種新的實時通用語義分割體系結構RGPNet,在復雜環境下取得了顯著的性能提升。RGPNet由一個輕量級的非對稱編碼器-解碼器和一個適配器組成。適配器有助于從編碼器和解碼器之間的多層分布式表示中保留和細化抽象概念。它也有助于從較深層到較淺層的梯度流動。大量實驗表明,與目前最先進的語義分割網絡相比,RGPNet具有更好的性能。
此外還證明了在保持性能的同時,使用改進的標簽松弛技術和逐步調整大小可以減少60%的訓練時間。論文還對應用在資源受限的嵌入式設備上的RGPNet進行了優化,使推理速度提高了400%,性能損失可以忽略不計。RGPNet在多個數據集之間獲得了更好的速度和精度權衡。
二、創新點
1、提出的RGPNet作為一種通用的實時語義分割體系結構,它可以在單分支網絡中獲得高分辨率的深層特征,從而提高準確性和降低延遲,在復雜的環境中具有競爭力。
2、引入一個適配器模塊來捕獲多個抽象級別,以幫助細分的邊界細化,適配器還通過添加較短的路徑來輔助漸變梯度流。
3、對于green AI,在訓練期間采用漸進式調整大小技術,從而使訓練時間和環境影響減少60%,并且采用一種改進的標簽松弛來消除低分辨率標簽映射中的混疊效應。
4、使用TensorRT(一個高性能深度學習推理平臺)優化RGPNet,以便部署在邊緣計算設備上,從而使推理速度提高400%。
5、RGPNet在Cityscpes、CamVid和Mapillary數據集上分別實現了Resnet-101作為backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作為backbone下74.1%、66.9%和41.7% mIoU。對于1024×2048分辨率的圖像,RGPNet在CityScapes數據集上單NVIDIA GTX2080Ti GPU下達到37.4 FPS。
三、網絡結構
RGPNet的整體結構如下所示,每個箭頭都有對應的操作模式:
- 中間一列操作為編碼器
- 最右邊操作為解碼器
- “+”操作為適配器(Adaptor)
其中“+”詳細操作如下所示:
1、T(:)是一個轉換函數,它用來減少編碼器模塊輸出通道數量并將其傳輸到adaptor。
2、D(:)和U(:)是下采樣和上采樣功能。
Adaptor有許多優點:
1、Adaptor聚合來自不同上下文和空間級別的特征。
2、通過引入較短的路徑,有助于梯度從較深的層流向較淺的層。
3、Adaptor允許使用輕量解碼器的不對稱設計,這將減少卷積層,進一步增強梯度流。因此,Adaptor使網絡適合于實時應用,因為它在保留空間信息的同時提供了豐富的語義信息。
針對帶標簽松弛的漸進式調整:
論文采取了最大化像素周圍區域相似度分布,而不是單個像素級別的標簽最大可能化,針對邊界類別,提出了邊界損失函數。
四、實驗結果
多種網絡在Mapillary Vistas數據集上的測試結果:
幾種網絡在Mapillary Vistas數據集上的性能對比:
在CamVid數據集上的性能對比:
RGPNet使用TensorRT在GTX2080Ti和Xavier上速度對比:
綜合速度和準確率以及實際部署下的性能,RGPNet都非常具有競爭力~!
推薦閱讀
重點介紹:1、3D視覺算法;2、vslam算法;3、圖像處理;4、深度學習;5、自動駕駛;6、技術干貨。博主及合伙人分別來國內自知名大廠、??笛芯吭?,深研3D視覺、深度學習、圖像處理、自動駕駛、目標檢測、VSLAM算法等領域。
歡迎關注微信公眾號
審核編輯:符乾江
-
人工智能
+關注
關注
1791文章
47314瀏覽量
238625 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
46004
發布評論請先 登錄
相關推薦
評論