基于多視角融合的夜間無人車三維目標檢測
來源:《應用光學》,作者王宇嵐等
摘 要:為了提高無人車在夜間情況下對周圍環境的物體識別能力,提出一種基于多視角通道融合網絡的無人車夜間三維目標檢測方法。引入多傳感器融合的思想,在紅外圖像的基礎上加入激光雷達點云進行目標檢測。通過對激光雷達點云進行編碼變換成鳥瞰圖形式和前視圖形式,與紅外圖像組成多視角通道,各通道信息之間融合互補,從而提高夜間無人車對周圍物體的識別能力。該網絡將紅外圖像與激光雷達點云作為網絡的輸入,網絡通過特征提取層、候選區域層和通道融合層準確地回歸檢測出目標的位置以及所屬的類別。實驗結果表明,該方法能夠提高無人車在夜間的物體識別能力,在實驗室的測試數據中準確率達到90%,速度0.43 s/幀,達到了實際應用要求。
關鍵詞:紅外圖像;激光雷達點云;多視角通道;三維目標檢測
引言
夜間無人車在道路上行駛需要感知周圍環境的車輛、行人[1-2]等,基于紅外攝像頭的感知方案[3-5]雖然能夠感知車輛前方的障礙物,但是無法準確獲取障礙物的位置信息且準確率有限。激光雷達是一種主動傳感器,通過發射與接收激光光束獲取環境中物體的信息[6-7]。近幾年陸續有研究人員利用深度學習在激光雷達點云上進行目標檢測,斯坦福大學的Point Net[8]直接將激光點云作為輸入,并解決了旋轉問題和無序性問題。2017年蘋果公司Voxel Net[9]將激光雷達分成等間距的體素,并引入新的體素特征編碼表示,在KITTI[10]上取得很好的成績。清華大學提出了MV3D[11],將彩色圖像與激光雷達點云融合進行三維目標檢測,該算法在KITTI 上也表現出色。
上述前人的研究工作基本都是在白天條件下的彩色圖像上進行,而在夜間,無人車往往需要依賴紅外圖像,但紅外圖像的成像原理是通過紅外攝像頭探測物體自身的紅外輻射,再通過光電變換將物體的溫度分布變換成圖像。紅外圖像具有無色彩、簡紋理、低信噪比等特點。因此在紅外圖像上進行目標檢測效果較差。考慮到各個傳感器在不同方面均有利弊,本文利用多傳感器融合的思想,提出了利用多視角通道融合網絡的基于紅外圖像與激光雷達點云的夜間無人車三維目標檢測方法。實驗結果證明,該方法的準確率高且能基本滿足實時性的要求。
1 多視角通道融合網絡
本文所采用的多視角通道融合網絡由特征提取模塊、候選區域生成模塊和通道融合模塊組成,整體結構圖如圖1所示。
特征提取模塊由特征編碼網絡和特征解碼網絡2 部分組成,結構如圖2所示。
圖1 多視角通道融合網絡結構圖
Fig.1 Structure diagram of multi-view channel fusion network
圖2 特征提取模塊結構圖
Fig.2 Structure diagram of feature extraction module
特征編碼網絡采用的是改進后的VGG(visual geometry group)16 網絡[12],將原VGG16 網絡的通道數減少一半至50%,然后在網絡中加入批標準化層,并在Conv4 刪除最大池化層。特征編碼網絡將M×N×C的紅外圖像、鳥瞰圖或前視圖作為輸入,并輸出?
的特征圖。式中,M表示圖像的長,N表示圖像的寬,C表示通道數。對于紅外圖像,C為1。特征解碼網絡采用特征金字塔網絡[13]的形式,學習將特征映射上采樣回原始的輸入大小。特征解碼網絡將特征編碼網絡的輸出作為輸入,輸出新的?M×N×D的特征圖,如圖2所示,通過轉換-轉置操作對輸入進行上采樣處理,并和來自特征編碼網絡的對應特征映射進行級聯操作,最后通過3×3 卷積來融合二者。
輸入一幅鳥瞰圖,候選區域生成模塊會生成一系列的三維候選區域。每個三維候選區域有六維的參數:(x,y,z,l,w,h),分別表示三維候選區域在激光雷達坐標系中的中心坐標和長寬高尺寸。對于每個三維候選區域,對應在鳥瞰圖中的參數(xbv,ybv,lbv,wbv)利 用離散的 (x,y,l,w)變換可以得到,表示三維候選區域在鳥瞰圖中的坐標和長寬,其中 離散分辨率為0.1 m。
通道融合模塊結合各個視角的特征,對各視角上的目標進行聯合分類,并針對三維候選區域進行定向回歸。由于不同的視角有不同的分辨率,對于每個視角通道所輸出的不同分辨率的特征向量,通過ROI(region of interest)池化操作將每個視角通道所輸出的特征向量調整到相同的長度。通過下式得到3 個視角不同的ROI。
式中:T3D→v表示從激光雷達點云坐標系到鳥瞰圖形式、前視圖形式,和紅外圖像的轉換函數;P3D表示三維候選區域參數向量。對于區域候選網絡所生成的三維候選區域,將其投影到經過ROI池化操作的鳥瞰圖形式(BV)特征向量、前視圖(FV)特征向量和紅外圖像(IR)特征向量中。對于從某個視角特征提取通道中輸出的特征向量?x,通過ROI池化獲得固定長度的特征?fv。
式中:R表示相應的矩陣變換。為了融合來自各個視角通道的特征信息,采用多層次融合的方法,分層融合多視角特征,使得各通道的信息可以在中間層有更多的交互。如圖3所示。
圖3 通道融合網絡結構圖
Fig.3 Structure diagram of channel fusion network
對于通道融合網絡的每一層,輸入為鳥瞰圖形式、前視圖形式以及紅外圖像3 個通道的特征,經過一次逐元素平均計算后,再經過各自的中間卷積層進一步提取特征。具體的融合過程如下式所示。
式中:fl表示第?l層的融合結果;fBV、fFV和?fIR分別表示鳥瞰圖通道、前視圖通道以及紅外圖像通道的輸入特征;
表示第l層不同通道的中間卷積層;⊕表示逐元素平均運算;經過通道融合網絡融合各個視角通道的特征之后,利用融合結果對候選區域模塊生成的三維候選區域進行回歸校正,并將融合結果輸入Softmax 分類器對三維候選區域內的物體進行分類識別。
2 實驗內容
2.1 實驗配置與數據預處理
本文算法中的網絡基于Tensor Flow[14]框架,實驗硬件配置為處理器Intel i5-6600,內存16 GB,顯卡NVIDIA GTX 1070;操作系統Ubuntu14.04。實驗的所有數據由載有紅外攝像頭和激光雷達的車輛在南京理工大學夜晚的校園道路上拍攝所得,有車輛、行人和騎自行車的人3 種類別。其中訓練集為1 500 張紅外圖像及其對應的由激光雷達點云數據,驗證集為500 張紅外圖像及其對應的由激光雷達點云數據,測試集為600 張紅外圖像及其對應的由激光雷達數據。
對于激光雷達點云數據,其中每一個點由其三維坐標 (x,y,z)和 反射率?r組成,本文將其轉化為鳥瞰圖與前視圖的形式。鳥瞰圖形式指的是沿水平坐標系(地面)將激光雷達點云分割成700×800 的網格,再沿Z軸方向把激光雷達點云平均分成5 層。對于每一個區域,提取其中最大高度的點的高度作為高度特征;該長方體區域內點的數目作為密度特征;對于密度特征ρ,作歸一化處理。
式中N是長方體區域內點的數目。最后將激光雷達點云轉換成通道數為700×800×6 的鳥瞰圖形式。前視圖形式指的是將激光雷達點云投射到一個前方的圓柱體平面上。給定激光雷達點云中的一個點的三維坐標?p=(x,y,z),其在前視圖中的坐標?pfv=(r,c)可以通過下式計算得出。
式中:Δθ是 激光的水平分辨率;Δ?是垂直分辨率。
2.2 實驗結果及分析
把紅外圖像與激光點云數據輸入到多視角通道融合網絡中,網絡給出檢測結果。由于紅外攝像頭與激光雷達的采集頻率不一致,本文根據激光雷達幀號匹配紅外圖像,設定閾值為10 幀,尋找與雷達幀號小于閾值且最接近的圖像作為對應圖像,如圖4所示。
圖4 輸入的紅外圖像與對應的激光雷達點云
Fig.4 Input infrared image and lidar point cloud
使用傳統的AdaBoost[15]算法、和二維的目標檢測算法Fast RCNN[16]算法、Faster RCNN[17]算法以及三維的目標檢測算法Voxel Net[10]在測試集中進行測試,并與本文算法進行結果對比,結果見表1。
從表1的結果中可得,本文算法在犧牲部分時間的情況下提高了夜間目標檢測的正確率。為了更直觀地顯示本文算法結果,將目標檢測的結果顯示在激光雷達點云的鳥瞰圖形式上和紅外圖像上,其中綠色矩形框表示行人,紅色矩形框表示車輛。如圖5所示。
表1 不同算法在測試集上的結果對比
Table1 Comparison of results for different algorithms on test sets
圖5 目標檢測可視化結果
Fig.5 Visualized result of detection
由圖5可以看出,對于圖5(a 組),本文算法可以很好地定位行人的位置;對于圖5(b 組),雖然紅外圖像分辨率較低,連人眼也不容易分辨圖片中的車輛,但加入激光雷達點云信息后對于該車的定位準確;對于圖5(c 組),本文算法定位結果與人工標注信息一致。
3 結論
本文采用多傳感器融合的思想,在原有紅外圖像的基礎上加入激光雷達點云,并使用多視角通道融合網絡對這2 種數據進行特征融合,準確地檢測出目標的位置以及類別。實驗結果表明,該方法能夠提高無人車在夜間的物體識別能力,在實驗室的測試數據中準確率達到90%,每幀耗時0.43 s,達到實際應用要求。
審核編輯:符乾江
評論
查看更多