王一波,梁偉鄯,趙 云
(柳州工學院,廣西 柳州 545616)
摘 要 :視覺SLAM相比激光SLAM成本低、潛在功能強大,VO(前端)算法是視覺SLAM走向應用的關鍵。針對VO特征點法存在計算復雜、耗時長的問題,從理論上研究了圖像配準的一致性問題,分別定義了基于像素、信息熵、內容以及特征的圖像一致性,建立了基本的圖像配準評價框架。提出了基于信息熵最大化原則RGB變換灰度圖像算法,分析了基于像素圖像配準算法潛在問題,提出了基于邊緣特征的圖像配準算法,包括灰度變換、高斯濾波、基于canny算子的邊緣檢測和邊緣修剪等,利用Hausdorff距離求解二值圖像相似度,Hausdorff距離越小則圖像越相似。實驗對圖像平移和旋轉,比較其與原始圖像的相似度,表明該評價算法可以比較可靠地評價圖像配準質量,為重建圖像幀間運動提供依據。
中圖分類號 :TP391 文獻標識碼 :A? ? ?
文章編號 :2095-1302(2022)08-0027-04
0 引 言
視覺SLAM(Simultaneous Localization and Mapping,SLAM)具有成本低、應用場景廣的特點,但目前尚未廣泛落地,主要受限于其算法復雜、魯棒性較差等問題。目前的視覺 SLAM 架構一般包含前端(視覺里程計)、后端、回環檢測和建圖,其中前端即VO(Visual Odometry, VO),這是決定算法表現優劣的重要因素。目前VO的實現方法主要有特征點法和光流法[1-2]。前者存在關鍵點提取耗時長、信息利用不充分以及對場景的紋理要求高等問題,光流法的優點在于光流不僅攜帶了運動物體的運動信息,而且還攜帶了場景三維結構的豐富信息,但同樣存在計算耗時、實時性、實用性較差等問題[3-6]。為此,改進VO的處理算法非常重要。考慮到攝像機運動過程中姿態的連續變化,若采樣圖像時間間隔足夠小,則攝像機姿態變化將發生在相對有限的范圍,反映在圖像上,相鄰幀圖像將具有足夠的相似度,為采用直接圖像配準算法創造了條件。本文將面向視覺SLAM應用實際,充分挖掘圖像特征,構建直接圖像配準評價算法,提高VO的處理效率。
1 圖像一致性
1.1 基于像素的圖像一致性 定義1圖像 I1(x, y)、I2(x',y'),對于任意像素 (x,y),如果I2(x',y')=T(I1(x,y),x,y),且存在 I1(x,y)=T-1(I2(x',y'),x',y'),則圖像I1(x,y)、I2(x',y') 為理想一致。由上述定義可知,當圖像經過某種變換或者組合變換得到新的圖像,可以找到相應的逆變換,使變換后的圖像完全恢復到原圖像。例如,圖像發生平移、旋轉、錯切等變換,可通過逆變換加以恢復。 定義2圖像I1(x,y)、I2(x,y),對于任意像素 (x,y),如果I2(x',y')=aI1(x,y),a為任意正實數,則圖像I1(x,y)、I2(x',y')為完全一致。 定義3圖像I1(x,y)、I2(x',y'),對于任意像素 (x,y)∈D,D為I1(x,y) 的有限非空集,如果 I2(x',y')=T(I1(x,y),x,y),且存在I1(x,y)=T-1(I2(x',y'),x',y'),則圖像I1(x,y)、I2(x',y')為部分一致。 實際應用中,圖像為二維有限序列,圖像間的一致性判別通常是在有限區域內進行,這樣部分一致性更具有應用價值。根據以上定義,不同的應用對于圖像一致性的要求不同,以下分別定義基于信息熵的一致性、基于內容的一致性和基于特征的一致性,以滿足不同的應用。
1.2 基于信息熵的圖像一致性 按照Marr計算理論 [7],圖像中的信息即圖像中顏色或亮度的變化,呈現出的是物體和物體的關系以及與人的關系的要素。如果把一幅圖像看作一個虛構零記憶“信源”的輸出時,可以通過觀察圖像的直方圖來估計該信源的符號概率。假設圖像I大小為M×N,灰度范圍為[0,L-1],rk為此區間的離散灰度隨機變量,nk為第k級灰度在圖像中出現的次數。這時,信源的熵變為 :
式中,
定義4圖像I1(x,y)、I2(x',y'),對于任意像素 (x,y),如果H(I2)=H(I1),則圖像I1(x,y)、I2(x',y') 信息熵完全一致;如果H(I2)-H(I1)
顯然信息完全一致在實際中很難滿足。在圖像傳輸及圖像壓縮過程中,圖像信息熵一致性判別十分重要。
1.3 基于內容的圖像一致性
定義5I1(x,y)→struct{w1, w2, ..., wn},I2(x',y')→struct{w1',w2', ..., wn'},其中,wk、wk'表示I1(x, y)、I2(x', y' ) 經語義分割得到的語義實體,struct表示語義實體間的結構關系,如果struct{w1,w2, ...,wn}=struct{w1',w2', ...,wn'},則圖像I1(x,y)、I2(x',y' ) 為內容完全一致;如果w1=w1', w2=w2', ..., wn=wn',則圖像I1(x,y)、I2(x',y') 為內容部分一致。顯然,滿足內容完全一致條件必然滿足內容部分一致條件。基于內容的圖像一致性判別,對于圖像跟蹤、場景識別等應用領域具有重要意義。
1.4 基于特征的圖像一致性
定義6特征一致定義:圖像I1(x,y) →{f1, f2, ..., fn},圖像I2(x, y) →{f1', f2', ..., fn'},fk、fk' 表示I1(x,y)、I2(x',y' ) 經特征提取得到的特征,如果對于任意特征,滿足F(f1)=F(f1'),F(f2)=F(f2'), ..., F(fn)=F(fn'),其中,F(·) 為對特征進行某種運算,則圖像I1(x, y)、I2(x', y' ) 為特征完全一致;如果F(fk)=F(fk'), k=1, 2, ..., m, m
同樣,滿足特征完全一致條件必然滿足特征部分一致條件。基于特征一致判別的意義在于可以為某些場景配準提供理論依據。
2 圖像配準評價算法
視覺SLAM的VO,主要任務即確定相鄰幀圖像間的運動關系。如果采用優化技術對運動參數空間進行搜索,則需確定優化目標函數,它反映的是相鄰兩幀圖像的配準程度。根據上一節的定義,在VO中可以基于像素的一致性來對配準進行初始評價,也可基于特征的一致性來對配準進行深層次評價。一般,VO中采集的圖像為RGB圖像,首先需將其變換為灰度圖像。
2.1 RGB 圖像灰度變換
為最大限度利用RGB 圖像信息,本文將基于圖像信息熵確定灰度變換的權值,算法步驟如下 :
(1)計算RGB圖像三個通道IR、IG、IB的信息熵 :
式中:HR、HG、HB 分別為IR、IG、IB三個圖層對應的信息熵;pR(Rk)、pG(Gk)、pB(Bk) 分別是IR、IG、IB三個通道的直方圖統計量。
(2)根據圖像信息量確定三個通道的權重。為最大限度保留圖像信息,按照信息量的大小分配權重 :
(3)基于信息量RGB圖像線性變換為灰度圖像 :
式中,R、G、B分別是RGB圖像任意像素的分量。
2.2 基于像素的圖像配準評價
假設VO采集的兩幀圖像依次為I1(x,y)、I2(x',y' ),大小同為M×N,將I1(x,y)看作參考圖像,則I2' (x,y)=T(I2(x',y'), x',y'),其中T 包含了攝像機的運動 :平移tx、ty、tz,旋轉 θ(pitch)、φ(roll)、ψ(yaw)。理想情況下,評價函數定義為 : 式中,A={(x,y)|I1(x,y)=I2'(x,y)},Num(A) 越大則圖像配準度越高,當Num(A)=M×N 時,則完全配準,即基于像素完全一致。 攝像機在采集兩幅圖像時光照條件可能存在差異,如果考慮光照的影響,則評價函數定義仍為式(1),A={(x,y)|I1(x,y)=αI2'(x,y)},α為亮度調節參數,取值不同,則A不同,A包含的元素數量也將不同。因此,Num(A)=max{Num({(x,y)|I1(x,y)=αI2'(x,y)})}。 基于像素的圖像配準評價思想簡單,但實現相對復雜。圖像比較時需考慮參數α的影響,需要進行優化計算,耗時較長。同時由于數字圖像在變換過程中會進行插值運算,相應像素的亮度值取決于插值算法,這也給配準評價帶來了不確定性。
2.3 基于邊緣特征的圖像配準評價
假設VO采集的兩幀圖像依次為I1(x,y)、I2(x',y' ),大小同為M×N,將I1(x,y) 看作參考圖像,算法步驟如下 : (1)對圖像I1(x,y)、I2(x',y' ) 進行高斯濾波 : 式中,。 (2)運用canny算子提取濾波后圖像邊緣,假設前一幀圖像邊緣特征集合Ω1={f1, f2, ..., fn},后一幀邊緣特征集合Ω2={f1', f2', ..., fm'}。 (3)從圖像中直接提取的邊緣既包含環境中物體的紋理或邊界,也包含因圖像噪聲導致的灰度突變而產生的噪聲邊緣 [8]。和正確邊緣相比,噪聲邊緣因噪聲點具有隨機性的原因,其長度更短。對Ω1、Ω2進行預處理,包括刪除細小邊緣、剪除細小枝節。 if L(fk)
首先,計算集合Ω1中的任意點ai到集合Ω2' 的最短距離,然后對Ω1中的所有點進行排序。假設集合Ω1邊緣點個數NΩ1,則前向部分Hausdorff距離為以上序列的第 Kth=fF×NΩ1;同理,后向部分 Hausdorff 距離為Ω2' 序列的第Kth=fR×NΩ2'。
HfF fR(Ω1,Ω2') 越小,則兩幅圖像的配準越高,當HfF fR(Ω1,Ω2')=0時,表示完全配準,即基于特征完全一致。
3 實驗及分析
為驗證本文提出的圖像配準評價算法,任意采集一幅圖像,依次對其進行不同距離的平移和不同角度的旋轉,比較變換后圖像與原始圖像的Hausdorff 距離。首先根據上節提出的算法步驟,對圖像進行預處理,其結果如圖1所示。
原始圖像依次沿x軸、y軸平移50、100、150,然后提取其邊緣特征并做修剪處理,其結果如圖2、圖3所示。分別計算平移后圖像與原始圖像的Hausdorff 距離為45.07、62.14、77.62,平移越小,Hausdorff 距離越小,配準程度也越高,與視覺感受一致。
原始圖像依次以圖像原點為軸逆時針旋轉,然后提取其邊緣特征并做修剪處理,其結果如圖4、圖5所示。分別計算平移后圖像與原始圖像Hausdorff距離為50.60、59.48、68.94,旋轉越小,Hausdorff 距離越小,配準程度越高,與視覺感受一致。
4 結 語
本文針對視覺SLAM的VO廣泛使用的特征點法以及光流法存在的問題,尋求建立一種更加簡便且穩定的圖像配準算法,該算法以圖像一致性為理論基礎,利用VO順序采集圖像的幀間特點,最后通過實驗驗證了所設計的基于邊緣特征一致性的圖像配準評價符合VO應用的視覺要求。今后,將按照此思路繼續開展圖像運動參數搜索算法研究,完善以圖像配準為基礎的VO技術框架。
注:本文通訊作者為梁偉鄯。
參考文獻
[1] CADENA C,CARLONE L,CARRILLO H,et al. Past, present,and future of simultaneous localization and mapping: toward therobust perception age [J]. IEEE transactions on robotics,2016,32(6):1309-1332.
[2] GUILLAUME B,ZAYED A,LI Y,et al. Simultaneouslocalization and mapping: A survey of current trends in autonomousdriving [J]. IEEE transactions on intelligent vehicles,2017,2(3):194-220.
[3] 陳致遠,涂群章,張詳坡,等 . 足式爬行機器人研究進展與發展趨勢 [J]. 兵器裝備工程學報,2020,41(9):1-12.
[4] 胡章芳,張杰,程亮 . 融合特征法與直接法的 RGB-D 稠密視覺SLAM 算法 [J]. 半導體光電,2020,41(4):548-554.
[5] 郝洛瑩 . 基于視覺慣性里程計的 SLAM 系統研究 [D]. 深圳:中國科學院大學(中國科學院深圳先進技術研究院),2020.
[6] 王勃 . 基于光流法運動估計的室內視覺定位方法研究 [D]. 重慶:重慶理工大學,2019.
[7] Marr David. Vision[M].San Franci-sco: Freeman Publishers,1982.
[8] 田超然 . 面向視覺 SLAM 的聯合特征匹配和跟蹤算法研究 [D]. 深圳:中國科學院大學(中國科學院深圳先進技術研究院),2020.
[9] 楊維 . 面向場景理解的景象匹配方法研究 [D]. 成都:電子科技大學,2017.
[10] HUTTENLOCHER D,KLANDERMAN G,RUCKLIDGEW. Comparing images using the hausdorff distance [J]. IEEEtransactions on pattern analysis & machine intelligence,1993,15(9):850-863.
作者簡介: 王一波(1981—),男,山西大同人,博士,高級工程師,研究方向為機器視覺、人工智能、工業控制。 梁偉鄯(1989—),男,廣西貴港人,碩士,講師,研究方向為嵌入式開發、信號處理。 趙 云(1982—),女,廣西柳州人,碩士,講師,研究方向為信息處理。 ?
編輯:黃飛
?
評論
查看更多