摘要:智能機器人面對復雜環境的操作能力一直是機器人應用領域研究的前沿問題,指稱表達是人類對指定對象定位通用的表述方式,因此這種方式常被利用到機器人的交互當中,但是單一視覺模態并不足以滿足現實世界中的所有任務。因此本文構建了一種基于視覺和聽覺融合的機器人感知操作系統,該系統利用深度學習算法的模型實現了機器人的視覺感知和聽覺感知,捕獲自然語言操作指令和場景信息用于機器人的視覺定位,并為此收集了12類的聲音信號數據用于音頻識別。實驗結果表明:該系統集成在UR機器人上有良好的視覺定位和音頻預測能力,并最終實現了基于指令的視聽操作任務,且驗證了視聽數據優于單一模態數據的表達能力。
機器人正在逐漸進入人類的生活當中,為了有效地幫助人類,機器人必須盡可能地學習人類的各項能力,包括用視覺感知去觀察世界、理解人類的自然語言指令,甚至借助聽覺、觸覺等獲取多模態的信息感受物理世界以進行更多復雜的任務。隨著人工智能技術的不斷發展,在視覺識別[1-2]、自然語言系統[3-4]、三維場景建模[5-6]、操作抓取以及運動規劃[7-8]方面都取得了極大的進展,使得各種先進的計算模型能夠部署在機器人上幫助其更加智能化,從而高效穩定地輔助人類完成更加復雜困難的任務。如最先進的具身指示表達的機器人導航任務(REVERIE)[9],該系統將視覺、語言和機器人的行為共同進行學習以幫助機器人探索環境來找到目標對象。這是一種十分具有挑戰性的任務,因為它不僅需要對具體目標進行定位,還需要對目標和其位置關系進行高層次的語義理解,用以幫助區分正確的物體和不相關的指示物體。在此基礎上,文獻[10]開發了一種混合控制的機器人系統,它賦予了機器人更加復雜的操作能力,該系統能夠根據自然語言的操作指令對目標物體進行拾取和放置。對于有歧義的操作指令或者任務場景,文獻[11]設計了一種部分可觀測的馬爾可夫模型 ( POMDP)用于觀察歷史操作記錄以幫助機器人排除有歧義的目標。為了方便人與機器人更加有效直觀的交互,文獻[12]設計了一種不受限制的自然語言交互架構,能夠在沒有輔助信息的支持的情況下實現自然語言的消歧和查詢。
然而,單純依靠視覺信息并不足以支持機器人完成所有類型的任務。對于現實的物理世界,機器人需要配備不同類型的傳感器獲取更多的模態信息,如聽覺信息[13-15]、觸覺信息[16-17]、雷達信息[18-19]、多傳感器融合信息[20-21]。為了提升機器人的自主導航探索能力,文獻[22]在捕獲視覺信息的基礎上,結合音頻感官信息嵌入到機器人的路徑規劃器當中,提高了機器人的導航精度。文獻[23]通過給實際機器人配備聽覺傳感器,操作目標物體收集聽覺數據,實現了對視覺上難以區分的目標的判別。在此基礎上,文獻[24-25]增加了觸覺傳感器,采集了不同材質的電壓值信息作為觸覺感知,構建了一個觸覺和聽覺融合的機器人分類系統,大大提高了機器人的工作能力。
上述研究雖然取得了很大的進步,但是缺少了部分與人的交互能力,如何讓機器人接收人的操作指令,利用多模態信息共同決策操作行為還是一個很大的挑戰。為使配備多傳感器的機器人系統能夠適應更加復雜的操作環境,本文借助于視覺傳感器和聽覺傳感器,構建了一個視聽融合的指稱表達的機器人自主操作系統。該系統能夠接收人類的自然語言操作指令,理解指令中的高級語義信息,結合視覺目標進行定位,并且根據聽覺信息進一步判別目標類別。在真實的物理環境中,該系統能夠在設計的實驗下穩定地發揮性能。主要貢獻如下:
1)本文提出了一個新的視聽操作任務,利用視覺信息和音頻信息用于解釋指示表達的操作指令。
2)本文在構建的數據集下,實現了機器人的視覺定位和音頻識別,用于完成目標操作任務。
3)本文將實驗系統應用在實際機器人中并進行實驗驗證,實驗結果表明本多模態數據對于機器人操作效率有著顯著的提升。
01 機器人視聽系統
本文利用UR機械臂作為機器人平臺構建了視聽融合的具身操作系統,整個系統架構如圖1所示。
圖1 本文實驗系統架構
其中機器人的任務目標是根據復雜的自然語言指令完成操作任務,并且結合視覺信息定位任務目標,利用音頻信息判別目標物體。當機器人接收到給定的自然語言指令,如“拿起帶有膠囊的瓶子,并且放置在左邊的盒子”。這就需要機器人通過捕捉視覺信息定位場景中的瓶子和盒子,并且理解帶有位置關系的語句找到左邊的盒子。對于視覺上相同的瓶子,機器人通過選擇不同的操作行為,采集瓶子晃動的聲音信息,進行判別,最終找到帶有膠囊的目標瓶子。整個系統要求機器人能夠正確地理解給定的指令,并且結合指示表達定位目標從而實現相應的操作。
本系統的架構主要分為3個模塊,分別是視覺語言感知模塊、音頻感知模塊以及機器人操作模塊。首先,將文本指令和視覺信息輸入到視覺語言模塊當中,對可能的目標對象進行定位。當視覺信息不足以判斷目標物體的類別時,機器人的操作模塊會產生不同的動作搖晃目標,聲音傳感器記錄下聲音信息,音頻感知模塊進行分析,識別指令中涉及的目標對象,完成相應的操作任務。
02 機器人視聽模型
對于不同的感知模塊,利用深度學習算法設計相應的網絡構建整個系統。本文的模型分為指示表達模型、音頻分類模型以及機器人的操作模型。
2.1 指示表達模型
不同于基礎的目標檢測,本文利用操作指令中涉及到的物體指稱關系與視覺信息進行匹配,利用高級語義關系定位目標物體。
對于給定的圖像I,任務目標是定位圖像I中的一個子區域,該子區域對應操作指令中的語義信息。對于操作指令,首先對其每個單詞進行編碼轉成獨熱向量,然后利用循環神經網絡提取其編碼后的文本特征。
對于圖像部分,利用在ImageNET上預訓練好的卷積神經網絡提取其圖像特征和YOLO提取圖像內的候選目標。對于完整的操作指令,分為3個組成部分,分別是主體描述、位置描述和關系描述,對于不同的句子部分,利用語言注意力機制網絡提取其相應的權重與圖像特征進行匹配。
本文指示表達模型如圖2所示,圖像編碼部分利用Darknet53和特征金字塔網絡提取原始圖像I不同尺度的特征。
圖2 指示表達模型
在指令編碼部分,利用獨熱編碼的方式將操作指令轉化成獨熱碼的形式:
將編碼后的詞向量以正序和逆序的方式送入雙向GRU網絡中獲取相應文本的特征:
將提取的文本特征相連以獲取上下文語義特征向量。利用上采樣過程將文本特征映射到與圖像特征相同的維度進行融合:
式中:為激活函數,和 為對應的參數矩陣, 為點乘。利用多模態融合特征與目標檢測器生成的候選區域進行匹配得到候選區域:
其中:和是相應的學習參數,和是對應的偏置系數,是矩陣相乘。最終目標區域選取兩者得分最高的區域作為最終預測位置,該區域用一個組合向量表示,分別代表了預測框的坐標及尺寸。
2.2 音頻分類模型
對于機器人的聽覺感知部分,本文設計了一個音頻分類模型,用于對收集的聲音信號進行預測分類。為了將結構化的聲音輸入進模型中,需要提取聲音信號中特有的梅爾倒頻譜系數(Mel-frequency cepstral coefficients, MFCC)特征,首先將時域上的信號進行預加重處理,通過濾波系數=0.97過濾掉其中的低頻噪聲,保留高頻分量的信息:
接著將處理后的特征進行N幀分割,利用漢明窗提取局部穩定的信號:
對分割后的信號進行短時傅里葉變換和梅爾濾波獲取對數頻率上的尺度的特征。為了減少特征之間的線性相關性,取低頻系數進行離散余弦變換:
式中:M為梅爾濾波器個數;L為階數,最后將變換后的特征進行歸一化以增加音頻信號的信噪比,得到最終可以輸入模型的MFCC特征。
音頻分類模型的網絡主要結構如圖3所示,將不同機械臂動作產生的音頻信號提取MFCC特征進行拼接,為了保證聲音信號的連續性,采用了雙向GRU作為主要的特征處理網絡,同樣,在雙向GRU網路中添加了殘差邊結構,緩解梯度爆炸的問題,保證整個音頻分類模型的準確率。作為分類模型,添加了全連接層和softmax函數作為最終分類結果的預測。
圖3 音頻分類模型
2.3 機器人操作模型
機器人的操作模型主要是控制機械臂的各個軸的旋轉從而產生機器人的各個行為動作,各個行為如圖4所示,具體命名方式為:拿(Pick)、放(Place)、旋轉(Roll)、搖晃1(Yaw)、搖晃2(Pitch)、搖晃3(Shake)。分別包含了機器人對單個物體操作時的拿起與放置行為,以及操控對應機械手末端(x, y, z)軸不同的旋轉角獲取對應的搖晃動作。因此在設計的操控任務中,規劃了機器人的操作動作空間為{Pick, Roll, Yaw, Pitch, Shake , Place}。對于本文的抓取目標統一設定為單一類別,因此設定固定的旋轉角獲取最佳的抓握姿勢。根據不同的任務需求,機器人選擇相應的動作完成操作命令。
圖4 機器臂行為動作
當機器人在接收具體的控制指令后,經過視覺分析獲取可以操控的目標點位,執行相應的控制行為。機械臂的具體流程圖如圖5所示,以當前場景的狀態為初始狀態,通過順序決策依次執行動作空間中的各個動作,并判斷任務是否完成,當執行為最后一個放置動作時,結束當前操作模型的行為。其中,任務操作坐標以及目標任務的坐標由視覺感知模塊提供,即通過指示表達模型生成機械臂可以操作的目標位置;對于操作任務完成狀態,需要得到正確的容器內的目標物品,音頻感知模塊可以將搜集的音頻信號進行分類,一旦將操作指令中涉及到的目標物品進行正確分類時,則設定下一個狀態為放置狀態,否則放回原處,重新操作下一個目標物體。
圖5 機器人操作流程
03 實驗
3.1 實驗平臺
本實驗采用UR5機械臂和五指靈巧手作為整個實驗平臺的抓取設備,其中靈巧手采用5指設計和連桿傳動的方式,并且具備6自由度,可以保障瓶子的固定抓取。視覺上利用Kinect相機捕獲RGB圖像和深度圖像,聽覺上利用RODE麥克風固定在機械臂的末端下收集接收晃動瓶子的聲音信號,這樣可以縮短聲源和采集設備的距離,更方便捕獲聲音特征。整個實驗數據的分析在帶有NVIDIA 2070的PC機上進行處理。整個實驗平臺如圖6所示。
圖6 數據差異性分析
3.2 數據集采集
3.2.1 操作指令設計
本文設計的操作指令在機器人的行為動作上主要分為兩類,分別是{抓,放};對于物體之間的位置關系,由{左邊,右邊,中間,前面,后面}組成;對于物體的自身屬性,主要選擇了顏色屬性,包含{綠色、藍色、紅色}。操作指令根據物體的類別、屬性、位置關系模板交叉組合生成,符合實際的操作需求,例句如“拿起中間的瓶子,放進綠色的碗中”、“拿起帶有山楂的瓶子,放進左邊的碗中”。機器人通過這些操作指令完成人類布置的操作任務。
3.2.2 交互聽覺數據采集
根據各類中藥材的不同特質,本實驗選取了常見的12類藥用物品,如圖7所示,分別是膠囊、酒精、紅棗、藥片、生山楂、藥丸、決明子、生牡蠣、蠟丸、蟬蛻、顆粒以及空瓶。為了獲取數據的多樣性,選取了1/4、1/2、2/3瓶子含量的數據。通過結合機械臂的運動特性,選擇{Roll, Yaw, Pitch, Shake} 4種不同的動作分別對每類物品進行20次采樣。每個聲音信號以44.1 kHz進行采樣,根據機械臂的運動時長,設定采集單個目標種類的音頻時長為6000 ms,一共采集了960組數據作為聲音數據集。
圖7 硬件架構
對于不同類型的聲音數據,選取了具有代表性的物品的聲音信號繪制了時域圖和頻譜圖進行了對比。如圖8所示,在4種機器人的動作下,山楂和藥片的聲音具有相當大的差異性。對于相似的聲音信號,在轉化成頻譜圖后,也在不同的區域表現出明暗不一的差異,這為在后處理時送入循環神經網絡進行分類提供了有效的保障。
圖8 數據集種類
3.2.3 對交互聽覺數據進行預處理
在實際采集聲音數據的過程中,機械臂在執行4種動作時有著不同的運動時長以及自身的運動噪聲,這些噪聲與運動的幅度、速度、加速度有關,會對采集的聲音數據和實驗結果產生一定的影響,為了減少來自非目標對象的聲音的影響。本文采取了噪聲抑制過程,如圖9(a)所示,對于音頻信號沒有超過閾值的區域標記為黃色區域,這部分區域將被剔除,而綠色的區域用于訓練,通過利用信號包絡線設定閾值,如圖9(b)所示,這樣能夠有效提供目標分類精度。
圖9 信號區域選擇
3.3 實驗設置及評估指標
根據設計的操作指令和目標物體關系布置實驗場景,場景操作任務結合視覺和聽覺識別難易程度總共分為3類:第1類場景探索物體不同的位置關系,指令如“找到膠囊,放在左邊的碗中”;第2類場景探索物體的屬性關系,指令如“找到所有放膠囊的瓶子,放在綠色的碗中”;第3類探索物體的類別關系,指令如“找到放膠囊的瓶子,放在蘋果旁邊的碗中”。實驗目的是根據給定的操作指令,整個機器人系統能夠理解指令,并且定位出帶有指示關系的物體,利用聽覺系統進行分類預測目標,并且放置成功,完成最終的實驗。本文定義了一種離線實驗機制,設定場景狀態{bottle1, bottle2, bottle3, bowl1, bowl2},機械手的狀態{Pick, Roll, Yaw, Pick, Shake, Place},通過設定執行機械臂的動作序列,如{move bottle1》pick bottle1》check bottle1》place bowl1},結合視聽感知模型依次更新目標狀態池{bottle1:Tablet》bowl1:left}完成操作任務。根據實驗任務,定義3種實驗指標:
· 目標識別率(target recognition accuracy, TRA):是否檢測到正確操作的目標物體
· 音頻識別率(audio recognition accuracy, ARA):是否正確識別了指令中的目標物體
· 整體任務準確率(overall task success rate, OTSR):是否完成了指令中的位置關系的檢測。
通過對設計以上3種準確率指標來驗證本文的視聽系統的可行性。
04 實驗結果
4.1 視覺檢測結果
本文選取了部分操作指令在指定場景中進行檢測,對于顏色形狀大小相同的bottle,本文選擇用音頻感知判別種類,對于bowl類別使用視覺指示表達來定位目標物體。操作指令主要包含目標的位置關系、顏色屬性關系以及和其他目標的方位關系。準確率保持在70%以上,并且繪制了相應的可視化結果,如圖10,在3類測試場景下紅色框為對應操作指令的正確結果,藍色框為本文的視聽模型在實際機械人系統下的檢驗結果。
圖10 視覺檢測結果
4.2 聽覺分類結果
為了使整個機器人聽覺系統能夠有效地工作,驗證每種音頻類別的精度是很有必要的。根據本文采集的12類音頻數據,在設計的循環神經網絡模型上,對分類結果進行計算,得到最終的模型分類的混淆矩陣,如圖11所示。
圖11 對所有類別計算混淆矩陣
從圖11結果可知,不同的藥用物品準確率有所區別,對于聲音信號較為明顯的藥片和蠟丸類物品,在我們設計的分類模型下,保持了90%以上的準確率;而對于牡蠣和空瓶而言,由于這兩類瓶內物體與瓶臂碰撞的聲音較小,更多的是環境噪聲,因此預測的實驗結果準確性相對較低,但也保持70%以上的準確率。因此,本文設計的音頻識別模型能夠對不同類別的材料進行識別預測。
4.3 總體任務結果
對于整個系統的操作任務,本文根據4.2節設計的評估指標進行了驗證。對于每個實驗場景,根據物體的類別、屬性關系、方位關系進行測試,并且單獨測試目標準確率和音頻識別準確率,當兩者都識別成功的情況下,計算總體任務成功率結果如表1所示。
表1 總體實驗結果
根據實驗結果進行分析,由于3種類型的測試場景整體比較干凈清晰,因此對于視覺上的指示表達關系來說,目標準確率的結果相對較高。音頻識別準確率根據不同的指令需求,識別率也相對不一,因此整個任務的總體成功率出現了不同的情況。在第1種操作指令下,只需定位到單一類別目標,不需要檢索所有候選目標,因此相對于第2種操作指令,音頻識別的準確率較高。而對于第3種探索性的指令,由于物體種類增加,場景的復雜度提高,整個視覺的識別率相對下降,而操作任務簡單,因此整個音頻識別率相對提高。
為了進一步驗證本文的機器人視聽操作系統的實用性,在相同的場景和指令下,設計了無聽覺檢測的模塊如圖12所示,選取物品的方式依照均勻采樣的規則完成操作任務。因為實驗的目的是驗證整個系統,而抓取任務不是研究的重點,當機械臂的五指靈巧手抓取失敗時,選擇把目標物體放在手掌以保證實驗的順利進行。在對比實驗中,本文選取了相同的場景進行了測試,并且計算了OTSR指數,視聽框架的準確率可以達到45.4%,而無音頻模塊的只有24.7%??梢园l現,在結合多模態數據的情況下,機器人感知目標更加準確,能夠有效提升任務成功率。
圖12 多模態系統實驗對比流程
05 結束語
為了給機器人提供更復雜的操作能力,本文構建了一個能夠接收自然語言指令并具有視覺、聽覺的多模態融合的機器人操作系統。其中視覺感知模塊能夠分析指令中的指示關系,并且定位到目標物體,聽覺感知模塊能夠預測目標物體類別。對于每個感知模塊,在構建的多模態數據集中進行了實驗驗證,結果表明本文的實驗系統在接收多模態數據的情況下比單一模態的表現能力更強。然而目前本文設計的操作指令和場景單一,在未來的工作中,將繼續增加目標物品的種類,以及設計更復雜且帶有歧義的場景和操作指令,構建一個端對端的機器人行為框架。
審核編輯 :李倩
-
機器人
+關注
關注
211文章
28466瀏覽量
207311 -
神經網絡
+關注
關注
42文章
4772瀏覽量
100838
原文標題:機器人視覺聽覺融合的感知操作系統
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論