視覺-語言導航任務(Vision-Language Navigation, VLN)是指在陌生環境中,無人系統依據語言指示和觀測圖像之間的跨模態匹配信息,進行自主智能路徑導航的方法。不同于前進、后退等簡單操控指令,VLN采用類似人人交互的語言指示,比如“走出右側大門,穿過臥室和客廳,在綠色地毯上的餐桌旁停下”。VLN是一種新型的跨模態智能人機交互方法,能夠極大地提升無人系統的自主能力,能夠為無人系統走向實用提供關鍵技術支撐。
序列到序列(Sequence to Sequence, Seq2Seq)模型是VLN最常見的模型之一。Seq2Seq首先對語言指令進行序列編碼,再根據逐步觀測的視覺圖像,進行序列移動方向預測解碼,從而實現智能導航。最新的研究表明:在解碼時,利用Beam-Search進行多條路徑探索,通過路徑評價函數獲得最優導航路徑,可以獲得更好的導航精度。但現有工作使用的路徑評價函數是由局部方向選擇算子組合構建的,在全局多條路徑對比上能力不足,可能會出現嚴重偏差,如圖1。
圖1 VLN分數偏差問題示例
為了解決該問題,軍事科學院國防科技創新研究院智能人機交互團隊設計了新型全局路徑評估函數,提出了一種全局對比訓練的策略,大幅提升了VLN的導航精度。相關論文《Vision-Language Navigation with Beam-Constrained Global Normalization》已被國際知名期刊 IEEE Transactions on Neural Networks and Learning Systems錄用;該論文在提交時,算法性能在公開VLN數據集R2R(Room-to-Room)上排名第一。
榜單地址:https://eval.ai/web/challenges/challenge-page/97/leaderboard/270
主要工作與貢獻該論文提出了一種基于全局對比訓練的視覺-語言導航方法,可以對候選路徑進行跨模態全局匹配評估。不同于傳統方法,該論文主要聚集在如何利用正確路徑和錯誤路徑進行對比訓練,獲得較優的全局語言-路徑匹配評估函數,有效提升VLN的導航精度。論文算法框架可以分為兩個部分:(1)Baseline:Seq2Seq模型,基于局部訓練的序列動作預測,用于訓練語言-路徑匹配的局部評估函數;(2)全局對比訓練模型:基于全局對比訓練的全局評估函數。在測試時,將局部評估函數和全局評估函數進行結合,實現高精度的導航路徑預測,如圖2所示。
圖2 基于全局對比訓練的VLN框架
A Baseline 如圖2所示,該論文選擇Seq2Seq模型作為Baseline,首先將語言信息進行編碼,再基于視覺信息進行動作預測解碼。語言編碼:利用LSTM對輸入的自然語言文本進行編碼,獲得文本指令的特征向量。視覺編碼:利用ResNet-152對觀測圖像進行特征提取,結合運動方向特征進行視覺編碼。動作預測:采用Seq2Seq模型進行動作解碼,獲得序列導航動作。進度監視器:作為一項必不可少的輔助推理任務,進度監視器可以提供來自環境的額外訓練信息。訓練:局部對比訓練,只考慮當前環境及下一步動作。局部評估函數:通過將局部方向選擇概率值累加,獲得整個路徑與描述語言的匹配度。B 基于Beam-Search的全局對比訓練策略
Baseline將一個路徑的匹配度計算分解為單步方向選擇得分累加,由于單步方向得分是單獨計算的,沒有明確涵蓋全局信息,因此將Baseline評估函數稱為局部評估函數。由于局部評估函數沒有從全局視角考慮路徑和語言的匹配度,所以局部得分累加的方式容易出現匹配錯誤,為了緩解這一問題,本文提出了明確的全局匹配評估函數,并設計了全局訓練策略進行優化訓練,從而獲得高效的全局匹配評估函數。
具體來說,本文訓練了一個全局評估子模型,主要用來進行路徑-語言全局匹配評估,從而使得不同路徑的評估得分更加具有可比性。
圖3 深度多模態相似性模塊和speaker模塊示意圖
DMSM模塊:計算語言的整體描述特征與路徑視覺的整體描述特征之間的距離;距離越近,則路徑和語言越匹配。Speaker模塊:根據路徑反向生成指令語言的概率,是VLN的逆命題,可以反映全局路徑和語言的匹配度。全局對比訓練:在訓練時,利用Beam-Search搜索出多條正確路徑和多條錯誤路徑,設計對比損失函數,使得正確路徑得分高于錯誤路徑,可以有效地對全局評估模塊DMSM和Speaker模塊進行訓練。全局評估函數:在測試時,對于任意一對路徑和語言,分別利用DMSM和Speaker模塊對二者之間的匹配度進行計算,通過線性疊加,可以獲得該路徑的全局評估得分。
實驗結果算法的測試是在VLN公開數據集上進行的。本文對比了多個現有經典VLN算法,實驗結果表明,本文提出的算法導航精度比Baseline高出13%,顯著度較高;在同期VLN算法的導航精度最高,證明了本文算法的有效性。
總結與展望本研究提出了一種 VLN 全局對比訓練方法,用于緩解現有局部評估函數在全局路徑-語言匹配評估方面的不足。該方法核心要點是如何從錯誤路徑/負樣本中學到有用的信息,這是現有其他VLN算法關注較少的地方,也是本文的落腳點,實驗結果表明了本文方法的有效性。
最近,通過視覺-語言跨模態預訓練模型在VLN中性能表現優越,比如VLN BERT,相對于傳統LSTM模型,預訓練能夠獲得更多的先驗知識,能夠為VLN提供更魯棒的基礎框架,本文未來工作將在VLN BERT等預訓練模型的基礎上,進一步利用全局對比訓練方法,實現更高效的VLN算法。
原文標題:VLN: 基于全局對比訓練的視覺-語言導航方法
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
智能導航
+關注
關注
0文章
23瀏覽量
9961 -
函數
+關注
關注
3文章
4338瀏覽量
62739 -
訓練模型
+關注
關注
1文章
36瀏覽量
3868
原文標題:VLN: 基于全局對比訓練的視覺-語言導航方法
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論