色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于視覺語言模型的導航框架VLMnav

INDEMIND ? 來源:INDEMIND ? 2024-11-22 09:42 ? 次閱讀

本文提出了一種將視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發現VLM可以作為一種無需任何微調或導航數據的端到端策略來使用。這使得該方法具有開放性和可適用于任何下游導航任務的通用性。

01本文核心內容

導航問題的很大一部分涉及到與回答長上下文圖像和視頻問題所需的類似認知過程,這正是當代視覺語言模型(VLMs)擅長的領域。然而,當這些模型被直接應用于導航任務時,局限性便顯現出來。具體而言,當給定一個與觀察-動作歷史相結合的任務描述時,VLMs 常常難以生成精細的空間輸出以避開障礙物,并且無法有效利用其長上下文推理能力來支持有效的導航。

為應對這些挑戰,先前的工作將VLMs作為模塊化系統的一個組成部分,以執行高級推理和識別任務。這些系統通常包含一個明確的3D映射模塊和一個規劃器來處理任務中更具實體性的部分,例如運動和探索。雖然模塊化具有讓每個組件僅用于其擅長的子任務的優勢,但也帶來了系統復雜性和任務專業化的劣勢。

在本研究中,我們表明,現成的VLM可用作零樣本和端到端的語言條件導航策略。實現這一目標的關鍵思路是將導航問題轉化為VLM擅長的事情:回答有關圖像的問題。

為此,我們開發了一種新穎的提示策略,使VLM能夠明確考慮探索和避障問題。這種提示具有通用性,即它可用于任何基于視覺的導航任務。

與先前的方法相比,我們未使用特定模態的experts,未訓練任何特定領域的模型,也未假定能夠獲取模型的概率。

我們在已確立的具身導航基準上對我們的方法進行了評估,結果表明,與現有的提示方法相比,我們的方法顯著提高了導航性能。

02相關工作

最常見的學習端到端導航策略的方法是利用離線數據集從頭訓練模型。然而,大規模導航數據的收集頗具挑戰,以致這些模型在推廣至新任務或分布外環境時往往表現不佳。

另一種增強泛化能力的途徑是利用機器人特定數據對現有的視覺語言模型進行微調。盡管此方法能生成更穩健的端到端策略,但微調可能會破壞微調數據集中未涵蓋的特征,最終限制模型的泛化能力。

還有一種研究方向側重于零樣本使用這些模型,通過提示使模型的響應與任務規范相符。例如,使用CLIP或DETIC特征將視覺觀測與語言目標對齊,構建環境的語義地圖,并采用傳統方法進行規劃。其他研究工作設計了特定模塊來處理探索任務。這些系統通常需要對置信度進行估計,以知曉何時停止探索,這通常通過使用令牌或對象概率來實現。此外,許多此類方法還采用了低級導航模塊,將動作選擇抽象為諸如快速行進法之類的預訓練點到點策略。

視覺提示方法:為了提升VLMs的任務特定性能,近期的工作包括在將圖像傳遞給VLMs之前對其進行物理修改。

為具身導航提示VLMs:CoNVOI在圖像上覆蓋數字標記,并提示VLMs輸出與上下文線索(例如,留在人行道上)一致的這些標記序列,將其用作導航路徑。與我們的工作不同,它們(i)依賴低級規劃器來避開障礙物,而非直接將VLMs的輸出作為導航動作;(ii)未利用VLMs引導代理朝向特定目標位置。PIVOT引入了一種與我們最為相似的視覺提示方法。他們通過將單步動作表示為指向圖像上帶標簽圓圈的箭頭來處理導航問題。在每個步驟中,從各向同性的高斯分布中采樣動作,其均值和方差根據VLMs的反饋迭代更新。在優化分布后選擇最終動作。雖然PIVOT能夠處理各種現實世界的導航和操作任務,但它有兩個顯著缺陷:(i)未納入深度信息來評估動作提議的可行性,導致移動效率較低;(ii)選擇單個動作需要多次調用VLMs,導致較高的計算成本和延遲。

03方法架構

我們提出了VLMnav,這一導航系統將目標G(可以用語言或圖像來指定)、RGB-D圖像I、姿態ξ作為輸入,并隨后輸出動作a。動作空間由機器人框架中繞偏航軸的旋轉和沿前軸的位移組成,使得所有動作都能以極坐標來表示。由于已知VLM在處理連續坐標時存在困難,我們轉而將導航問題轉換為從一組離散選項中選擇動作。我們的核心思路是以避免障礙物碰撞并促進探索的方式來選擇這些動作選項。

我們首先通過使用深度圖像來估計障礙物的距離,從而確定局部區域的可通行性。我們利用深度圖像和姿態信息來維持場景的自上而下的體素地圖,并顯著地將體素標記為已探索或未探索。這樣的地圖由動作提議器使用,以確定一組避免障礙物并促進探索的動作。然后,通過投影組件將這組可能的動作投影到第一人稱視角的RGB圖像上。最后,VLM接收此圖像和精心設計的提示作為輸入,以選擇一個動作,由代理執行。為確定情節的終止,我們使用一個單獨的VLM調用。

04實驗

我們在兩個廣受歡迎的具身導航基準測試ObjectNav和GoatBench上對我們的方法進行了評估,這兩個基準測試均使用了來自Habitat-Matterport3D數據集的場景。此外,我們還分析了端到端VLM智能體的性能如何隨設計參數的變化而改變,例如視場、用于提示模型的上下文歷史長度以及深度感知的質量。

設置:智能體采用半徑為0.17米、高度為1.5米的圓柱體形狀。我們為智能體配備了一個以自我為中心的RGB-D傳感器,其分辨率為(1080,1920),水平視場角(FOV)為131°。攝像頭像中那樣向下傾斜25°,有助于確定可導航性。考慮到其成本低且效果好,我們在所有實驗中均使用GeminiFlash作為VLM。

指標:與之前的工作相同,我們使用以下指標:(i)成功率(SR):成功完成的情節所占的比例;(ii)成功率加權逆路徑長度(SPL):路徑效率的衡量指標。

基線:我們使用PIVOT作為基線,因為它與我們的方法最為相似。為研究我們的動作選擇方法的影響,我們將其剔除,評估“Oursw/onav”:與我們的方法相同,但不含可導航性和動作提議器組件。此基線的動作選擇是一組靜態的、等距分布的動作選擇,包括轉身動作。值得注意的是,這些動作未考慮可導航性或探索。為進一步評估視覺注釋的影響,我們還評估了基線“PromptOnly”,它能看到以文本描述的動作(“轉身”、“向右轉”、“向前移動”等),但沒有視覺注釋。這些不同的提示基線可在圖5中可視化。

05總結

在這項工作中,我們提出了VLMnav,這是一種新穎的視覺提示工程方法,能夠使現成的VLM充當端到端的導航策略。該方法背后的主要思路是精心挑選動作提議并將其投射到圖像上,有效地將導航問題轉化為問答問題。通過在ObjectNav和GOAT基準上的評估,我們發現其性能相較于迭代基線PIVOT(在視覺導航提示工程方面先前的最先進水平)有了顯著提升。我們的設計研究進一步凸顯了寬視場的重要性以及僅使用RGB圖像來部署我們的方法的可能性。

我們的方法存在一些局限性。禁用“允許滑動”參數后性能的大幅下降表明存在多次與障礙物的碰撞,這在實際部署中可能會成為問題。此外,我們發現像[A benchmark for multi-modal lifelongnavigation]這樣的專用系統表現優于我們的工作。然而,隨著VLM能力的不斷提高,該方法或能夠幫助未來的VLM在具身任務中達到或超越專用系統的性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 導航
    +關注

    關注

    7

    文章

    538

    瀏覽量

    42795
  • 語言模型
    +關注

    關注

    0

    文章

    550

    瀏覽量

    10482
  • 深度圖像
    +關注

    關注

    0

    文章

    19

    瀏覽量

    3550

原文標題:實現端到端導航!基于視覺語言模型的導航框架VLMnav

文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    如何利用Transformers了解視覺語言模型

    模型稱為 “視覺語言模型是什么意思?一個結合了視覺語言模態的
    發表于 03-03 09:49 ?1156次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【大語言模型:原理與工程實踐】大語言模型的評測

    計算和代碼糾錯等。這些場景覆蓋日常生活和學習的多個方面,使得對話能力評測變得尤為復雜和關鍵。為了全面評估大語言模型在各種應用場景下的對話能力,研究人員和使用者需要一套綜合性的評測框架。該框架
    發表于 05-07 17:12

    視覺導航關鍵技術及應用

    由于視覺導航技術的應用越來越普及 ,因此 ,有必要對視覺導航中的關鍵技術及應用進行研究。文章對其中的圖像處理技術和定位與跟蹤技術進行了詳細研究 ,并與此相對應 ,介紹的相關的應用。
    發表于 09-25 08:09

    基于視覺自動導航車的物資搬運系統設計

    通過對基于視覺的自動導航車(AGV)設計方法的研究,提出了應用自動導航車設計物資搬運系統的框架結構。系統利用無線收發模塊進行主從工作站間的實時無線通訊,利用CCD 攝像
    發表于 06-18 09:34 ?27次下載

    視覺導航技術的詳細資料概述

    概述了視覺導航技術。視覺導航依據視覺圖像,利用圖像處理、計算機視覺
    發表于 08-04 17:02 ?8次下載
    <b class='flag-5'>視覺</b><b class='flag-5'>導航</b>技術的詳細資料概述

    視覺信號輔助的自然語言文法學習

    提出了視覺信號輔助下的概率文法的通用學習框架。 該框架依賴于概率文法模型(Probabilistic Context-Free Grammars),具有端到端學習、完全可微的優點。其次
    的頭像 發表于 01-05 14:14 ?2252次閱讀
    <b class='flag-5'>視覺</b>信號輔助的自然<b class='flag-5'>語言</b>文法學習

    可同步目標導向行為和記憶空間結構的視覺導航方法

    框架,同時添加碰撞預測作為模型輔助仼務;然后,在智能體學刁導航過程中,利用時間相關性網絡祛除冗余觀測及尋找導航節點,實現通過情景記憶遞増描述環境結構;最后,將空間拓撲地圖作為路徑規劃模
    發表于 03-24 14:36 ?11次下載
    可同步目標導向行為和記憶空間結構的<b class='flag-5'>視覺</b><b class='flag-5'>導航</b>方法

    超大Transformer語言模型的分布式訓練框架

    NVIDIA Megatron 是一個基于 PyTorch 的框架,用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐,探索這一框架
    的頭像 發表于 10-11 16:46 ?2915次閱讀
    超大Transformer<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的分布式訓練<b class='flag-5'>框架</b>

    探究超大Transformer語言模型的分布式訓練框架

    NVIDIA Megatron 是一個基于 PyTorch 的框架,用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹Megatron的設計和實踐,探索這一框架
    的頭像 發表于 10-20 09:25 ?2575次閱讀

    視覺語言導航領域任務、方法和未來方向的綜述

    視覺語言導航(VLN)是一個新興的研究領域,旨在構建一種可以用自然語言與人類交流并在真實的3D環境中導航的具身代理,與計算機
    的頭像 發表于 09-20 14:30 ?4942次閱讀

    機器人基于開源的多模態語言視覺模型

    ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發表于 01-19 11:43 ?507次閱讀
    機器人基于開源的多模態<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-06 10:28 ?324次閱讀

    NaVILA:加州大學與英偉達聯合發布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力,為智能機
    的頭像 發表于 12-13 10:51 ?468次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發表于 02-12 11:13 ?810次閱讀
    一文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能
    的頭像 發表于 03-17 15:32 ?372次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析
    主站蜘蛛池模板: 91久久偷偷看嫩草影院无费 | 在线高清电影理论片4399 | 久久天天躁狠狠躁夜夜躁 | 欧美精品九九99久久在免费线 | 国产高清亚洲日韩字幕一区 | 乱h好大噗嗤噗嗤烂了 | 精品国产自在现线拍国语 | 丝袜情趣在线资源二区 | 艳鉧动漫1~6全集观看在线 | 99re久久免费热在线视频手机 | 伊人网伊人网 | 免费观看男生桶美女私人部位 | 国家产午夜精品无人区 | 亚洲日韩国产精品乱-久 | 性欧美video| 2022年国产精品久久久久 | 色悠久久久久综合欧美99 | 97超级碰碰人妻中文字幕 | 果冻传媒2021在线观看 | 色尼玛亚洲| 一攻多受h嗯啊巨肉bl巨污 | 亚洲乱亚洲乱妇在线观看 | 亚洲免费福利在线视频 | 久久精品美女久久 | 古代荡女丫鬟高H辣文纯肉 姑娘视频日本在线播放 | 日本护士hd| 亚洲欧美日韩国产手机在线 | 野花日本完整版在线观看免费高清 | 中文在线观看永久免费 | 四虎影视国产精品亚洲精品 | 伊人久久久久久久久香港 | 99无码熟妇丰满人妻啪啪 | 99国产福利 | 亚洲国产成人精品久久久久 | 欧洲最强rapper潮水喷视频 | 丰满大爆乳波霸奶 | 3DNagoonimation动漫 | 24小时日本在线电影 | 翁熄性放纵交换300章 | 同时和两老师双飞 | 97资源总站(中文字幕) |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品