色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種多模態駕駛場景生成框架UMGen介紹

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-03-24 15:57 ? 次閱讀

? 論文地址:

https://arxiv.org/abs/2503.14945

?項目主頁:

https://yanhaowu.github.io/UMGen/

概述

端到端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態,忽略了其他關鍵模態的建模,如地圖信息、智能交通參與者等,從而限制了其在真實駕駛場景中的適用性。

為此,我們提出了一種多模態駕駛場景生成框架——UMGen,該框架能夠全面預測和生成駕駛場景中的核心元素,包括自車運動、靜態環境、智能交通參與者以及圖像信息。具體而言,UMGen將場景生成建模為Next-Scene Prediction任務,利用幀間并行自回歸與幀內多模態自回歸技術,使得一個統一模型即可生成以自車為中心、模態協同一致的駕駛場景序列。UMGen生成的每個場景均包含自車、地圖、交通參與者、圖像等多種模態信息,并可靈活擴展至更多模態,以適應不同應用需求。

UMGen不僅能夠靈活生成多樣化的駕駛場景,還支持基于用戶設定生成特定駕駛情境,例如控制自車執行左轉、右轉,或模擬他車cut-in等復雜交互行為。憑借這一交互式生成能力,UMGen可為自動駕駛系統的訓練提供稀缺樣本,從而提升模型的泛化能力。同時,它還可用于構建閉環仿真環境,對端到端自動駕駛系統進行全面測試與優化,甚至支持自博弈式訓練,進一步增強系統的智能決策能力。

UMGen生成的多模態場景,視頻中的每一個模態(自車動作,地圖,交通參與者,圖像)都由模型自行想象生成

方法

7b2334ba-057b-11f0-9310-92fbcf53809c.png

Pipeline of UMGen

UMGen從給定的初始場景序列開始,逐場景、自回歸地生成多模態駕駛場景。我們首先根據歷史信息預測自車要采取的動作,然后根據這一動作預測觀察到的地圖變化,以及其他交通參與者的行動,最后將這些信息映射到圖像中。為實現這一目標,我們將每個時刻的場景元素(包括自車動作、地圖、交通參與者以及攝像頭圖像)轉換為有序的token序列,從而將生成任務轉化為Next-token Prediction任務。一個很直觀的想法是將來自不同幀、不同模態的token直接拼接在一起,然后使用一個decoder-only的transformer進行預測。但是這樣做,token數量會隨著場景長度的增加而迅速增加,使得算力需求變得無法接受。

為了解決這一問題,我們提出了一種兩階段序列預測方法,將整體任務劃分為幀間預測和幀內預測兩個階段。在幀間預測階段,我們設計了時序自回歸模塊 (TAR) ,該模塊通過因果注意力機制對幀間的時序演化進行建模,確保每個token僅依賴于其歷史狀態,從而捕捉時間維度上的動態變化。在幀內預測階段,我們引入了有序自回歸模塊 (OAR) ,該模塊通過指定幀內模態生成的順序(自車動作→地圖元素→交通參與者→攝像頭圖像,如下視頻所示),建立場景內不同模態之間的關聯,從而保證模態間的一致性。TAR和OAR模塊協同工作,不僅有效捕捉了跨模態的時序依賴關系,還顯著降低了計算復雜度,為高效生成多模態駕駛場景提供了技術保障。同時,為了增強自車動作與地圖變化之間的模態一致性,我們還提出了AMA模塊,根據自車動作計算affine transformation矩陣對地圖特征進行變換,充分利用地圖這種靜態元素的時序先驗提升預測精度。

UMGen生成過程可視化

實驗及可視化

UMGen在nuPlan數據集上進行訓練,并通過可視化和定量實驗證明其具備自由幻想多模態駕駛場景的能力,以及按照用戶需求生成特定駕駛場景的能力。此外,我們還展示了UMGen在閉環仿真中的應用潛力:通過將自定義的自車動作注入UMGen中替換生成的自車動作,UMGen實時生成了相對應的下一時刻場景。

以下對部分實驗結果進行展示。

自由幻想生成駕駛場景序列

由UMGen自主推理生成場景,用戶不對UMGen提供任何額外的控制信號

A. 生成長時序多模態駕駛場景

B. 生成多樣駕駛場景

自車受控下的場景生成

用戶控制自車動作以生成指定行為模式下的多模態場景。

A. 在路口控制自車直行或者右轉

B. 控制自車停車等待或者變道超車

用戶指定的場景生成

在此模式下,用戶可通過控制指定交通參與者的動作以創造場景。

在該場景中,通過設定黑色汽車的橫向速度,我們創造了一個"他車突然變道插入"的危險場景,并控制自車剎車或者變道完成規避。

利用Diffusion Model進一步提升圖像

質量

受到近期Diffusion模型的啟發,我們訓練了一個基于transformer的Diffusion模型。通過將UMGen生成的token作為condition,我們實現了更高質量的圖像生成。

小圖為原始生成圖像,大圖為Diffusion模型生成圖像

總結

UMGen在統一框架內實現了多模態駕駛場景的生成,每個場景包含自車動作、地圖、交通參與者以及對應的圖像信息。其交互式生成的能力,展現了廣泛的應用潛力, 如作為閉環仿真器的核心組件以及corner case數據生成器等。在未來的研究中,將更多模態數據(如激光雷達點云)納入生成框架中,將是一個值得探索的方向,這有望進一步提升場景生成的豐富性和實用性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3438

    瀏覽量

    49595
  • 自動駕駛
    +關注

    關注

    788

    文章

    14048

    瀏覽量

    168193

原文標題:CVPR 2025 | UMGen:多模態駕駛場景生成統一框架

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于模態語義SLAM框架

    本文提出了個魯棒且快速的模態語義 SLAM 框架,旨在解決復雜和動態環境中的 SLAM 問題。具體來說,將僅幾何聚類和視覺語義信息相結合,以減少由于小尺度對象、遮擋和運動模糊導致的
    的頭像 發表于 08-31 09:39 ?1920次閱讀

    松靈新品丨全球首款模態?ROS開發平臺LIMO來了,將聯合古月居打造精品課程 精選資料分享

    地形通過性和場景的適應性直是無人駕駛、機器人等場景化所需要突破的難題。通過多
    發表于 08-30 08:39

    一種基于圖像平移的目標檢測框架

    集。本文提出了一種基于圖像平移的目標檢測框架,以解決在不利條件下目標檢測精度下降的問題。我們提出利...
    發表于 08-31 07:43

    介紹一種嵌入式框架模板的構建方案

    介紹一種嵌入式框架模板的構建方案
    發表于 02-22 06:25

    一種尺度視點特性視圖生成方法的研究和應用_謝冰

    一種尺度視點特性視圖生成方法的研究和應用_謝冰
    發表于 03-15 09:27 ?0次下載

    文化場景下的模態情感識別

    自動情感識別是個非常具有挑戰性的課題,并且有著廣泛的應用價值.本文探討了在文化場景下的模態情感識別問題.我們從語音聲學和面部表情等
    發表于 12-18 14:47 ?0次下載

    模態生物特征識別系統框架

    針對模態生物特征識別系統并行融合模式中使用方便性和使用效率方面的問題,在現有序列化模態生物特征識別系統的基礎上,提出了一種結合并行融合和
    發表于 01-02 18:47 ?0次下載
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>生物特征識別系統<b class='flag-5'>框架</b>

    一種無監督下利用模態文檔結構信息幫助圖片-句子匹配的采樣方法

    Approach for Image-Sentence Matching UsingDocument-Level Structural Information,提出了一種無監督設定下,更有效地利用模態文檔
    的頭像 發表于 12-26 10:26 ?2287次閱讀
    <b class='flag-5'>一種</b>無監督下利用<b class='flag-5'>多</b><b class='flag-5'>模態</b>文檔結構信息幫助圖片-句子匹配的采樣方法

    任意文本、視覺、音頻混合生成模態有了強大的基礎引擎CoDi-2

    CoDi )模型,讓一種模型統多種模態成為可能。CoDi 不僅支持從單模態到單模態生成,還
    的頭像 發表于 12-03 20:20 ?757次閱讀
    任意文本、視覺、音頻混合<b class='flag-5'>生成</b>,<b class='flag-5'>多</b><b class='flag-5'>模態</b>有了強大的基礎引擎CoDi-2

    大模型+模態的3實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強大、更通用呢?本節將
    的頭像 發表于 12-13 13:55 ?2219次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3<b class='flag-5'>種</b>實現方法

    人工智能領域模態的概念和應用場景

    隨著人工智能技術的不斷發展,模態成為了個備受關注的研究方向。模態技術旨在將不同類型的數據和信息進行融合,以實現更加準確、高效的人工智能
    的頭像 發表于 12-15 14:28 ?1.1w次閱讀

    OneLLM:對齊所有模態框架

    OneLLM 是第個在單個模型中集成八不同模態的MLLM。通過統框架和漸進式
    的頭像 發表于 01-04 11:27 ?1213次閱讀
    OneLLM:對齊所有<b class='flag-5'>模態</b>的<b class='flag-5'>框架</b>!

    什么是模態模態的難題是什么?

    模態大模型,通常大于100M~1B參數。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發表于 01-17 10:03 ?5187次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態</b>?<b class='flag-5'>多</b><b class='flag-5'>模態</b>的難題是什么?

    字節跳動發布OmniHuman 模態框架

    2 月 6 日消息,字節跳動近日發布了項重大成果 ——OmniHuman 模態框架,其優勢在于其強大的視頻生成能力。用戶只需提供
    的頭像 發表于 02-07 17:50 ?576次閱讀

    端到端自動駕駛模態軌跡生成方法GoalFlow解析

    自動駕駛軌跡規劃往往采用直接回歸軌跡的方法,這種方式雖在測試中能取得不錯的性能,可直接輸出當前場景下最有可能的軌跡或控制,但它難以對自動駕駛場景中常見的
    的頭像 發表于 03-18 17:59 ?175次閱讀
    端到端自動<b class='flag-5'>駕駛</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>軌跡<b class='flag-5'>生成</b>方法GoalFlow解析
    主站蜘蛛池模板: 亚洲日本欧美日韩高观看 | 久久无码AV亚洲精品色午夜 | 在线视频免费观看 | 一起洗澡的老师免费播放 | 日本久久中文字幕精品 | 激情丛林电影完整在线 | 国产精品97久久AV麻豆 | 无限资源在线观看8 | 暖暖日本手机免费完整版在线观看 | 伊人久久大香线蕉综合bd高清 | 翁熄性放纵交换01 | 麻豆人妻无码性色AV | 国产又湿又黄又硬又刺激视频 | 久久精品国产亚洲AV热无遮挡 | 99亚偷拍自图区亚洲 | 护士日本xx厕所 | 色 花 堂 永久 网站 | 国产成人片视频一区二区青青 | 国产在线观看91精品 | 狼人大香伊蕉国产WWW亚洲 | 一本到2v不卡区 | 中文字幕亚洲欧美日韩2019 | 夜色资源站国产www在线视频 | 97在线国内自拍视频 | 美女拔萝卜 | 亚洲欧洲日产国码久在线 | 久久只有这里有精品4 | 国产亚洲精品在浅麻豆 | 人人干人人插 | 手机在线播放成人亚洲影院电影 | 亚洲 色 欧美 爱 视频 日韩 | 草久久久久 | 嗯啊好爽视频 | 亚洲精品一本之道高清乱码 | 久久国产欧美日韩精品免费 | 久久香蕉国产线看观看首页 | 欧美内射深插日本少妇 | 在线亚洲中文精品第1页 | 久久三级网站 | 挺进绝色老师的紧窄小肉六 | 伦理片天堂eeuss影院 |