電子發燒友網報道(文/李彎彎)近日,英偉達與慕尼黑大學等院校的研究人員聯合發布了一篇有關視頻潛在擴散模型(VideoLDM,Latent Diffusion Model)的論文,該模型能夠將文本轉換成視頻,實現高分辨率的長視頻合成。
研究人員指出,該模型其中一大具有潛力的應用領域,是駕駛數據的高分辨率視頻合成,能夠模擬特定駕駛場景,在自動駕駛領域中具有巨大的應用潛力。
AI大模型在自動駕駛領域的應用探索
當下,文字大模型、文生圖大模型發展迅速,受限于視頻訓練數據的計算成本高昂以及缺乏大規模公開可用的數據集等原因,視頻大模型的發展相對較慢。VideoLDM則成功解決了這個關鍵問題。
從原理上來分析,VideoLDM基于圖像數據集預訓練,并在此基礎上加入時間維度以形成視頻框架,最后在編碼的視頻序列上進行微調,得到視頻生成器。
目前,VideoLDM生成視頻的最高分辨率可達2048×1280、24幀。在論文中,該研究團隊給出了幾個駕駛場景視頻的生成案例:
在自動駕駛領域,AI大模型被認為能夠賦能感知標注、決策推理等環節。今年4月11日,毫末智行了一款自動駕駛生成式大模型DriveGPT,中文名雪湖·海若。據介紹,毫末DriveGPT雪湖·海若現階段主要用于解決自動駕駛的認知決策問題。
DriveGPT雪湖·海若的底層模型采用GPT(Generative Pre-trained Transformer)生成式預訓練大模型,與ChatGPT使用自然語言進行輸入與輸出有所不同,DriveGPT輸入是感知融合后的文本序列,輸出是自動駕駛場景文本序列,即將自動駕駛場景Token化,形成“Drive Language”,最終完成自車的決策規控、障礙物預測以及決策邏輯鏈的輸出等任務。
毫末表示,DriveGPT雪湖·海若首發車型新摩卡DHT-PHEV,即將量產上市。DriveGPT雪湖·海若可以逐步應用到城市NOH、捷徑推薦、智能陪練以及脫困場景中。
汽車是AI大模型一大重要應用場景
隨著眾多AI大模型的發展,其商業應用場景也引起諸多思考,其中汽車被認為是其中一大重要的應用場景。最近,百度、阿里、商湯發布AI大模型,都在汽車智能方面展示出能力。
3月16日,百度正式發布文心一言,在發布會上,李彥宏展示了文心一言在文學創作、商業文案創作、數理推算、中文理解、多模態生成五個使用場景中的綜合能力。
其中在多模態生成方面,文心一言展示出了文本、圖片、音頻和視頻的生成能力。李彥宏表示,多模態是生成式AI一個明確的發展趨勢。未來,隨著百度多模態統一大模型的能力增強,文心一言的多模態生成能力會不斷提升。
文心一言發布之后,長安汽車官宣,旗下逸達將成為國內首款搭載文心一言的量產車型,后續將通過軟件升級的形式搭載到新車上。除了長安汽車外,集度、吉利、嵐圖、紅旗、長城、東風日產、愛馳、零跑、海馬等多家車企都已確認將內測體驗并接入其相關能力,與百度共同打造針對汽車智能場景的大模型人工智能交互體驗。
4月11日,阿里也正式發布其AI大模型通義千問。與文心一言、ChatGPT類似,作為大語言模型,通義千問支持多輪交互及復雜指令理解、多模態融合以及外部增強API,能夠實現多輪對話、文案創作、邏輯推理、多模態理解、多語言支持等功能。
在近日第二十屆上海國際汽車工業展覽會上,阿里集團副總裁、斑馬智行CEO張春暉談到,汽車是大模型最大的交互應用場景,智能汽車操作系統將會被重塑。他表示,AliOS智能汽車操作系統已接入通義千問大模型進行測試,相關技術會率先在智己汽車上落地。
商湯科技推出的“日日新SenseNova”大模型體系,含中文語言大模型應用平臺“商量SenseChat”、圖片生成模型“秒畫SenseMirage”、AI數字人視頻生成平臺“如影SenseAvatar”、3D內容生成平臺“瓊宇SenseSpace”和“格物SenseThings”等,
在此次展會上,商湯科技展示了其大模型在車艙智能化方面的實力,商湯語言大模型“商量SenseChat”會與嘉賓交流互動,并推薦個性化體驗內容。商量SenseChat還支持郵件模式,會自動提煉郵件關鍵信息,幫助用戶節省閱讀時間。“秒畫SenseMirage”文生圖創作平臺亦首次與展示艙結合,借助商湯AIGC模型能力自動為嘉賓生成各種風格的照片。
在“日日新SenseNova”大模型體系的支持,其自動駕駛產品方案也獲得持續創新的能力。商湯絕影率先實現BEV感知在國內首批量產落地,還首創自動駕駛GOP感知體系,充分提升數據利用效率,引領感知技術突破。
商湯絕影的自動駕駛GOP感知體系可將目標數據獲取的人力成本降低94%,目前已投入量產。憑借通用視覺模型,絕影有效實現了對超過3000種物體目標的高精度識別,降低智能駕駛系統對激光雷達和高精度地圖的依賴。
小結
今年以來,AI大模型的發展如火如荼,國內外眾多科技企業紛紛入局。隨著各種AI大模型陸續發布,其商業應用場景也引起業界關注,而汽車被認為是其中一大重要的應用場景。
從目前的情況來看,百度、阿里發布的AI大模型已經在推進汽車領域的應用。不過當前主要還是在智能座艙方面,用于人工智能交流對話等領域,在自動駕駛方面的應用少有提及。估計原因在于,雖然其AI大模型都具有視頻生成能力,但這方面的能力還有待升級。就如李彥宏在發布會上就提到,視頻生成能力方面,因為成本較高,現階段還未對所有用戶開放,當然未來會逐步接入。
可以看到,AI大模型在汽車的智能座艙、自動駕駛等領域都將有所作為,業界也正在推進AI大模型加速上車,預計在智能座艙方面會率先落地,而在自動駕駛方面還需要在視頻能力方面有更多突破。而英偉達此次發布視頻模型論文,可能會起到一定的引領作用。
-
英偉達
+關注
關注
22文章
3770瀏覽量
90984 -
自動駕駛
+關注
關注
784文章
13784瀏覽量
166383
發布評論請先 登錄
相關推薦
評論