電子發燒友網報道(文/吳子鵬)近日,一款名為DUSt3R的AI新工具在GitHub上爆火。DUSt3R能夠在短短2秒鐘內通過僅有2張圖片完成3D 重建,讓許多網友大呼驚奇,甚至認為這比之前熱門的Sora更加實用。
有考古從業者稱,在考古現場,構建3D模型是非常必要且難度很大的工作,通過DUSt3R快速重建出土文物的3D形狀,是一個非常高效的方式。同時,DUSt3R在游戲和建筑等領域也有非常多的應用場景。
目前,DUSt3R在GitHub上的熱度非常高,已經排名在GitHub熱榜的第二名。根據網友實測,只需要拍攝兩張照片,DUSt3R就可以完成家庭廚房或者摩托車的3D建模,并且除了3D圖,還有深度圖、置信度圖和點云圖。
圖源:naverlabs.com
圖源:naverlabs.com
DUSt3R突破3D建模技術屏障
實際上,早在一兩年前GPT剛剛興起的時候,就有人討論過通過AI模型工具來完成3D建模,不過當時的試驗結果表明,這是一項非常難的工作。
根據當時的討論,AIGC用于3D內容生成,主要有三個方面的挑戰。其一是原始訓練素材庫需要比較高質量的2D圖片,且需要的數量比較大,并輔助大量的計算資源來配合。不過,受限于當時的算法模型,最終出來的效果都不太好。
其二是算法模型本身,在GPT熱潮初期,文生文,以及文生圖,都是2D層面的探索,生成復雜的3D模型需要更加復雜的算法。有算法工程師指出,這是完全不一樣的算法模型,需要從底層重新梳理。
其三是質量缺陷。基于當時的算法和算力設施,生成3D模型并非不能完成的任務,不過完成的質量是非常糟糕的,需要進行大量的后期處理和優化,往往這個修復的工作量是超出傳統建模的工作量的。
隨后產業界也有很多嘗試,比如GET3D和3D-GAN等工具可以生成網格(Mesh)的3D模型,這些工具大部分在 ShapeNet等3D數據集上進行訓練,具有一定的質量,不過基本是單體建模,且復雜度不高。目前,有很多3D工具是基于differentiable rasterizer基礎算法的。
在OpenAI的工具體系中,OpenAI Point·E其實也是一款3D生成工具,不過并不是原生的3D,而是從2D升維到3D,也就是先通過文字提示借助2D diffusion 模型生成2D圖像,然后用3D點云的diffusion模型對圖片進行升維。谷歌的DreamFusion和英偉達的Magic3D也是屬于這個類型。
當然,上述工具都有一個通病,那就是幾乎都需要半小時以上的時間才能夠完成復雜3D模型的建立,和DUSt3R之間有很大的差距。
據悉,DUSt3R帶來了一個3D模型生成的新范式,不需要任何相機校準或視點姿勢的先驗信息,就可完成任意圖像的密集或無約束3D重建。傳統的3D AI工具,通常需要MVS估計相機參數,并在3D空間中對相應的像素進行三角測量。不過,DUSt3R并不需要這些。如下圖所示,DUSt3R能夠基于一組具有未知相機姿態和內在特征的照片,生成對應的一組點圖,并給出相機參數、像素對應關系、深度圖等重要參數。因此這款工具不僅降低了輸入數據的門檻,同時讓輸出數據質量大幅提升,輸出數據需要的時間大幅縮短。
圖源:naverlabs.com
DUSt3R論文作者表示,DUSt3R統一了單圖3D生成和雙圖3D生成的技術路徑,在提供兩個以上圖像的情況下,DUSt3R帶來了更加有效的全局對齊策略,該策略在一個共同的參考框架中展現出所有成對的點云圖。
綜合而言,DUSt3R具備以下幾個特點:支持多視圖立體重建,無需相機校準信息,支持更加有效的全局對齊策略,提供3D模型和深度信息,并可以恢復像素匹配和相機信息,無疑這是一款強大的3D AI工具。
更重要的是,DUSt3R基于標準的變壓器編碼器和解碼器就可以工作,讓用戶能夠更加容易地利用這個強大的3D AI工具。如果DUSt3R能夠順利落地,那么醫療、游戲、影視、建筑、產品設計和虛擬現實等領域將大大受益。
國產公司在3D AI中的機會
DUSt3R強大的性能讓很多網友直呼:忘掉Sora吧,DUSt3R才是未來。實際上,這確實也是AI大模型一個迭代的方向。從ChatGPT代表的文生文,到DALL?E代表的文生圖,再到Sora代表的文生視頻,多模態大模型的發展方向就是不斷挖掘多模態大模型的潛力,生成更加復雜的信息。中泰證券在相關文章中直言,繼文本、代碼、圖片、視頻之后,下一個有可能實現突破的模態大概率是3D,“SORA之后的下一步:文生3D”。
那么,面對市場大趨勢,國內公司該如何捕捉商機呢?匯總多份3D AI研報可以發現,國內目前在文生3D方面具有一定的技術儲備,也有一些代表公司。
比如掌趣科技,該公司是一家提供3D引擎的公司。2023年11月,掌趣科技與LAYABOX達成戰略合作協議。雙方將共同致力于打造一款具有創新意義的AI游戲引擎,為廣大游戲開發者提供更加智能、自動化的解決方案,推動游戲產業技術革新,共建高質量的AIGC開發生態體系。而游戲是3D模型重要的應用領域。
還有凡拓數創、絲路視覺、風語筑等3D內容提供商,也有一定的技術儲備。以凡拓數創為例,該公司以“AI+3D”為方向,致力于展館數字化革新,結合數字技術與文化創意, 以總體設計、3D數字內容制作、軟件開發、系統集成等數字展館一體化服務,未來AIGC、AI算法、BI大數據、WEB3D等前沿技術是凡拓數創的技術方向,數字孿生、虛擬人、知識圖譜等產品則是產品方向。
另外,像恒信東方已經開始嘗試將GPT、擴散模型應用與2D概念設計和分鏡工作流、3D引擎和其他制作工具API融入3D內容創作,也有文生3D方面的技術儲備。
除了上述有望直接參與文生3D落地的,國內在CAX領域、BIM領域的相關公司也有望從潮流中受益,比如中望軟件、索辰科技、浩辰軟件等CAX工具服務商,可以給相關產品帶來專業的技術支持。
結語
DUSt3R驚艷的面世,讓我們進一步見識了多模態大模型的實力,繼文本、代碼、圖片、視頻之后,文生3D是重要的產業發展方向,賦能醫療、游戲、影視、建筑、產品設計和虛擬現實等領域發展。對于國內公司而言,目前基本處于市場外圍,還需要進一步實現核心技術攻關。
-
3D
+關注
關注
9文章
2875瀏覽量
107481
發布評論請先 登錄
相關推薦
評論