英偉達進入 AI 生成模型領域的研究,直接比別人多一個次元:一句描述生成 3D 模型。
我們生活在三維的世界里,盡管目前大多數應用程序是 2D 的,但人們一直對 3D 數字內容有很高的需求,包括游戲、娛樂、建筑和機器人模擬等應用。
然而,創建專業的 3D 內容需要很高的藝術與審美素養和大量 3D 建模專業知識。人工完成這項工作需要花費大量時間和精力來培養這些技能。
需求大又是「勞動密集型行業」,那么有沒有可能交給 AI 來做?上周五,英偉達提交到預印版論文平臺 arXiv 的論文引起了人們的關注。
和現在流行的 NovelAI 差不多,人們只需要輸入一段文字比如「一只坐在睡蓮上的藍色箭毒蛙」,AI 就能給你生成個紋理造型俱全的 3D 模型出來。
Magic3D 還可以執行基于提示的 3D 網格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型內容。此外,作者還展示了保持畫風,以及將 2D 圖像樣式應用于 3D 模型的能力。
Stable Diffusion 的論文在 2022 年 8 月才首次提交,幾個月就已經進化到這樣的程度,不禁讓人感嘆科技發展的速度。
英偉達表示,你只需要在這個基礎上稍作修改,生成的模型就可以當做游戲或 CGI 藝術場景的素材了。
3D 生成模型的方向并不神秘,其實在 9 月 29 日,谷歌曾經發布過一款文本到 3D 的生成模型 DreamFusion,英偉達在 Magic3D 的研究中直接對標該方法。
類似于 DreamFusion 用文本生成 2D 圖像,再將其優化為體積 NeRF(神經輻射場)數據的流程,Magic3D 使用兩階段生成法,用低分辨率生成的粗略模型再優化到更高的分辨率。
英偉達的方法首先使用低分辨率擴散先驗獲得粗糙模型,并使用稀疏 3D 哈希網格結構進行加速。用粗略表示作為初始,再進一步優化了帶紋理的 3D 網格模型,該模型具有與高分辨率潛在擴散模型交互的高效可微分渲染器。
Magic3D 可以在 40 分鐘內創建高質量的 3D 網格模型,比 DreamFusion 快 2 倍(后者平均需要 1.5 小時),同時還實現了更高的分辨率。統計表明相比 DreamFusion,61.7% 的人更喜歡英偉達的新方法。
連同圖像調節生成功能,新技術為各種創意應用開辟了新途徑。
論文鏈接:https://arxiv.org/abs/2211.10440
技術細節
Magic3D 可以在較短的計算時間內根據文本 prompt 合成高度詳細的 3D 模型。Magic3D 通過改進 DreamFusion 中的幾個主要設計選擇來使用文本 prompt 合成高質量的 3D 內容。
具體來說,Magic3D 是一種從粗到精的優化方法,其中使用不同分辨率下的多個擴散先驗來優化 3D 表征,從而生成視圖一致的幾何形狀以及高分辨率細節。Magic3D 使用監督方法合成 8 倍高分辨率的 3D 內容,速度也比 DreamFusion 快 2 倍。
Magic3D 的整個工作流程分為兩個階段:在第一階段,該研究優化了類似于 DreamFusion 的粗略神經場表征,以實現具有基于哈希網格(hash grid)的內存和計算的高效場景表征。
在第二階段該方法切換到優化網格表征。這個步驟很關鍵,它允許該方法在高達 512 × 512 的分辨率下利用擴散先驗。由于 3D 網格適用于快速圖形渲染,可以實時渲染高分辨率圖像,因此該研究利用基于光柵化的高效微分渲染器和相機特寫來恢復幾何紋理中的高頻細節。
基于上述兩個階段,該方法可以生成高保真的 3D 內容,并且很容易在標準圖形軟件中導入和可視化。
此外,該研究展示了用文本 prompt 對 3D 合成過程的創造性控制能力,如下圖 1 所示。
為了對比實際應用效果,英偉達的研究人員把 Magic3D 和 DreamFusion 在 397 個文本提示生成的內容上進行了比較。平均的粗略模型生成階段花費 15 分鐘,精細階段訓練了 25 分鐘,所有運行時間均在 8 塊英偉達 A100 GPU 上測得。
雖然論文和 demo 只是第一步,但英偉達已經為 Magic3D 想好了未來的應用方向:給游戲和元宇宙世界提供制作海量 3D 模型的工具,而且讓所有人都可以上手使用。
當然,最早上線這項功能的可能會是英偉達自己的 Omniverse。
審核編輯 :李倩
-
3D
+關注
關注
9文章
2885瀏覽量
107595 -
NVIDIA
+關注
關注
14文章
4994瀏覽量
103143 -
AI
+關注
關注
87文章
30985瀏覽量
269271
原文標題:一句話生成3D模型!NVIDIA提出Magic3D:高分辨率文本到3D內容創建
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論