這個(gè)被稱為 QUEEN 的模型支持低帶寬、高質(zhì)量的場(chǎng)景生成,可用于工業(yè)機(jī)器人操作、3D 視頻會(huì)議和直播等流媒體應(yīng)用。
NVIDIA Research 與馬里蘭大學(xué)合作開發(fā)的 AI 模型 QUEEN 將內(nèi)容直播帶入全新的維度。有了 QUEEN,直播自由視角視頻有望成為現(xiàn)實(shí),也就是說,觀眾可以從任意視角體驗(yàn) 3D 場(chǎng)景。
QUEEN 可用于構(gòu)建沉浸式直播應(yīng)用,例如教授烹飪等技能、讓球迷就像身處球場(chǎng)一樣從任意視角觀看比賽,或者在工作場(chǎng)所舉行更加身臨其境的視頻會(huì)議。QUEEN 也能用于工業(yè)環(huán)境,幫助操作員遠(yuǎn)程操控倉庫或工廠中的機(jī)器人。
該模型在本月于溫哥華舉行的年度 AI 盛會(huì) NeurIPS 上進(jìn)行了展示。
NVIDIA 研究總監(jiān)、杰出研究科學(xué)家 Shalini De Mello 表示:“要想近乎實(shí)時(shí)地直播自由視角視頻,就必須同時(shí)重建和壓縮 3D 場(chǎng)景。QUEEN 巧妙地平衡了壓縮率、視覺質(zhì)量、編碼時(shí)間和渲染時(shí)間等各種因素,從而創(chuàng)建了一個(gè)優(yōu)化的流程,為視覺質(zhì)量和可直播性樹立了新的標(biāo)桿。”
通過減少渲染量,重復(fù)利用
和循環(huán)利用等方式實(shí)現(xiàn)高效直播
自由視角視頻通常使用來自各種攝像角度拍攝的視頻素材制作而成,例如多機(jī)位拍攝、倉庫里的一組安防攝像頭或是辦公室中的視頻會(huì)議攝像頭系統(tǒng)。
以往用于生成自由視角視頻的 AI 方法要么占用過多的內(nèi)存用于直播,要么為了縮小文件大小而犧牲視覺質(zhì)量,而 QUEEN 在兩者之間取得了平衡。即便是存在火花、火焰或毛茸動(dòng)物的動(dòng)態(tài)場(chǎng)景,也能輕松地把高質(zhì)量的視頻內(nèi)容從主機(jī)服務(wù)器傳輸?shù)娇蛻舳嗽O(shè)備。而且,與之前的方法相比,它還能夠更快地渲染視頻內(nèi)容以進(jìn)行直播。
在大多數(shù)真實(shí)環(huán)境中,場(chǎng)景中的許多元素都是靜止不動(dòng)的。在視頻中,這意味著某個(gè)幀中的大部分像素與其它幀中的像素相同。為了節(jié)省計(jì)算時(shí)間,QUEEN 跟蹤并重復(fù)使用這些靜態(tài)區(qū)域的渲染,從而騰出資源來專注于重建那些隨時(shí)間變化的內(nèi)容。
研究人員使用了一塊 NVIDIA Tensor Core GPU,在多個(gè)基準(zhǔn)測(cè)試中評(píng)估 QUEEN 的性能,他們發(fā)現(xiàn)該模型的表現(xiàn)在一系列指標(biāo)上都優(yōu)于目前最先進(jìn)的在線自由視角視頻制作方法。對(duì)于從不同角度拍攝同一場(chǎng)景的 2D 視頻,通常只需不到五秒的訓(xùn)練時(shí)間,就能以每秒約 350 幀的速度渲染自由視角視頻。
同時(shí)實(shí)現(xiàn)高速度和高視覺質(zhì)量,這意味著音樂會(huì)和體育賽事轉(zhuǎn)播能夠提供身臨其境般的虛擬現(xiàn)實(shí)體驗(yàn)或比賽集錦的即時(shí)回放。
在倉庫場(chǎng)景中,機(jī)器人操作員可以利用 QUEEN,在操縱物體時(shí)更精準(zhǔn)地測(cè)量深度。在視頻會(huì)議中,例如 SIGGRAPH 和 NVIDIA GTC 大會(huì)上的 3D 視頻會(huì)議 demo,它可以幫助主持人演示烹飪或折紙等場(chǎng)景,同時(shí)讓觀眾可以選擇最適合自己學(xué)習(xí)的視角。
NVIDIA 為 NeurIPS 制作和撰寫了 50 多篇學(xué)術(shù)海報(bào)和論文,QUEEN 是其中之一。這些學(xué)術(shù)海報(bào)和論文介紹了在模擬、機(jī)器人和醫(yī)療等領(lǐng)域具有巨大應(yīng)用前景的開創(chuàng)性 AI 研究成果。
首次介紹了 GAN 模型的論文《生成式對(duì)抗網(wǎng)絡(luò)》在 NeurIPS 2024 大會(huì)上榮獲“時(shí)間檢驗(yàn)獎(jiǎng)”。該論文被引用超過 8.5 萬次,其中一個(gè)作者是 NVIDIA 的杰出工程師 Bing Xu。
NVIDIA Research 在全球擁有數(shù)百名科學(xué)家和工程師,專注于 AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、自動(dòng)駕駛汽車和機(jī)器人等領(lǐng)域的研究,歡迎點(diǎn)擊“閱讀原文”查看他們的最新研究成果 。
大型語言模型、模擬和建模、邊緣 AI 等領(lǐng)域的學(xué)術(shù)科研人員可以申請(qǐng) NVIDIA 學(xué)術(shù)資助計(jì)劃。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4978瀏覽量
102987 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886 -
模型
+關(guān)注
關(guān)注
1文章
3226瀏覽量
48807
原文標(biāo)題:NVIDIA Research 開發(fā)的模型實(shí)現(xiàn)了快速、高效的動(dòng)態(tài)場(chǎng)景重建
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論