實(shí)時(shí)通信應(yīng)用程序(如虛擬協(xié)作和內(nèi)容創(chuàng)建應(yīng)用程序)的音頻和視頻質(zhì)量是衡量用戶(hù)實(shí)時(shí)通信體驗(yàn)的真正標(biāo)準(zhǔn)。他們嚴(yán)重依賴(lài)網(wǎng)絡(luò)帶寬和用戶(hù)設(shè)備質(zhì)量。
狹窄的網(wǎng)絡(luò)帶寬和低質(zhì)量的設(shè)備會(huì)產(chǎn)生不穩(wěn)定且嘈雜的音頻和視頻輸出。由于用戶(hù)同時(shí)產(chǎn)生和消費(fèi)音頻和視頻,因此可損壞流的數(shù)量增加,這一問(wèn)題往往變得更加復(fù)雜。用戶(hù)通過(guò)部署內(nèi)容創(chuàng)建工具進(jìn)一步加劇了音頻和視頻擁塞。
為了使您能夠增強(qiáng)實(shí)時(shí)通信應(yīng)用程序的實(shí)時(shí)音頻和視頻質(zhì)量, NVIDIA Maxine提供 GPU – 加速 SDK 來(lái)執(zhí)行以下操作:
改進(jìn)標(biāo)準(zhǔn)麥克風(fēng)和網(wǎng)絡(luò)攝像頭經(jīng)驗(yàn)通過(guò)視頻效果、音頻效果和 AR SDK 功能。
支持將多個(gè)音頻、視頻和增強(qiáng)現(xiàn)實(shí)功能實(shí)時(shí)鏈接到端到端管道中使用 Maxine 構(gòu)建新的或集成到已構(gòu)建的端到端管道中。
包括轉(zhuǎn)錄和翻譯當(dāng)與 NVIDIA Riva一起使用 Maxine 時(shí),這是一個(gè)用于構(gòu)建對(duì)話(huà) AI 應(yīng)用程序的 SDK 。
簡(jiǎn)言之, Maxine 為具有高音頻和視頻質(zhì)量的虛擬協(xié)作和內(nèi)容創(chuàng)建應(yīng)用程序提供了最高的性能,無(wú)論是在 PC 機(jī)、內(nèi)部部署還是在具有 GPU 的云數(shù)據(jù)中心。
在本文中,您將了解:
用戶(hù)在使用 Maxine SDK 進(jìn)行實(shí)時(shí)通信應(yīng)用時(shí)體驗(yàn)到的音頻和視頻增強(qiáng)功能。
使用 Maxine 、 NVIDIA 視頻編解碼器 SDK和 Riva 構(gòu)建端到端管道的好處。
Maxine SDK 的真實(shí)示例在視頻會(huì)議、內(nèi)容創(chuàng)建和實(shí)時(shí)流媒體應(yīng)用程序中提供了集成功能。
圖 1 與 Maxine 和 Riva SDK 的端到端管道
將標(biāo)準(zhǔn)音頻和視頻設(shè)備轉(zhuǎn)換為智能設(shè)備
NVIDIA Maxine 由視頻特效 SDK 、音頻特效 SDK 和 AR SDK 組成,具有 GPU – 經(jīng)過(guò)數(shù)十萬(wàn)小時(shí)培訓(xùn)開(kāi)發(fā)的最先進(jìn)的人工智能加速功能。
使用Maxine 視頻效果 SDK,您可以將標(biāo)準(zhǔn)網(wǎng)絡(luò)攝像頭輸入轉(zhuǎn)換為高質(zhì)量視頻。視頻改進(jìn)如下:
圖像更清晰,細(xì)節(jié)更豐富,通過(guò) Maxine 超分辨率和放大功能實(shí)現(xiàn)。
顯著降低網(wǎng)絡(luò)攝像頭傳感器類(lèi)型、曝光和低照度造成的視頻噪音集成了 Maxine 視頻降噪功能。
塊狀偽影、響聲和蚊子噪音消除應(yīng)用 Maxine 偽影減少功能。
用戶(hù)選擇的虛擬背景,通過(guò)虛擬背景功能啟用(圖 2 )。
有關(guān)如何使用標(biāo)準(zhǔn)網(wǎng)絡(luò)攝像頭輸入運(yùn)行這些效果并將其集成到應(yīng)用程序中的更多信息,請(qǐng)參閱將嘈雜的低分辨率視頻轉(zhuǎn)換為高質(zhì)量視頻,為最終用戶(hù)帶來(lái)迷人的體驗(yàn)。
Maxine 音頻效果 SDK提供的人工智能模型可以消除幾乎任何類(lèi)型的音頻噪音–阻礙窄帶、寬帶和超寬帶音頻,并提高通話(huà)質(zhì)量。使用 Maxine 解決音頻質(zhì)量差問(wèn)題的好處如下:
沒(méi)有不必要的背景噪音例如交流噪音、建筑噪音、交通噪音或鍵盤(pán)敲擊聲。有關(guān)通過(guò)噪聲消除功能消除的背景噪聲類(lèi)型的完整列表的更多信息,請(qǐng)參閱關(guān)于背景噪聲抑制效果。
沒(méi)有無(wú)法理解的聲音或聲音失真,也就是說(shuō),在具有反射表面的大空間中說(shuō)話(huà)時(shí),不會(huì)出現(xiàn)混響。通過(guò) Maxine Room 回聲消除功能可實(shí)現(xiàn)消除。
為了獲得更好的端到端質(zhì)量,您可以組合 Maxine audio effects 功能。有關(guān)如何構(gòu)建具有卓越音質(zhì)的虛擬協(xié)作和內(nèi)容創(chuàng)建應(yīng)用程序的更多信息,請(qǐng)參閱為虛擬協(xié)作和內(nèi)容創(chuàng)建應(yīng)用程序?qū)崿F(xiàn)無(wú)噪音音頻。
Maxine 增強(qiáng)現(xiàn)實(shí) SDK使您能夠從網(wǎng)絡(luò)攝像頭視頻中創(chuàng)建有趣且引人入勝的 AR 效果,并在應(yīng)用程序中使用這些效果來(lái)吸引用戶(hù)、了解用戶(hù)情緒或創(chuàng)建 3D 照片逼真的化身。
Maxine AR SDK 提供人臉跟蹤、人臉地標(biāo)跟蹤和人臉網(wǎng)格功能(圖 3 )。
圖 3 。 Maxine AR 人臉相關(guān)特征示意圖
面跟蹤在面周?chē)鷦?chuàng)建邊界框,并隨時(shí)間跟蹤面位置。
人臉地標(biāo)跟蹤識(shí)別鼻子、眼睛和嘴唇等面部特征,并實(shí)時(shí)跟蹤它們。
人臉網(wǎng)格用 3D 網(wǎng)格表示人臉, 3D 網(wǎng)格模擬用戶(hù)實(shí)時(shí)變化的人臉,可用于人臉身份驗(yàn)證和構(gòu)建化身。
人臉跟蹤和人臉地標(biāo)跟蹤可用于跟蹤駕駛員注意力,或用于面罩和眼鏡檢測(cè)應(yīng)用。
使用 Maxine Body Pose Estimation 功能,您可以創(chuàng)建用于理解用戶(hù)姿勢(shì)的應(yīng)用程序,并將其用于人體活動(dòng)識(shí)別、運(yùn)動(dòng)傳輸和實(shí)時(shí)虛擬交互。
快速構(gòu)建實(shí)時(shí)的端到端管道
在構(gòu)建音頻和視頻管道時(shí),開(kāi)發(fā)人員通常自定義 AI 模型以實(shí)現(xiàn)所需的音頻和視頻效果。此外,他們的管道必須支持多種平臺(tái),如嵌入式、 PC 和服務(wù)器,還必須滿(mǎn)足低延遲和高吞吐量的視頻處理要求。事實(shí)證明,這樣的管道是計(jì)算密集型的。通常在運(yùn)營(yíng)成本和音頻和視頻流質(zhì)量之間進(jìn)行權(quán)衡。
NVIDIA Maxine 及其周?chē)纳鷳B(tài)系統(tǒng)完全有能力應(yīng)對(duì)這一挑戰(zhàn)。通過(guò)利用 NVIDIA GPU s 提供的加速功能和最先進(jìn)的 AI 模型功能,您可以構(gòu)建提供更好用戶(hù)體驗(yàn)的應(yīng)用程序,同時(shí)管理相關(guān)成本。這就是它的工作原理。
Maxine AI 功能
NVIDIA Maxine 的核心是三個(gè) SDK ,它們提供多種 AI 功能。這些功能提高了視頻分辨率,消除了音頻和視頻中的噪音,并提供了獨(dú)特的功能。
圍繞 Maxine 的 NVIDIA 生態(tài)系統(tǒng)由兩個(gè)關(guān)鍵產(chǎn)品 NVIDIA 視頻編解碼器 SDK和 NVIDIA Riva 組成。
使用視頻編解碼器 SDK ,您可以訪(fǎng)問(wèn)提供硬件加速編碼和解碼功能的 NVNC 和 NVDEC API 。
使用 NVIDIA Riva ,您可以構(gòu)建對(duì)話(huà) AI ,通過(guò)提供轉(zhuǎn)錄和翻譯等功能來(lái)幫助增強(qiáng)虛擬協(xié)作體驗(yàn)。
所有這些特性都是 GPU 加速的,因此可以處理的介質(zhì)量遠(yuǎn)遠(yuǎn)高于基于 CPU 的管道。
例如,考慮一下德國(guó)的一個(gè)生產(chǎn)層經(jīng)理,他與美國(guó)的高管們?cè)陉P(guān)鍵業(yè)務(wù)決策上進(jìn)行遠(yuǎn)程互動(dòng)。工廠(chǎng)往往位于互聯(lián)網(wǎng)連接有限的偏遠(yuǎn)地區(qū),生產(chǎn)車(chē)間往往是淹沒(méi)在大量背景噪音中的大房間。
使用 Maxine 噪音消除功能,經(jīng)理可以消除生產(chǎn)車(chē)間的背景噪音。
通過(guò)消除房間回聲,他們可以消除音頻混響。
通過(guò) Riva 翻譯,生產(chǎn)車(chē)間經(jīng)理和高管可以用他們喜歡的語(yǔ)言進(jìn)行溝通。
通過(guò)視頻噪聲消除和超分辨率,一個(gè)嘈雜的 360p 視頻被轉(zhuǎn)換成清晰的 1440p 視頻。
經(jīng)理可以用干凈的背景掩蓋生產(chǎn)車(chē)間的雜亂。
圖 4 強(qiáng)調(diào)了使用和不使用 Maxine 時(shí)用戶(hù)體驗(yàn)的巨大差異。
圖 4 具有 Maxine 生態(tài)系統(tǒng)的視頻會(huì)議管道:Maxine,視頻編解碼器和Riva
模塊化 Maxine 設(shè)計(jì)產(chǎn)品的優(yōu)勢(shì)在于,您可以輕松選擇和集成現(xiàn)有管道中所需的 SDK ,或者從頭開(kāi)始構(gòu)建新的端到端管道。 Maxine 和圍繞 Maxine 的生態(tài)系統(tǒng)使您能夠快速構(gòu)建一個(gè)高吞吐量的端到端管道,接收嘈雜的數(shù)據(jù)流,并將其實(shí)時(shí)轉(zhuǎn)換為一種無(wú)噪音、高質(zhì)量、高實(shí)用性的體驗(yàn),可供所有設(shè)備使用。
使用 Maxine SDK 的增壓應(yīng)用程序的真實(shí)示例
為了展示如何集成 Maxine 特性,我們選擇了幾個(gè)實(shí)際示例,每個(gè)主要用例一個(gè)。
阿瓦亞空間
阿瓦亞空間是一個(gè)基于 CPaaS 的現(xiàn)代會(huì)議和工作流協(xié)作平臺(tái),提供高清晰度視頻會(huì)議、視頻合成、會(huì)議錄制、實(shí)時(shí)轉(zhuǎn)錄和云級(jí)別的持久協(xié)作。
Avaya 的目標(biāo)是實(shí)現(xiàn)大規(guī)模提供實(shí)時(shí)、高質(zhì)量媒體服務(wù)的民主化,無(wú)論用戶(hù)的設(shè)備質(zhì)量如何,也不管用戶(hù)在世界各地的位置如何,以瀏覽器為第一體驗(yàn)。為了實(shí)現(xiàn)這些目標(biāo)并優(yōu)化媒體處理, Avaya 將底層基于云的 CPaaS 與 NVIDIA Maxine 技術(shù)相結(jié)合。
通過(guò)將一系列 GPU 連接到容器和虛擬機(jī)的云部署,可實(shí)現(xiàn) 100% 的正常運(yùn)行時(shí)間。服務(wù)器根據(jù)需求進(jìn)行旋轉(zhuǎn),便于與數(shù)千名參與者進(jìn)行大規(guī)模、實(shí)時(shí)、雙向視頻交互會(huì)議。
Avaya 使用 Maxine Noise Remove 功能來(lái)滿(mǎn)足計(jì)算成本高、延遲有限的預(yù)算,以滿(mǎn)足人們對(duì)干凈清晰的音頻的需求,而無(wú)背景噪音,并且由于設(shè)備質(zhì)量低和網(wǎng)絡(luò)性能差,對(duì)音頻和語(yǔ)音間隙的容忍度較低。與傳統(tǒng)的 DSP 方法相比, Maxine 噪聲消除功能更強(qiáng)大,涵蓋范圍更廣。它可以在不在端點(diǎn)上運(yùn)行的情況下實(shí)現(xiàn)低延遲,但盡可能靠近網(wǎng)絡(luò)邊緣。此外,由于基于 AI 的算法延遲低于 40ms ,因此音頻管道中沒(méi)有緩沖。
Avaya 還使用獨(dú)特的 Maxine 虛擬背景功能,將多個(gè)揚(yáng)聲器疊加在演示文稿上,以獲得更具吸引力的演示文稿。最終用戶(hù)不必?fù)碛刑厥獾挠布?a href="http://www.1cnz.cn/soft/special/" target="_blank">下載任何軟件。他們可以在任何設(shè)備上實(shí)現(xiàn)這一點(diǎn),并且可以靈活地創(chuàng)建不同類(lèi)型的布局。
借助 Maxine 虛擬背景功能, Avaya 為移動(dòng)和處于復(fù)雜體位的揚(yáng)聲器提供強(qiáng)大的視頻分割。有關(guān) Maxine 如何使 Avaya 提供專(zhuān)業(yè)、高質(zhì)量、無(wú)處不在、可從任何平臺(tái)訪(fǎng)問(wèn)的最終用戶(hù)體驗(yàn)的更多信息,請(qǐng)參閱 Avaya 最近的 GTC 課程 NVIDIA 的 Maxine 如何改變我們的溝通方式。
Notch
Notch是一種用于 3D 、 VFX 和實(shí)時(shí)事件視覺(jué)效果的實(shí)時(shí)圖形工具。為舞臺(tái)表演創(chuàng)造效果通常需要一個(gè)單獨(dú)的昂貴攝像頭和跟蹤解決方案來(lái)跟蹤身體運(yùn)動(dòng)。在某些情況下,生成視覺(jué)效果對(duì)于處理完整的攝影機(jī)提要(包括背景)變得很棘手。
通過(guò) Maxine 實(shí)時(shí)人臉跟蹤和身體姿勢(shì)估計(jì)功能, Notch 使藝術(shù)家能夠通過(guò)減少對(duì)定制硬件跟蹤系統(tǒng)的需求,大大簡(jiǎn)化現(xiàn)場(chǎng)活動(dòng)舞臺(tái)的設(shè)置。取而代之的是,凹口可以使用標(biāo)準(zhǔn)的攝像設(shè)備。用戶(hù)可以進(jìn)一步使用骨骼體數(shù)據(jù)的運(yùn)動(dòng)捕捉裝備來(lái)控制 3D 角色動(dòng)畫(huà)。
通過(guò) Maxine AI 驅(qū)動(dòng)的虛擬背景功能, Notch 用戶(hù)可以創(chuàng)建視頻處理效果,將人與背景分開(kāi),并將處理僅應(yīng)用于舞臺(tái)上的人才或背景本身。這一簡(jiǎn)單的過(guò)程具有高分辨率和精度,適用于復(fù)雜條件,如深色衣服和復(fù)雜的照明條件。有關(guān)更多信息,請(qǐng)參閱演示視頻切口 0 。 9 。 23 。 195 NVIDIA 貼片釋放走查。
Be.Live
另一個(gè)使用 Maxine 虛擬背景功能的例子是在實(shí)時(shí)流媒體空間。Be.Live是一個(gè)實(shí)時(shí)流媒體工作室,幫助企業(yè)、 SMB 和零售商創(chuàng)建專(zhuān)業(yè)的實(shí)時(shí)流媒體,而無(wú)需學(xué)習(xí)曲線(xiàn)。它們?cè)谠浦羞\(yùn)行與虛擬背景相關(guān)的所有進(jìn)程。
無(wú)論是希望與觀(guān)眾建立聯(lián)系的小企業(yè),還是建立雇主與雇員溝通的企業(yè), Maxine 和 Be 。 Live 都提供了一種解決方案,使頂層背景刪除在主機(jī)后面沒(méi)有綠色屏幕。除了享受高質(zhì)量的背景,無(wú)需升級(jí)網(wǎng)絡(luò)攝像頭和工作室設(shè)置,用戶(hù)還可以節(jié)省計(jì)算能力,體驗(yàn)更好的流媒體體驗(yàn)。
Be 。 Live 的目標(biāo)是在 Live Commerce 生態(tài)系統(tǒng)中實(shí)施 Maxine 虛擬背景創(chuàng)新,因?yàn)樵摷夹g(shù)可以幫助許多品牌在無(wú)需太多投資的情況下啟動(dòng)其實(shí)時(shí)購(gòu)物流。
關(guān)于作者
About Gordana Neskovic
Gordana Neskovic 是AI/DL產(chǎn)品營(yíng)銷(xiāo)團(tuán)隊(duì)的成員,負(fù)責(zé) NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor擔(dān)任過(guò)各種產(chǎn)品營(yíng)銷(xiāo)、數(shù)據(jù)科學(xué)家、AI架構(gòu)師和工程職位。她擁有博士學(xué)位。圣塔 Clara 大學(xué),塞爾維亞貝爾格萊德大學(xué)電氣工程碩士和學(xué)士學(xué)位。
About Tanay Varshney
Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營(yíng)銷(xiāo)工程師,負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,專(zhuān)注于計(jì)算機(jī)視覺(jué)、數(shù)據(jù)可視化和城市分析的橫斷面。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5013瀏覽量
103246 -
揚(yáng)聲器
+關(guān)注
關(guān)注
29文章
1307瀏覽量
63084 -
應(yīng)用程序
+關(guān)注
關(guān)注
37文章
3283瀏覽量
57749
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論