NVIDIA Maxine是一款云AI視頻流平臺,將使用GAN來提高帶寬性能
Ming-Yu Liu 和Arun Mallya 正在進行視頻通話,其中一個人的畫面開始出現卡頓,直至畫面定格。這是一種常見且令人反感的情況。但與大多數人不同的是,Liu和Mallya可以做出一些改變。他們是NVIDIA的AI研究人員,專攻計算機視覺。在與Ting-Chun Wang共事中,他們意識到可以使用神經網絡來替代被稱為視頻編解碼器的軟件,這種軟件通常用于視頻在網絡傳輸過程中的壓縮和解壓縮。
迄今為止,他們的工作成果將用戶在視頻通話時所需的網絡帶寬壓縮至原來的十分之一,還有望將帶寬消耗降低數個數量級。Mallya表示:“我們希望通過AI提供更好的視頻溝通體驗,即使在帶寬極低的情況下,也可以從語音升級到視頻通話?!?/span>
GAN讓連接質量更佳
即使用戶的面部有遮擋(比如戴著帽子、眼鏡、耳機或口罩),這項技術同樣適用。為了增加趣味性,他們在演示中使用了一些裝飾物,這樣用戶可以在線上更改其發型或衣服或者創建頭像。更重要的是,如上圖所示,借助神經網絡定位,無需再盯著顯示器上方攝像頭才能與對方對視,這增強了面對面對話的感覺。Wang表示:“借助計算機視覺技術,我們可以從多個角度來定位頭部。我們認為這將幫助人們更自然地進行對話?!?/span>迎接最前沿的AI技術,讓虛擬生活更真實。
AI賦能視頻通話的原理
AI輔助視頻通話的工作機制十分簡單。與目前使用壓縮的視頻流的系統類似,參考圖像發送后,僅用戶眼睛、鼻子和嘴巴周圍幾個關鍵點的位置數據被發送,而非發送大量壓縮過像素的圖像。接收端的生成式對抗網絡通過初始圖像和面部關鍵點,在本地GPU上重構后續圖像。因此,通過網絡傳輸的數據要比之前少得多。
Liu在GAN領域的工作成果GauGAN曾引發關注。GauGAN是一種可以將涂鴉轉化為寫實藝術作品的AI工具,目前已經創建了超過一百萬張圖像。該工具可在AI Playground中獲取。Liu表示:“疫情期間頻繁的視頻會議啟發了我們,因此我們開始探索突破帶寬瓶頸的方式,讓供應商可以同時為更多人提供服務。”
GPU突破帶寬瓶頸
這一方法順應當前行業趨勢,將網絡瓶頸轉化為計算任務,從而借助本地或云端資源更輕松地解決此類問題。NVIDIA媒體集團高級產品總監Andrew Page表示:“如今,許多公司希望將帶寬問題轉化為計算問題,這是因為帶寬一般很難增加,而增強算力則相對容易?!?/span>
NVIDIA Maxine搭配了一套視頻會議和流媒體服務工具
AI 工具優化視頻服務
GAN視頻壓縮是NVIDIA Maxine即將推出的幾個功能之一,這是一個云AI視頻流平臺,用于增強視頻會議和電話質量。它將音頻、視頻和對話式AI功能整合在一個工具包中,并支持多種設備。在上周的GTC大會上,NVIDIA宣布推出了Maxine平臺。基于該平臺,服務提供商能夠在提供超高分辨率的視頻的同時,實現實時翻譯、噪聲消除和情景感知的閉路字幕。用戶可以享受到人臉校正、虛擬助手和化身逼真的動畫角色等功能。
Page表示:“視頻會議正在經歷一場復興。疫情期間,它的缺點給所有人帶來了不愉快的使用體驗,但回歸視覺動物的屬性,視頻終將成為人們今后生活中的一部分?!?span style="text-indent: 2em;">通過利用基于Tensor Core核心的NVIDIA GPU,Maxine可運行如NVIDIA Jarvis的軟件。NVIDIA Jarvis是用于對話式AI的SDK,提供了一套語音和文本功能。 它們共同提供了當今有用的AI功能,并成為未來視頻產品和服務的基石。
fqj
-
AI
+關注
關注
87文章
31097瀏覽量
269432 -
視頻通話
+關注
關注
0文章
49瀏覽量
11783
發布評論請先 登錄
相關推薦
評論