過去幾年,我們探索工作的初衷是什么?就是如何在未來提供更好的沉浸式的通訊體驗(yàn)。
我們所從事的是通信技術(shù)。最早,我們提供電信網(wǎng)絡(luò),語音通話是我們唯一的業(yè)務(wù)。語音通話的體驗(yàn)很重要,但始終無法提供面對(duì)面、身臨其境的體驗(yàn)。如何提升呢?第一步,就是加入視頻,有了視頻就拉近了彼此距離,雙方獲得了更好的交流體驗(yàn)。但這還不夠。
在我們的設(shè)想中,沉浸式的通訊體驗(yàn)應(yīng)該像圖中所示,人們?cè)谕ㄔ挄r(shí)就像在同一個(gè)屋子中相視而坐。這是我們希望最終達(dá)到的體驗(yàn)效果。
在7、8年前,我們做了一個(gè)項(xiàng)目,它叫 Augmented Personal Telepresence Overlay System(如下圖)。那時(shí),統(tǒng)一通信的概念已經(jīng)比較普遍,每個(gè)人在自己的桌面上都可以發(fā)起實(shí)時(shí)通信,但體驗(yàn)并不特別好。那時(shí)深度相機(jī)開始出現(xiàn)了,它通過對(duì)深度的獲取可以把人物分割出來,分割出來之后在桌面上進(jìn)行視頻通話時(shí)可以把兩個(gè)人放到一個(gè)空間里。在這個(gè)項(xiàng)目里,每個(gè)人坐在自己的桌子前,通過深度相機(jī)將人從環(huán)境中分割出來之后,可以在電腦上看到兩個(gè)人坐在一張桌子上,但其實(shí)他們是在不同的屋子里。同時(shí),支持屏幕共享,這讓沉浸感得到了提升。
圖:Augmented Personal Telepresence Overlay System
但是這個(gè)項(xiàng)目看起來還是在一個(gè)小屏幕上,它的沉浸感比較弱。那么我們能不能進(jìn)一步提升沉浸式的體驗(yàn)?zāi)兀?/p>
2012年,我們采用了更大的屏幕。這個(gè)屏幕就像一面墻,需要把人物的全身從背景中分割出來。那時(shí)深度學(xué)習(xí)沒有廣泛被大家了解,不像現(xiàn)在用深度學(xué)習(xí)進(jìn)行圖像的分割已經(jīng)非常普遍。那時(shí)的圖像分割比較困難,需要借助于一些手段對(duì)人的動(dòng)態(tài)進(jìn)行分割,才可以把它疊加在同一個(gè)背景下,這樣你站在這個(gè)大屏幕前,跟對(duì)方才有面對(duì)面、沉浸式的感受。
剛剛的項(xiàng)目雖然提供了一定的沉浸感,但是它無法提供六自由度。2013年、2014年,各類 AR、VR 設(shè)備陸續(xù)面市。而頭盔、眼鏡,彌補(bǔ)了這一特性,能提供更沉浸式的體驗(yàn)。
我們?cè)鯓影殉两械囊曨l通信實(shí)現(xiàn)出來呢?
2016年,微軟做了一個(gè)名為 Holoportation 的項(xiàng)目。通過這個(gè)眼鏡,我們配合采集3D的軟件進(jìn)行實(shí)時(shí)建模,然后傳遞給對(duì)方,對(duì)方戴上眼鏡可以實(shí)現(xiàn)六自由的實(shí)時(shí)交互。在眼鏡中,另一個(gè)人是通過實(shí)時(shí)的3D 建模,在本地渲染出來的。
圖:微軟的Holoportation
這與以前 2D 時(shí)代非常不同,需要進(jìn)行 3D 建模。在以前傳統(tǒng)的 2D 時(shí)代,我們會(huì)從一個(gè)角度,用一個(gè)攝像機(jī),拍一個(gè)視頻,然后實(shí)時(shí)獲取到信息后,傳遞給對(duì)方,1分鐘內(nèi)就可以重現(xiàn)它,并進(jìn)行渲染。到了 3D 環(huán)境下,我們沒有辦法再利用一個(gè)攝像機(jī),來獲取 人物的 3D 信息。如何獲取這個(gè)信息,變成了非常具有挑戰(zhàn)性的工作。
以前 2D 時(shí),我們獲取的信息是像素,一個(gè) XY 座標(biāo),座標(biāo)上有 RGB 的信息,有了這個(gè)信息就可以得到完整的 2D 畫面。
但是到了 3D 時(shí),信息變成了三維的,我們需要在三維坐標(biāo)上要有色彩信息和其他屬性 信息,現(xiàn)在沒有一個(gè)手段能夠直接獲取它。當(dāng)然,現(xiàn)在有很多種嘗試。我們現(xiàn)在的系統(tǒng)是試著實(shí)現(xiàn)多視角,要能同時(shí)從四面八方獲取信息,所以我們采用了八視角,有八組相機(jī)分布在人的周圍,進(jìn)行實(shí)時(shí)的采集。
3D 的采集在很早以前就有。如果不是實(shí)時(shí)的,用幾百個(gè)攝像機(jī),可以非常好的進(jìn)行重建,但都是離線狀態(tài)下進(jìn)行重建,需要很長(zhǎng)時(shí)間。但是,我們要做到實(shí)時(shí)的采集、重建,非常困難。
我們簡(jiǎn)單來講一下當(dāng)時(shí)我們是如何來實(shí)現(xiàn)實(shí)時(shí)的 3D 的采集(如圖)。首先我們用了八組深度攝像機(jī)來進(jìn)行采集,然后實(shí)時(shí)地生成點(diǎn)云信息。
在動(dòng)態(tài)重建時(shí),frame 之間的差別很大。如果 frame 與 frame 之間沒有一定約束的話,人們看到的圖像會(huì)抖動(dòng)、晃動(dòng),效果會(huì)很差。如果要提升效果,就要有動(dòng)態(tài)的約束。對(duì)于人物這種非剛性的物體進(jìn)行實(shí)時(shí)重建,挑戰(zhàn)是非常大的。在這個(gè)重建過程中,我們是用八個(gè)攝像機(jī)獲取到的深度彩色圖,合成為當(dāng)前 frame 的模型。而它與前一個(gè) frame 需要進(jìn)行空間的匹配,從前一個(gè)模型匹配到當(dāng)前的模型。我們知道,在 2D 中,我們只需要計(jì)算運(yùn)動(dòng)矢量,但在 3D 中則需要進(jìn)行矩陣的運(yùn)算,空間搜索非常復(fù)雜。在完成匹配之后還需要進(jìn)行融合,融合后形成當(dāng)前 frame 的 3D 模型。然后,我們?cè)購狞c(diǎn)云模型計(jì)算 Mesh。
紋理也很有挑戰(zhàn)性。我們有八個(gè)攝像機(jī),它們從不同視角觀察同一個(gè)點(diǎn)的時(shí)候,由于光照不同、角度不同,它顏色、紋理都有差異。所以在這個(gè)過程中,還需要我們進(jìn)行融合、優(yōu)化,才能有比較平滑的視覺觀感。然后再進(jìn)行傳輸。在傳輸時(shí),我們也做了一些簡(jiǎn)單的壓縮。比如我們將 3D 紋理轉(zhuǎn)為 2D ,再進(jìn)行壓縮。在這個(gè)過程中,我們也做了很多工作,比如 frame 與 frame 之間如何匹配,才能使他們相關(guān)性更高,從而提升壓縮率。
以上就是我們所做過的一些嘗試。
其實(shí),國(guó)際上有很多組織也在研究相關(guān)的技術(shù)標(biāo)準(zhǔn)。例如,MPEG 組織也在考慮未來的沉浸式信息,如何編碼、表示和傳輸。我們也正積極參與其中,與更多人共同探索。
目前 MPEG 正在做的就是 MPEG-I。它是針對(duì)未來沉浸式多媒體的格式、編碼、壓縮、傳輸?shù)纫幌盗械臉?biāo)準(zhǔn)。大家可能了解的更多的就是與視頻相關(guān)的 MPEG-I Part3。實(shí)際上大家可以將它理解為 H.266,也就是 H.255 的下一代。它會(huì)更多地針對(duì)沉浸式媒體的壓縮。另一方面就是 MPEG-I Part5,即點(diǎn)云的壓縮。這與我們剛剛分享的項(xiàng)目非常相關(guān)。當(dāng)你獲得了 3D 模型,怎么進(jìn)行高效的壓縮、存儲(chǔ)、傳輸,國(guó)際上也有相應(yīng)的標(biāo)準(zhǔn)化組織在共同探索如何來做。現(xiàn)在來講還屬于比較超前的研究,仍處于早期階段。這也是第一次在 MPEG 里嘗試做點(diǎn)云的標(biāo)準(zhǔn)化工作,預(yù)計(jì)在明年會(huì)有第一版的標(biāo)準(zhǔn)。
在點(diǎn)云壓縮標(biāo)準(zhǔn)中有兩個(gè)類別,第一種是對(duì)靜態(tài)的高質(zhì)量 3D 模型進(jìn)行壓縮;第二種是針對(duì)動(dòng)態(tài)的 3D 模型進(jìn)行壓縮;第三種則是針對(duì)邊采集邊生成點(diǎn)云時(shí),如何來進(jìn)行壓縮。其中第二種與我們正在做的項(xiàng)目更加相關(guān)。
在去年的一次 MPEG 的會(huì)議上,我們經(jīng)過對(duì)比選擇了由蘋果提出一套基于視頻壓縮的方案,它是目前性能表現(xiàn)最好的。隨后我們各個(gè)公司也會(huì)基于這套方案來進(jìn)行不同程度的改進(jìn),最終會(huì)形成一套標(biāo)準(zhǔn)。
這套壓縮方案是怎么做的呢?首先對(duì)一個(gè)動(dòng)態(tài)的 3D 模型壓縮時(shí),將它映射到 6 個(gè) 2D 平面上,然后再 patch 放在同一個(gè) 2D 的圖中,最后將 Patch 信息、紋理、色彩、空間數(shù)據(jù)等到一起,再進(jìn)行編碼傳輸。
VPCC(Video Point Cloud Compression)編碼器端的基本工作流程是這樣的:首先進(jìn)行映射,然后選取每個(gè)部分映射到哪一個(gè)面上,然后生成 patch 信息,用視頻的方法進(jìn)行壓縮。因?yàn)樵趬嚎s之后會(huì)有一定的誤差,所以要根據(jù)原來的 patch info 進(jìn)行調(diào)整,也就是圖中的“smoothing”模塊。調(diào)整之后,再通過視頻的方法對(duì)它進(jìn)行壓縮。
圖:編碼器架構(gòu)
圖:解碼器架構(gòu)
由于在 3D 上進(jìn)行配準(zhǔn)、深度計(jì)算等工作的復(fù)雜度非常高,所以現(xiàn)在我們?cè)谟?jì)算能力上海很難實(shí)現(xiàn)非常高精度的 3D 實(shí)時(shí)建模重建。但是隨著我們計(jì)算能力的不斷提升,以及深度學(xué)習(xí)的應(yīng)用,可以進(jìn)一步提升我們算法的性能。所以在未來會(huì)有更長(zhǎng)足的發(fā)展。雖然動(dòng)態(tài)的、高還原度的 3D 重建距離商業(yè)應(yīng)用還有很長(zhǎng)的距離。但回想我們?cè)?、8年前做的圖像分割的技術(shù),當(dāng)時(shí)來看有很大的難度,但現(xiàn)在已經(jīng)在手機(jī)中得到了廣泛應(yīng)用。所以我們相信其中很多技術(shù)會(huì)逐步得到應(yīng)用。
-
3D
+關(guān)注
關(guān)注
9文章
2875瀏覽量
107485 -
2D
+關(guān)注
關(guān)注
0文章
64瀏覽量
15198 -
視頻通信
+關(guān)注
關(guān)注
1文章
20瀏覽量
9162
原文標(biāo)題:RTC 技術(shù)分享 | 從 2D 到 3D,沉浸式的實(shí)時(shí)視頻通信
文章出處:【微信號(hào):shengwang-agora,微信公眾號(hào):聲網(wǎng)Agora】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論