5G時(shí)代對于視頻行業(yè)的發(fā)展和業(yè)務(wù)形態(tài)將是一個(gè)重要的助推,但5G時(shí)代帶來的改變不只是帶寬提升和延遲降低這兩個(gè)最直接的因素。本次LiveVideoStackCon 2020線上峰會(huì)我們邀請到了阿里巴巴高級(jí)算法專家盛驍杰,他將介紹在5G時(shí)代,視頻信息承載將逐步從目前的平面視頻形態(tài)過渡到信息表達(dá)更為豐富的三維視頻,而這種過渡中包含的可能性一方面需要我們充分利用5G技術(shù)本身的云、邊、端架構(gòu)帶來的技術(shù)紅利,另一方面,也需要我們對于快速發(fā)展的三維視覺,AI,AR等技術(shù)進(jìn)行綜合性的創(chuàng)新運(yùn)用,使得視頻體驗(yàn)通過可互動(dòng)的三維信息表達(dá)在5G時(shí)代不斷給用戶創(chuàng)造出更多的價(jià)值。
大家好,本次我分享的主題是5G時(shí)代的互動(dòng)視頻——探索從平面到三維視頻信息表達(dá)的新可能。
本次演講的內(nèi)容將分為四個(gè)部分,分別為:什么是互動(dòng)6DoF視頻、視頻體驗(yàn)的發(fā)展和5G時(shí)代的新機(jī)遇、6DoF視頻的標(biāo)準(zhǔn)(MPEG/AVS)和對互動(dòng)6DoF視頻的未來展望。
1
什么是互動(dòng)6DoF視頻
首先通過三個(gè)演示視頻來認(rèn)識(shí)互動(dòng)6DoF視頻。第一個(gè)視頻是CBA的運(yùn)動(dòng)場景,它是通過相機(jī)陣列和三維重建所得到的一個(gè)互動(dòng)6DoF視頻,并且通過實(shí)際的網(wǎng)絡(luò)傳輸以及用戶終端的實(shí)時(shí)互動(dòng)所展現(xiàn)出來的一個(gè)效果。 第二個(gè)視頻也是相同的場景,但對原先的互動(dòng)方式進(jìn)行了一些調(diào)整和改變,在這樣的視頻中,用戶觸摸屏幕會(huì)使整體場景靜止,用戶可以有一個(gè)靜態(tài)場景下360°的對場景每一個(gè)瞬間進(jìn)行精細(xì)化觀看的互動(dòng)體驗(yàn),這樣的體驗(yàn)特別適合于體育等競技性和專業(yè)性較強(qiáng)的場景。 首先,通過對這個(gè)視頻的體驗(yàn),可以感受到之前普通的平面體育點(diǎn)播和直播視頻當(dāng)中所沒有的新體驗(yàn)。 其次,在一個(gè)三維的空間中對傳統(tǒng)體育賽事的觀看方式進(jìn)行革新,使得用戶能夠自由地切換自己的視點(diǎn),觀看其感興趣的區(qū)域。通過這種方式,用戶會(huì)感覺到視頻的觀看過程通過可互動(dòng)的方式,已經(jīng)和某些游戲的體驗(yàn)有相似性。從來沒有體驗(yàn)過這種視頻的用戶,在第一次體驗(yàn)之后會(huì)感覺這種體驗(yàn)很像游戲。之所以有這種感受,是因?yàn)樗渲邪?D和互動(dòng)的體驗(yàn),而普通的游戲給予用戶的正是這樣一種體驗(yàn)。這也是互動(dòng)6DoF視頻和平面視頻最大的區(qū)別, 即互動(dòng)6DoF視頻有著和平面視頻不同的三大特點(diǎn):互動(dòng)性、三維立體感和場景沉浸感。 互動(dòng)6DoF視頻除了應(yīng)用在體育的場景當(dāng)中,在綜藝場景中也有著廣泛的應(yīng)用前景。以上展示的是一個(gè)綜藝場景的效果,視頻中的整個(gè)綜藝場景,通過三維的建模并且通過傳輸和實(shí)時(shí)互動(dòng),使用戶產(chǎn)生很強(qiáng)的現(xiàn)場沉浸感和立體感體驗(yàn)效果。此外,在綜藝場景中它可以給予用戶一種全方位的信息接受方式。比如這個(gè)視頻演示是優(yōu)酷《這就是街舞2》決賽當(dāng)中的一段視頻,我們的交互范圍是可以覆蓋整體場景正面的180°,基本上可以囊括正面的所有舞蹈視角,通過這種方式的交互,用戶可以很方便的把握住舞臺(tái)的整體,體驗(yàn)到每個(gè)舞者在跳舞過程中全方位的信息。今年在優(yōu)酷的《這就是街舞3》節(jié)目中,我們會(huì)在優(yōu)酷的APP端正式上線這樣的體驗(yàn)。 這種體驗(yàn)在街舞當(dāng)中或者其他技巧類、動(dòng)作類的綜藝當(dāng)中都有很好的應(yīng)用前景,在整個(gè)互動(dòng)效果當(dāng)中,它的交互是非常流暢的,用戶手指的滑動(dòng)、畫面的重建和渲染都可以達(dá)到實(shí)時(shí)的效果。而且現(xiàn)在手機(jī)終端的運(yùn)算能力越來越強(qiáng),已經(jīng)可以使這樣的形態(tài)讓用戶在大部分的手機(jī)上體驗(yàn)到。 以上的三個(gè)例子是通過具體的呈現(xiàn)方式使大家對互動(dòng)6DoF視頻有一個(gè)感性的認(rèn)識(shí)。下面我們再來詳細(xì)介紹下什么是互動(dòng)6DoF視頻。
普通的平面視頻從視頻的采集、處理、編碼、傳輸、觀看的整個(gè)過程中都是單向的傳輸鏈路,所以平面視頻是一種被動(dòng)式的觀看,這是因?yàn)橛脩糇罱K接收到的信息是完全被動(dòng)式的接收導(dǎo)演想傳遞給用戶的信息,用戶不能主動(dòng)選擇想看的部分,這是一種被動(dòng)式的觀影體驗(yàn)。并且,平面視頻每一級(jí)都是單向鏈路,就是采集完的信號(hào)會(huì)給下一級(jí)進(jìn)行視頻處理,經(jīng)過編碼模塊后進(jìn)行視頻傳輸?shù)接脩舳瞬シ牛恳患?jí)都是一個(gè)向后單向傳遞的處理鏈路。 互動(dòng)6DoF視頻在平面視頻的基礎(chǔ)上引入了一種交互式的觀看方式,正如前面三個(gè)視頻的例子就具有很強(qiáng)的交互性。它的交互性來源不只是在終端得到的交互,在視頻的采集、內(nèi)容表達(dá)和編碼三個(gè)方面都和傳統(tǒng)的平面視頻有很大的區(qū)別,在這幾個(gè)模塊中都需要對用戶最終的交互形態(tài)有一個(gè)綜合性的考慮和設(shè)計(jì)。也就是說我們需要事先考慮給用戶怎么樣的交互形態(tài)和交互范圍,然后倒推回去設(shè)計(jì)視頻的采集方案、視頻的內(nèi)容表達(dá)方案和編碼方案。所以它是一種非單向式的視頻處理鏈路,在6DoF視頻采集的時(shí)候我們就要在方案當(dāng)中充分考慮到用戶的交互行為。 這是我們的技術(shù)人員第一次通過這種6DoF交互式的觀看獲得一種手段,即他能夠通過技術(shù)去影響和改變上游視頻的傳統(tǒng)采集和表達(dá)方式。而在普通的平面視頻的觀看當(dāng)中,技術(shù)人員無法影響上游的表達(dá),只是被動(dòng)的接收上游導(dǎo)播給到的信號(hào),并把它呈現(xiàn)出來。但是互動(dòng)6DoF視頻交互式觀看給了技術(shù)人員一種有力的工具,就是可以通過提供用戶不同的交互形態(tài)去影響上游的視頻采集、表達(dá)、編碼的方案。 1.1采集
這部分我們來介紹一下互動(dòng)6DoF視頻在采集、表達(dá)和編碼方面與平面視頻的一些不同點(diǎn)。 首先在采集方面,上圖中四個(gè)例子是業(yè)界不同的公司對6DoF視頻的采集方案在不同場景中的應(yīng)用,從中可以看出對于不同的場景,6DoF技術(shù)可以去設(shè)計(jì)不同的采集方案,提供給用戶不同的體驗(yàn)。從這四張圖中也可以看出,雖然它們適用的范圍和場景都不一樣,但是它們都是通過相機(jī)陣列進(jìn)行采集,而不是局限于單個(gè)相機(jī)進(jìn)行采集,這也是三維視頻的一個(gè)特點(diǎn)。第一張圖中是在體育館中有一個(gè)相機(jī)陣列,第二張圖是在攝影棚中部署了更多的相機(jī)集群,第三張圖是圍繞體育場的一圈360度進(jìn)行拍攝,第四張圖是專業(yè)的物體建模采集工作室。這樣做的特點(diǎn)就是通過多相機(jī)進(jìn)行采集以后,能夠?qū)鼍斑M(jìn)行三維重建和表達(dá),再通過壓縮,最終傳遞給用戶一種6DoF互動(dòng)的視頻體驗(yàn)。
在之前演示的CBA場景當(dāng)中,我們的采集方案就是相機(jī)陣列的采集,以上的兩個(gè)圖片是在CBA廣東隊(duì)的主場拍到的效果,整個(gè)采集方式是通過相機(jī)陣列進(jìn)行的采集,然后進(jìn)行空間的三維重建并進(jìn)行視頻的傳輸,最后給用戶一個(gè)互動(dòng)的體驗(yàn)。 我們可以看到,6DoF視頻的采集具有幾個(gè)特點(diǎn):一是需要多相機(jī)的采集陣列;二是根據(jù)不同場景的應(yīng)用有一定的靈活性,針對不同的場景我們需要有不同的采集方案和表達(dá)方案,在用戶端也就會(huì)有不同的交互體驗(yàn)。 1.2 表達(dá)
第二個(gè)重要部分就是6DoF視頻的表達(dá)。6DoF視頻和平面視頻是完全不一樣的,現(xiàn)在常見的三種視頻格式分別是:立體視頻、平面視頻、VR 360視頻。立體視頻是基于雙目相機(jī)拍攝以供用戶立體觀看的表達(dá)。平面視頻就是一個(gè)2D視頻,它是一種不依賴于任何特殊觀看設(shè)備的表達(dá)。VR 360視頻給用戶提供的是一種現(xiàn)場沉浸式的體驗(yàn),但它往往依賴于特殊的設(shè)備,所以這三種已知的視頻表達(dá)方式,它們有各自的優(yōu)缺點(diǎn)。 6DoF視頻表達(dá)是融合了以上三個(gè)視頻表達(dá)方式的優(yōu)點(diǎn)而得到的一種新的視頻表達(dá)方式,它的“新”主要表現(xiàn)在以下幾點(diǎn): 首先,6DoF視頻和平面視頻一樣,不依賴于特殊的觀看設(shè)備。從之前的例子看出,在手機(jī)端上用戶就可以做便捷的交互。同時(shí),它也具有VR 360視頻所提供的現(xiàn)場沉浸感體驗(yàn)。其次,它還可以基于三維重建技術(shù)給用戶提供立體感的體驗(yàn)。所以6DoF視頻是集中了這三個(gè)視頻表達(dá)方式的特點(diǎn)最終形成它自己的特殊表達(dá),它所展現(xiàn)的形式和游戲體驗(yàn)很像,這是因?yàn)橛螒蝮w驗(yàn)也在平面顯示器上,能夠給人帶來沉浸感、交互性和立體感。 從技術(shù)層面來看,6DoF視頻有如下幾種不同的表達(dá)方式: 第一種表達(dá)方式是基于深度的表達(dá),就是對每一個(gè)拍攝的像素進(jìn)行深度的重建,我們有它的深度圖,通過紋理圖和深度圖兩兩成對的表達(dá)方式,再加上Multiview的視點(diǎn),形成一種基于深度的表達(dá)。這種表達(dá)方式的優(yōu)點(diǎn)是完全基于圖像重建的表達(dá)方式,無論是紋理圖和深度圖都可以編碼成圖像,具有成熟的視頻壓縮標(biāo)準(zhǔn)來配合,在工業(yè)化和產(chǎn)品化下的支撐具有明顯優(yōu)勢,而且在基于圖像重建的效果自然性上更能讓用戶接受。 第二種表達(dá)方式是基于點(diǎn)云的表達(dá),其實(shí)它是基于圖形的重建,Point Cloud會(huì)把空間所有像素點(diǎn)的三維位置表達(dá)出來,并且通過紋理的貼圖形成一個(gè)真實(shí)的三維模型。但經(jīng)過點(diǎn)云的渲染也有它特別的地方,因?yàn)槭腔贕raphic,所以它的渲染不會(huì)非常自然。其次,雖然MPEG和AVS也在探索一些基于點(diǎn)云的壓縮方案,但點(diǎn)云目前還沒有一個(gè)成熟的壓縮標(biāo)準(zhǔn)去支持,包括解碼也沒有成熟的終端硬件支持。所以總結(jié)來說,目前點(diǎn)云表達(dá)方式的優(yōu)點(diǎn)在于,由于它是一種空間完全的三維重建,所以具有最大的交互自由度,可以把空間中一個(gè)全視角的三維模型重建出來,但缺點(diǎn)是它在壓縮傳輸和渲染自然性上不如深度重建。 最后一種表達(dá)方式是光場,也是數(shù)據(jù)量最大的表達(dá)方式。它是通過密集的相機(jī)采集陣列或者光場相機(jī)所采集到的空間非常密集的視點(diǎn)表達(dá),可以提供完全的6DoF體驗(yàn)。因?yàn)楣鈭鍪且环N非常稠密的視點(diǎn)表達(dá),所以它的數(shù)據(jù)量過大,目前還缺乏成熟的壓縮標(biāo)準(zhǔn)支持,還不具有工業(yè)成熟性。 1.3 編碼
圖中展示的內(nèi)容是基于深度圖表達(dá)的6DoF視頻編碼框架。首先是基于多相機(jī)采集的紋理圖,同時(shí)配備了和多相機(jī)采集紋理圖所對應(yīng)的深度圖,還有基于多相機(jī)采集的紋理圖和深度圖的元數(shù)據(jù)。元數(shù)據(jù)中包含了一些多相機(jī)的攝像機(jī)參數(shù)信息以及相機(jī)紋理圖和深度圖的拼接和表達(dá)的配置信息。有了多相機(jī)采集的紋理圖、深度圖和元數(shù)據(jù)以后,我們就得到了一個(gè)基于深度的完整6DoF視頻表達(dá)。 在此基礎(chǔ)上就可以通過視頻的編碼方式(比如視頻的編解碼標(biāo)準(zhǔn):AVS3、H.264、HEVC),對于前面所述的6DoF視頻表達(dá)進(jìn)行編碼之后傳到終端進(jìn)行解碼,然后基于多相機(jī)紋理圖、深度圖和元數(shù)據(jù)進(jìn)行6DoF視頻重建,也就是在終端對用戶的虛擬視點(diǎn)進(jìn)行重建,最后把重建完的圖像進(jìn)行終端渲染輸出。上述就是整個(gè)6DoF視頻編碼框架和解碼后呈現(xiàn)給用戶的方案。
2
視頻體驗(yàn)的發(fā)展和5G的新機(jī)遇
2.1 平面視頻
這部分回顧了視頻體驗(yàn)的發(fā)展過程以及解釋一下為什么說6DoF視頻是5G時(shí)代新機(jī)遇的原因。大家對于視頻體驗(yàn)的發(fā)展,最耳熟能詳?shù)木褪瞧矫嬉曨l,視頻介質(zhì)中數(shù)量最多的也是平面視頻,平面視頻的技術(shù)發(fā)展目前還在一直向前推進(jìn)。總體來看,平面視頻的視頻體驗(yàn)的發(fā)展主要分為三個(gè)方面: 第一方面是平面視頻分辨率的發(fā)展。平面視頻從原先的540p逐步發(fā)展到1080p甚至8k,顯示屏幕也越來越大。 第二方面是亮度和色域的發(fā)展。由中間這張圖可知,原先的色彩表達(dá)空間比較小,因?yàn)槿搜鄣恼麄€(gè)色彩感受空間是非常廣泛的,但對于SDR是怕來說,它只能表達(dá)其中的一小塊,但HDR可以表達(dá)更大的色彩空間,所以可以讓用戶感受到除了分辨率的提升以外,人眼所感受到的色彩豐富度也越來越多。 第三方面是幀率的變化。原先大部分的視頻都是25FPS或者30FPS,現(xiàn)在由于整體視頻顯示設(shè)備刷新率的增強(qiáng),比如現(xiàn)在很多手機(jī)都已經(jīng)支持120FPS的刷新率,那么視頻的幀率也需要提高,才會(huì)給用戶絲滑流暢的感受。當(dāng)前幀率的發(fā)展已經(jīng)逐步從30FPS過渡到60FPS甚至到120FPS。 配合分辨率、亮度和色域、幀率這三個(gè)方面平面視頻的技術(shù)發(fā)展,平面視頻的壓縮方法也在不斷地迭代。右圖當(dāng)中可以看到,平面視頻的壓縮標(biāo)準(zhǔn)基本上是以十年為一代往前推進(jìn)。從2003年的H.264是為1080p視頻做準(zhǔn)備的壓縮標(biāo)準(zhǔn),到2013年的H.265是為4K視頻做準(zhǔn)備的壓縮標(biāo)準(zhǔn),再到2020年的H.266也就是VVC是為8K視頻做準(zhǔn)備的。 國內(nèi)的視頻編解碼標(biāo)準(zhǔn)H.264、H.265和H.266相對的是AVS+、AVS2和AVS3,它們分別是為1080P、4K和8K分辨率準(zhǔn)備的視頻編解碼技術(shù)。 2.2 立體視頻
除了平面視頻以外,另外一種視頻的表達(dá)方式是立體視頻。立體視頻是通過雙目相機(jī)進(jìn)行拍攝,使用戶戴上眼鏡后對視頻產(chǎn)生有深度的立體感體驗(yàn)。 早在2009年,電影“阿凡達(dá)”就引入了全新的立體視頻觀影體驗(yàn),把這種視頻的方式帶到影院當(dāng)中。 立體視頻技術(shù)推動(dòng)了視頻采集、視頻制作、3D視頻壓縮標(biāo)準(zhǔn)、視頻觀看設(shè)備的全面革新,比如在視頻采集方面使用的不再是普通的相機(jī)而是雙目立體相機(jī)。 在2010年電視機(jī)廠商提出了一種新的視頻觀影體驗(yàn)——FTV(Freeview TV)也叫自由視點(diǎn)的電視。它是在立體視頻的基礎(chǔ)上進(jìn)一步的發(fā)展,用戶可以在屏幕前面,通過一定范圍的移動(dòng)看到視頻當(dāng)中的立體視頻。它不但是3D的,而且還能進(jìn)行一定自由度的移動(dòng)觀看。根據(jù)用戶的左右移動(dòng),電視機(jī)里面的內(nèi)容也會(huì)發(fā)生變化,它是根據(jù)人在電視機(jī)前的移動(dòng),通過不同的光柵信號(hào)折射使人眼看到不同的視角。 但FTV出來之后并沒有非常火,首先是基于光柵的電視成本非常的高,其次,它的體驗(yàn)方式并不是非常自然。同時(shí),它提供的自由視角也比較小,因?yàn)镕TV內(nèi)容源并不是通過相機(jī)陣列進(jìn)行采集的,而是基于普通的雙目相機(jī)采集,并對雙目相機(jī)的左右兩個(gè)視點(diǎn)進(jìn)行一定的外插值,相當(dāng)于做一些假的虛擬視點(diǎn)。但這個(gè)范圍不會(huì)特別大,因?yàn)樗炔杉乃夭木椭挥凶笥覂蓚€(gè)視點(diǎn),所以沒有辦法得到更大范圍的自由度。基于這幾點(diǎn)原因,F(xiàn)TV雖然提出一個(gè)非常好的概念,能夠讓用戶有自由視點(diǎn)的電視體驗(yàn),但是最終并未在市場上火起來,而且在后期逐步的銷聲匿跡了。 2.3 VR 360視頻
VR 360視頻是在2016年火起來的,它進(jìn)一步帶來了360度沉浸式的視頻體驗(yàn),并引入了3DoF觀看體驗(yàn)。VR 360視頻的采集端通過多個(gè)魚眼相機(jī)的采集以及拼接得到一個(gè)360度的視頻,如果用戶戴上頭盔可以通過轉(zhuǎn)動(dòng)到任意角度進(jìn)行觀看。我們來解釋一下為什么說VR 360視頻是3DoF的?右圖顯示了人在真實(shí)空間中的六個(gè)自由度的表現(xiàn),六個(gè)自由度是指在空間上有X、Y、Z這三個(gè)移動(dòng)的自由度,以及在這三個(gè)移動(dòng)自由度基礎(chǔ)上的三個(gè)旋轉(zhuǎn)的自由度,加起來一共是六個(gè)自由度,這是人在真實(shí)空間中所具有的自由度空間。3DoF視頻只有三個(gè)旋轉(zhuǎn)的自由度,沒有三個(gè)移動(dòng)的自由度。當(dāng)戴上眼罩觀看VR 360視頻時(shí),只能進(jìn)行旋轉(zhuǎn)觀看但不能移動(dòng),因?yàn)榍昂笞邉?dòng)并不影響看到的內(nèi)容,所以說VR 360視頻是3DoF的視頻。 2.4 6DoF視頻
人對真實(shí)世界的視覺感知同時(shí)具備了沉浸感、立體感和空間感,這三者其實(shí)是統(tǒng)一的。 左下角的視頻是Facebook展示的一個(gè)立體視頻,這是通過一種基于深度的渲染技術(shù)得到的視頻,雖然用戶不需要帶任何的3D眼鏡就可以進(jìn)行觀看,但用戶同樣可以感知到非常強(qiáng)烈的3D感和沉浸感。這是因?yàn)槿藢τ诳臻g的沉浸感、立體感和空間感的感知是一起的,所以對于視頻中的內(nèi)容稍微發(fā)生變化,就感覺是3D的,而且沉浸感也會(huì)加強(qiáng)。 基于這種原理,6DoF視頻也有類似的特點(diǎn)。6DoF視頻就是普通平面觀影設(shè)備上的一個(gè)交互式立體視頻,可以帶給用戶沉浸式的體驗(yàn),而且交互更自然。6DoF視頻就是在左下角視頻的基礎(chǔ)上發(fā)展了一大步,能夠在一個(gè)非常大的范圍之內(nèi)讓用戶體驗(yàn)交互、沉浸和3D的感覺。 6DoF視頻解決了前面提到的立體視頻、VR 360視頻遇到的兩個(gè)核心問題:一是它的內(nèi)容。立體視頻、VR 360視頻雖然是兩種新的內(nèi)容表達(dá)方式,但在它的制作側(cè)、內(nèi)容的豐富程度是不能和平面視頻相比的,立體視頻、VR 360視頻的數(shù)量是非常少的。 二是它的交互不自然。所謂交互不自然是指在用戶側(cè),立體視頻需要用戶戴眼鏡,VR視頻需要用戶戴頭盔,這和交互的自然性是相違背的。由于這兩個(gè)原因,立體視頻和VR 360視頻始終沒有火起來。6DoF視頻在這兩點(diǎn)上具有天然的優(yōu)勢,它在內(nèi)容豐富性上,無論是體育還是綜藝都有很強(qiáng)的需求。其次,在交互自然性上,用戶不需要任何的特殊設(shè)備,在手機(jī)屏幕上就能進(jìn)行交互,這極大的改善了立體視頻和VR 360視頻遇到的兩個(gè)核心難點(diǎn)。 從右邊一組圖中可以看出關(guān)于6DoF視頻在 MPEG所定義的發(fā)展趨勢。3DoF是模擬一個(gè)人坐在椅子上,只能有旋轉(zhuǎn)的自由度,不能有空間移動(dòng)的自由度。3DoF+是在三個(gè)旋轉(zhuǎn)的自由度的基礎(chǔ)上,向用戶提供了前傾、左傾、右傾、后傾等受約束的空間自由度。發(fā)展到我們目前處于的位置是Windowed 6DoF,它給了用戶一定的旋轉(zhuǎn)自由度,模擬用戶在一個(gè)窗前進(jìn)行觀看,往前往后自由度是受限的,而且旋轉(zhuǎn)自由度在某種程度上也是受限的,給用戶的感覺是在一個(gè)窗前面自由移動(dòng)看窗外變化的景色。最后是完全的6DoF,用戶在任意的六個(gè)自由度上都不會(huì)受到約束,可以任意進(jìn)行前后移動(dòng)和旋轉(zhuǎn),這是視頻體驗(yàn)的終極發(fā)展方向。
現(xiàn)在的6DoF視頻可以在移動(dòng)端打破移動(dòng)分辨率顯示的局限,原先移動(dòng)端的分辨率達(dá)到1080p以上時(shí),在移動(dòng)端人眼視場角的像素?cái)?shù)量已經(jīng)接近上限,分辨率再增加人眼已經(jīng)感受不到清晰度的增強(qiáng)了。但如果分辨率可以進(jìn)一步上升,比如5G可以傳4K、8K甚至16K的視頻,那么在這個(gè)基礎(chǔ)上,6DoF視頻提供了一種新的可能性,就是把空間信息量的提升轉(zhuǎn)化為交互性和自由度的提升,它為移動(dòng)端的視頻體驗(yàn)裝上一個(gè)新的引擎,能夠在5G時(shí)代沿著全新的引擎進(jìn)一步提升用戶的體驗(yàn)。 在5G時(shí)代,帶寬、解碼能力和三維重建技術(shù)這三個(gè)條件都會(huì)取得長足的發(fā)展。比如5G時(shí)代的傳輸帶寬可以非常輕易的達(dá)到下行100M左右,這在4G時(shí)代是無法想象的。另外5G手機(jī)越來越多的支持8K的解碼,8K解碼讓我們有了傳輸6DoF視頻的基礎(chǔ)。最后基于AI技術(shù)的三維重建也使得基于6DoF視頻的三維重建的質(zhì)量和速度得到大幅度的提升,所以基于5G的技術(shù),6DoF視頻可以有非常好的基礎(chǔ)設(shè)施,在此基礎(chǔ)上能夠?yàn)橛脩籼峁└玫挠^看體驗(yàn)。
3
6DoF視頻的標(biāo)準(zhǔn)
3.1 MPEG
這部分我們來介紹一下MPEG標(biāo)準(zhǔn)組是怎么對6DoF視頻的標(biāo)準(zhǔn)來進(jìn)行定義的。 這是一張最新的2020年MPEG路線圖,根據(jù)前文所提到的3DoF、3DoF+以及6DoF的發(fā)展,目前MPEG已經(jīng)完成了普通VR 360視頻標(biāo)準(zhǔn)的建設(shè),接下來它會(huì)沿著3DoF+發(fā)展,3DoF+還在建設(shè)當(dāng)中并且預(yù)計(jì)會(huì)在2021完成標(biāo)準(zhǔn)建設(shè),之后會(huì)進(jìn)入6DoF的發(fā)展階段, 6DoF的發(fā)展會(huì)分為兩個(gè)階段:Windowed 6DoF階段和完全6DoF階段,整個(gè)6DoF標(biāo)準(zhǔn)的發(fā)展會(huì)一直延續(xù)到2023年甚至更遠(yuǎn)。所以MPEG在6DoF視頻上規(guī)劃了非常長的路線圖,伴隨5G網(wǎng)絡(luò)的普及而發(fā)展,一直到2023年左右才會(huì)過渡到真正的6DoF視頻標(biāo)準(zhǔn)。 3.2 AVS
現(xiàn)在國內(nèi)像阿里正在參與的AVS標(biāo)準(zhǔn)已經(jīng)在整體的6DoF標(biāo)準(zhǔn)建設(shè)上走在了MPEG的前面,我們已經(jīng)過渡到了Windowed 6DoF標(biāo)準(zhǔn),而MPEG現(xiàn)在還在建設(shè)3DoF+的標(biāo)準(zhǔn),所以說從標(biāo)準(zhǔn)的路線圖上,我們現(xiàn)在是跑在MPEG前面。 我們來看一下AVS標(biāo)準(zhǔn)目前的進(jìn)展:首先它的標(biāo)準(zhǔn)文檔已經(jīng)形成了草案的5.0版本,并且標(biāo)準(zhǔn)組計(jì)劃在2020年底將AVS 6DoF標(biāo)準(zhǔn)推進(jìn)到FCD階段。 在標(biāo)準(zhǔn)測試用例方面,我們已經(jīng)有了六段標(biāo)準(zhǔn)的測試用例,每段包括30個(gè)以上的相機(jī)紋理圖和深度圖,所以我們的標(biāo)準(zhǔn)測試用例是比較豐富的,并且相機(jī)陣列的數(shù)目也是比較多的。其次,在參考軟件方面,我們提供了視點(diǎn)重建參考軟件,這個(gè)參考軟件目前已經(jīng)更新到VSS 3.0版本,所以基于標(biāo)準(zhǔn)測試用例和參考軟件,參與標(biāo)準(zhǔn)的一些公司和學(xué)校就能很快參與到6DoF視頻標(biāo)準(zhǔn)的實(shí)驗(yàn)、算法開發(fā)和提案工作當(dāng)中。
4
互動(dòng)6DoF視頻的未來展望
6DoF視頻未來可提升的空間也是非常大的,它的提升空間可以分為兩個(gè)部分: 第一是基礎(chǔ)體驗(yàn)提升。基礎(chǔ)體驗(yàn)提升意味著三個(gè)方面:首先是6DoF視頻時(shí)效性的提升,比如我們現(xiàn)在做6DoF視頻的點(diǎn)播,下一步可能要做6DoF視頻的直播。其次是自由度的提升,也就是從Windowed 6DoF發(fā)展到完全的6DoF。最后是清晰度的提升,用戶看到的任意視點(diǎn)的清晰度是否可以更高,比如達(dá)到1080p甚至以上。 第二是互動(dòng)體驗(yàn)的提升。這意味著6DoF視頻是有和其他周邊的技術(shù)進(jìn)行融合的可能,因?yàn)?DoF視頻本身是一個(gè)完全三維立體化的視頻,基于這個(gè)三維立體化的視頻,我們可以把原先很多的算法在三維的場景上進(jìn)行組合。比如AR原先是在平面的視頻上,如果它基于6DoF視頻可以有更好的AR展現(xiàn)效果,包括AI原先也是主要用在平面視頻中,在立體的空間中,AI算法能夠有更好的發(fā)揮的余地和想象空間。 首先6DoF視頻是在一個(gè)完全三維的場景下,在此基礎(chǔ)上,我們基于AR技術(shù)進(jìn)行數(shù)據(jù)的呈現(xiàn),整體三維場景中AR的貼圖,包括平面檢測都是在三維場景下發(fā)生的,這是普通2D視頻中的AR所不能展現(xiàn)的效果。 圖中也顯示了AI技術(shù)和6DoF的結(jié)合,在終端交互過程中可以對6DoF視頻里的人物進(jìn)行點(diǎn)擊,通過AI技術(shù)在多相機(jī)的陣列的圖像中對人進(jìn)行識(shí)別和跟蹤,相比通過單個(gè)相機(jī)進(jìn)行識(shí)別跟蹤,它的檢測率會(huì)更高。 這樣的體驗(yàn)可以使6DoF視頻在未來成為接近完全游戲化的體驗(yàn)方式,用戶在觀看一個(gè)籃球比賽時(shí)可以有很強(qiáng)的交互性、沉浸感以及和AR, AI技術(shù)的有機(jī)結(jié)合,這是對6DoF視頻未來能夠做到的體驗(yàn)上限的展望。邁入5G時(shí)代,我們對于6DoF的基礎(chǔ)體驗(yàn)和互動(dòng)體驗(yàn)的提升還有很長的路要走。
-
三維
+關(guān)注
關(guān)注
1文章
507瀏覽量
28967 -
視頻信息
+關(guān)注
關(guān)注
0文章
3瀏覽量
5721 -
5G
+關(guān)注
關(guān)注
1354文章
48436瀏覽量
563969
原文標(biāo)題:5G時(shí)代探索互動(dòng)立體視頻信息承載的新可能
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論