文/黃亞坤
編者按:計算機圖形與仿真技術的發展為人類帶來了眾多的沉浸式技術。虛擬現實(VR)、增強現實(AR)、混合現實(MR)等技術通過不同程度數字信息與現實環境的融合,為用戶帶來了全新體驗,而統括三者的擴展現實(XR)更強調虛擬世界與現實世界的彌合,縮小人們、信息和體驗之間的距離壁壘。LiveVideoStackCon 2023 上海站邀請了來自北京郵電大學的黃亞坤,為大家分享學術界關于云化XR和沉浸式全息交互技術的探索與思考?。
大家好,我是來自北京郵電大學的黃亞坤,目前主要在學術界從事研究工作。本次我將從更好地結合學術和工業界這一角度出發來與大家分享我們的探索與思考。
本次分享分為四方面:首先以囊括多種沉浸式技術為主旨談談沉浸式XR通信與交互現狀,然后介紹我們從2017年至今關于輕量化跨平臺WebXR技術的探索與研究進展,接下來介紹全息XR通信與實時交互服務,最后對云化XR的新需求與挑戰進行總結。
-01-
沉浸式XR通信與交互現狀
XR包含了AR、VR和MR等沉浸式技術,旨在打造真實、虛擬組合的數字化環境,實現沉浸感更深入的人機交互體驗。
其中VR可能更為大眾所熟知(如當下熱門的VR看房、看車),它通過計算機來模擬虛擬環境。目前多數用戶使用手機來體驗,而使用沉浸感更強的專業VR終端由于昂貴的成本問題在用戶間還沒有廣泛普及;
進一步地,AR可將VR打造的虛擬世界和真實世界無縫融合,目前在工業界中的落地應用廣泛使用率較高;
MR則是在融合AR、VR的基礎上,實現用戶與現實、虛擬世界間的深層次交互反饋。
最后,在常規XR概念的基礎上拓展引入了HR,與VR不同,它可以利用光干涉和衍射記錄進行真實物體的再現,還原真實的人物與環境。
以上圖表展示了XR的技術架構、產業發展趨勢,以及XR業務的網絡需求。目前來看,XR還處于部分沉浸式體驗階段,正朝著深度沉浸階段發展,主要表現為單眼觀看可達到2K分辨率,FOV處于100-120度范圍內。
對于即將正式發售的Apple Vision Pro,我們也持續關注它對業界帶來的潛在前景與應用價值。
我們對市場現有的一些XR設備進行了體驗分析并總結了幾方面問題。
首先是技術成熟度不夠:在畫面真實率,視場角,眩暈和遲滯感等方面有待提升。例如在工業場景下的三維大模型渲染服務,終端上會出現明顯的卡頓、眩暈和遲滯感;
第二是用戶成本高:主流的XR頭顯對于大眾用戶來說價格過高;
第三是佩戴體驗差:當前的XR終端設備存在佩戴沉重,攜帶性差等體驗問題;
第四是優質內容源缺乏:高品質的XR應用稀缺,對用戶吸引力不夠;
第五是缺乏統一平臺:各大廠商當前主要圍繞自身產品的生態圈進行內容開發,難以建立有效共享和快速分發體驗的統一平臺。
隨著5G的普及應用,云化XR的部署與應用已經成為可能。
首先5G的網絡切片技術保證了應用程序的部分帶寬、移動邊緣計算(MEC)減少了內容匯聚,在節省帶寬的同時降低了時延,為XR云化部署奠定了技術基礎。
同時,通過將XR的密集計算上云,有助于減輕終端設備的重量,提升佩戴體驗和續航能力,云化XR更有助于提升多用戶共享體驗,降低單一用戶的體驗限制;
最后,通過與5G技術相集合,智能手機有望成為承載云XR體驗的終端設備,這有助于吸引更多的新用戶。
XR云化主要的優勢體現在承載密集三維空間計算方面。大量的視覺、空間計算和密集的3D渲染給資源受限的XR終端設備帶來了極大的計算壓力,通過將這些密集的計算任務卸載上云后,能夠大幅降低終端的設備計算成本,進而助力終端輕量化。
同時云端可借助Wi-Fi、5G等網絡技術將內容以視頻流形式推向用戶,相對于傳統設備無需再連接終端的HDMI線,實現了終端無繩化、移動化。
最后,內容云化也便于統一分發和版權管理。
但將云XR推向產業成熟,目前仍面臨技術成熟度、云網架構升級、建設健康的生態環境、共贏的商業模式以及XR平臺與系統互通等問題,還需要進一步探索。
-02-
輕量化WebXR探索與研究進展
上圖展示了XR技術的發展簡史。從1998年AR首次應用于電視直播到AR專用頭顯、移動終端、基于APP的AR游戲和基于Web的AR解決方案陸續出現,再到OpenXR 1.0的發布,各大國內廠商加入OpenXR聯盟,這些發展充分體現了XR追求移動化、輕量化和跨平臺標準化的發展趨勢。
Web具有天然的跨平臺性,并且有兼容高、普及廣的優勢,因而基于輕量化移動Web的XR技術開始萌芽。
但實現WebXR并非易事。首先是瀏覽器極其有限的算力難以滿足AR密集的位姿計算需求,這也導致位姿估計與計算的時延差距大,畫面延遲較高,無法達到AR的高頻實時跟蹤要求。且三維模型的復雜度對Web的渲染能力提出很大考驗。最后,國內各大硬件廠商瀏覽器的內核和開放權限參差不齊,導致傳統的方案難以跨平臺通用。
基于以上考慮,我們提出了基于云實現的WebXR解決方案。
接下來,我講介紹幾種云化WebXR方案的典型落地場景。如實現基于Web瀏覽器的AR導航、真實世界的三維目標實時識別、跟蹤、渲染以及異構跨終端的XR通信交互等。
在統籌考慮端云算力和時延要求的基礎上,我們針對AR室內導航服務場景提出了端云協同方案。該方案的核心問題是如何精準、高頻次獲取移動終端的實施6-DoF相機位姿?
目前基于Web的定位方案一般是提供局部定位,無法提供面向大規模地圖場景的全局定位,難以滿足導航場景路徑規劃等功能的需要;其次是終端側的行人航位推算(PDR)等方案的累計誤差較大,只能保持短距離精確定位;第三是傳輸實時視頻幀到云端求解無法滿足定位頻率要求。
因此,我們通過將終端側定位位姿和云端VPS定位對齊實現了“端側輕量化自主定位+云端精確輔助重定位”的方式。具體流程如上圖左下角所示,端側以云端的精確定位為基準點,通過PDR方案進行自主實時定位,導航行進過程中通過借助云端重定位來及時修正誤差。
我們從定位精度和開銷兩方面對該方案進行了性能評估,可以看到最終呈現的效果較好。
但端云協同方案在網絡條件差、環境復雜等條件下難以發揮作用。我們考慮到用戶在導航時一般僅調用地圖的局部,因此通過將大地圖語義化,以物體為特征建立點云地圖,將其分塊并實時按需下發至端側,使端側具備了獨立精確定位計算能力。
經過測試,1M的點云數據即可覆蓋40-50平米的范圍,且通過預加載等方式可以讓用戶基本感受不到地圖下載的延遲。
針對局部語義地圖的技術架構我們拓展了很多新的應用場景,如上圖展示的BIM數字沙盤,可將BIM模型和效果投放到實景沙盤上。
在多人場景,通過移動Web動態加載語義點云地圖,使用局部點云定位,在點云世界坐標下記錄模型信息即可通過P2P通信實現Web端的多人AR交互。
無論是端云協同還是局部語義地圖方案都很大程度上依賴云端預建地圖的準確性,但它的時效性非常強。為了解決實時地圖更新的問題我們采用了眾包方案。
在眾包模式下,用戶的手機可以作為地圖重建采集設備,將拍攝的畫面反饋至云端進行更新。
我們也采用了兩種在定位優化手段。首先,傳統定位算法往往依賴低級幾何特征(特征點)來建立視覺地圖,但在弱光或暗光場景下可能難以提取到足夠的特征點,針對這類復雜場景我們通過引入語義化特征,利用高層級語義信息協助建立點云地圖,從而增強定位能力。
第二是針對樓梯間等特征點較少的場景改為使用線特征注冊圖像,使重建流程和定位能力更加穩定。
以上是我們從通信角度對基于MEC+D2D融合的多用戶交互XR協同架構提出的一些考慮。
上圖展示了我們從降低分發時延、同步時延角度提出的Web側多用戶XR協作框架。
-03-
全息XR通信與實時交互服務
全息容積視頻是一種捕捉3D空間的全息顯示技術。而實現3D全息視頻實時采集、傳輸與交互是沉浸式XR的關鍵挑戰。相對于視頻的捕捉采集,我們更多地關注它從傳輸、通信到最終在終端呈現的過程。
全息視頻實時采集、傳輸過程中的難點體現在以下幾方面:一是全息視頻的采集時間過長,歷經多機位畫面融合、編碼、傳輸和解碼后嚴重降低了視頻幀率;第二是全息視頻的數據量過大,所需帶寬過高,現有網絡難以承載;第三是編解碼效果差,現有標準無法實現實時解碼。
在此基礎上,我們提出了基于AI的語義通信傳輸機制,通過提取、傳輸全息視頻的關鍵點云語義特征極大降低了傳輸數據量。終端側負責進行容積視頻幀重建。
由于基于AI的點云編解碼方案對計算和存儲的要求較高,資源有限的終端設備難以實現實時解碼交互。因而我們提出了面向任務的輕量化傳輸機制,采用興趣感知選擇技術提取局部用戶感興趣的內容,同時采用剪枝、量化等網絡輕量化技術,極大地降低了AI傳輸模型的參數和推理速度,提高了解碼效率。
除了單純的3D全息點云實時交互外,我們也在思考面對混合模態視頻XR業務場景的解決方案,但現有視頻流自適應傳輸方案都是針對單模態業務的優化。
我們提出了一種面向多模態業務的云渲染自適應視頻流框架,對于包含傳統2D、360度視頻,全息點云視頻的多模態業務,通過云渲染的轉碼方式有效降低了移動終端的帶寬和解碼壓力。
我們采用多智能體強化學習的方式實現多維度內容ABR控制,從而最大程度保證不同用戶的QoE。
基于未來網絡試驗設施(CENI)提供的大帶寬、低時延等特性需求,從創造承載高清全息XR的網絡條件考慮,我們擬搭建出一套基于CENI的設施,可支持超遠距離多人交互的實時全息通信試驗系統。
-04-
云化XR的新需求和新挑戰
總體來看,未來云化XR的發展將面臨網絡能力方面的需求和挑戰。目前多個3GPP工作組也在針對5G低時延云游戲、AR/VR、多媒體編解碼和XR業務QoE等方向展開研究。
同時云化XR仍面臨幾點技術挑戰。
一是在云網架構上,復雜場景下的圖形渲染、編碼和計算部署在云端也為云側帶來了很大壓力。那么未來面對海量用戶,云側要滿足確定性渲染計算能力及處理時延,網絡需要滿足確定性帶寬及傳輸時延;
二是在網絡側,滿足XR多模態業務不同場景的差異化和安全隔離需求需要定制化網絡切片和安全隔離;
三是在邊側,云XR業務需要消耗GPU資源來實現實時圖形渲染、并行計算等能力。邊側IaaS層成本主要是GPU成本,通過GPU虛擬化提升GPU使用效率是拓展云化XR業務的重大挑戰;
四是在云側,XR的超高分辨率畫質要求,巨大的數據量給編解碼帶來的挑戰,尤其是強交互云XR直播與交互業務需要支持實時轉碼,基于通用視頻的編解碼技術效率相對較低;
五是在終端側,3D體驗的終端價格仍然昂貴,內容質量低,跨平臺性差。
最后,由于傳統的QoE指標評價通常只針對單一的業務類型,且業務之間的耦合度低,已經無法適應云化XR的業務場景,我們目前正在推進建立兼容云XR的質量評估體系。
編輯:黃飛
?
評論
查看更多