采訪講師|莊澤森
聲網Agora架構師,畢業于復旦大學電子工程系,專業方向是信號處理和估計理論,畢業后一直從事音視頻相關算法研究和優化。2014年加入聲網后,專注于實時音視頻方案的架構和實時網絡加速相關技術的研究,對擁塞控制算法、丟包對抗技術、FEC、jitter buffer等算法等都有相關經驗,多年來和團隊一起研發了聲網一系列關鍵產品,包括音頻引擎、通信視頻引擎、直播SDK、多人視頻等等。
以下內容由LiveVideoStack與莊澤森的采訪整理而成
您目前的工作以及近期關注的技術和產品?
莊澤森:目前在聲網專注于傳輸和網絡相關算法的研究,同時,作為架構師參與聲網產品和服務核心質量的技術改進。
所以,對與網絡相關算法和技術有關的、旨在提升音視頻體驗的傳輸和媒體技術以及機器學習和深度學習應用于音視頻場景和網絡的技術,都比較關注。
您加入聲網的六年間對音視頻服務&技術有了哪些新的理解;在您眼中,聲網在這期間又歷經了怎樣的發展和變化?
莊澤森:深刻體會到做好實時音視頻服務的不易。實際網絡和端設備的復雜性與多樣性,對實現不卡、不糊和低延遲的音視頻體驗有著極大的挑戰;另一方面,越來越多的實時音視頻需求,需要我們的服務支持高并發,具備高可用性和高可擴展性。這都要求我們在技術上從算法、架構到工程不斷迭代,勇攀高度,做到極致。
需要強調的是,相關的配套設施和服務產品也需要跟上,如質量監控和透明,以及客戶支持等等。
這些年,聲網團隊規模一步步從小到大發展起來,聲網的產品不斷推出,產品線越來越全,業務也從一開始的無人問津到現在的每天億級分鐘數。這一切進步的背后,不變的是團隊對技術能力技術高度的追求、對音視頻技術和對實際網絡的不斷探索。
目前為止您所參與的最難忘的項目是什么,可以與LiveVideoStack的讀者分享其中的一兩個小故事嗎
莊澤森:在聲網的這些年有太多難忘的經歷了,這里就說說剛加入聲網時的情況吧。
那時我的第一個項目就是獨立負責音頻網絡jitter buffer優化,這也是當時音頻引擎研發中的難點之一。
團隊對引擎的網絡自適應能力要求很高,而我也發現實際網絡jitter情況比想象中復雜得多,各種網絡類型和各種網絡條件,包括設備和服務器的處理瓶頸等等,都會最終表現為不同的jitter。如何做到在這些pattern下有流暢的音頻體驗,同時做到延時較低,這些都很有挑戰性;而另一方面,那時我剛從穩定的外企來到創業團隊,一切都是新鮮的也是讓人忐忑的,能否快速適應更高效更快速的工作節奏和氛圍,我心里也是沒有底的。
針對這些情況,我的做法還是擺正心態,積極融入團隊,并把注意力轉移到技術上,快速學習相關技術文獻和paper,同時進行實際網絡pattern的抓取和分析。記得當時還寫了一些腳本,對抓取的數據進行分析和可視化展示,進行算法仿真,并最終代碼實現,這樣才把第一個項目比較完美地交付了。
在您的技術進階之路上,給您啟發最大的是什么?
莊澤森:多年來一直從事技術工作,可以說有不少人都給了我很大的幫助和引導,比如聲網的資深技術顧問錢世鍔老師,他也是我上一家公司的導師;再比如現在聲網的首席科學家鐘聲老師,大家都是相關領域的專家和學者,在技術上和職業發展上給了我不少引導,他們對學術的追求和求真的態度也對我影響很大。這里邊兒還包括我們的CEOTony,他對技術的熱忱和敏感判斷,以及做事的方法,都給了我很多幫助和啟示。
您現階段正在解決的問題以及您下一階段的研發目標?
莊澤森:現階段主要在做下一代網絡自適應的傳輸和媒體算法研發,在復雜的網絡和應用場景下希望可以給出更魯棒更極致的方案,進一步提升音視頻體驗,應對由于疫情和5G帶來的在全世界范圍井噴的音視頻需求。
音視頻服務做到“實時”并不容易,能請老師與大家分享您對構建實時音視頻方案架構的相關經驗,以及您對于技術意義上的“實時”的理解?
莊澤森:提到實時音視頻,也許很多人都會想到低延時,而我想強調的是不要單看延時,除了“低延時”,還有“體驗三角形”、“場景”這幾個關鍵詞。
音視頻體驗包括延時、流暢度和清晰度,我稱之“體驗三角形”。音視頻方案如果只優化單一指標,事情會相對簡單。舉個例子,假如只看延時,我們可以在各種網絡條件下盡量降低視頻碼率,整個傳輸和媒體方案可以做得很“敏感”,達到相對低的延時。但這樣就犧牲了清晰度,最終體驗可能也無法滿足要求。
所以,實時音視頻是在低延時語境下延時、流暢度和清晰度三者的綜合體驗結果,用現在流行的話說,就是“既要,又要,還要”的表述了。
另一方面,其實不同的業務對“體驗三角形”里三方的要求也不一樣,這就是“場景”的不同帶來要求也不同。比如直播場景,延時的要求可能降低,而對清晰度和流暢度則要求很高;通信場景則對延時和流暢度的要求很高,清晰度相對就排在后面了。實時音視頻也可以說是滿足場景要求的實時音視頻。
所以,實時音視頻方案的基礎,是需要一個在各種網絡條件下魯棒和高效的傳輸棧,傳輸延時和throughput兩個指標綜合評估能做到最佳結果,同時有根據業務需求向某個體驗指標偏倚的能力,即可以方便地場景化;另一方面,在傳輸棧之上,需要一個具備網絡適應和對抗能力的媒體層,如自適應網絡的編碼器,以及優化的媒體jitter buffer等等。
您覺得實時音視頻場景下目前挑戰較大的技術難點有哪些,聲網的解決思路是什么?
莊澤森:實時音視頻場景下從算法、架構到工程,各個方面都有不少難點和挑戰。如果挑其中較大的難點來說,可能主要在兩個地方:一個是隨著疫情的出現和5G技術的發展,音視頻服務的體量極大飆升,如何能撐得起這個體量,做到支持高并發,達到高可用和高可擴展;另一個就是如何在各種網絡狀況和資源條件下,始終提供極致的實時音視頻體驗。
對于第一個難點,聲網團隊在架構設計、資源儲備和工程實現方面下足了功夫,迭代演進過程中也一直牢記著這些要求。甚至為了保證服務,我們會瞄準比計劃的目標負荷更大的負荷;對于第二個難點,聲網在算法和版本上快速迭代,對整個音視頻pipeline、各個層級、各個模塊先定義好邊界,然后分別對具體模塊具體算法不斷探索,快速落地,進而迭代。
為什么您選擇在這次LiveVideoStackCon中重點講網絡傳輸中的擁塞控制算法?
莊澤森:擁塞控制和帶寬估計是網絡傳輸里非常關鍵的部分,算法的設計將大大影響整個傳輸棧的性能和效率,進而影響上層業務的體驗和結果。而復雜多樣的網絡條件、各個地區網絡運營的不同以及應用場景的不同又對算法提出了不同的需求,如何有一個魯棒的算法設計,確實很有挑戰,而能否做到,將最終決定服務的好壞。
人工智能、深度學習在擁塞控制算法中的應用處于什么什么狀態,以及未來的展望?
莊澤森:深度學習和機器學習的應用確實是當前擁塞控制算法研究的方向之一,也是熱點。可以說,這個方向甚至可能是一把鑰匙——最終完美解決目前該領域所有問題的鑰匙。
不過,該方向的算法目前實際落地的很少,一些學術界的成果在實際網絡或者更復雜的弱網環境下測試效果并不令人完全滿意。這里面的原因有多方面,其中之一是實際網絡數據及數據標定難以獲得,特別是能涵蓋所有網絡狀況和網絡類型的數據。
后疫情時代的視頻會議服務發生了哪些變化,對相關技術、算法優化提出了哪些新的要求?
莊澤森:關于疫情時代對音視頻服務和行業的影響,相信已經有不少文章做過詳細論述了,我就簡單講下個人的看法。
教育、辦公、社交、娛樂等領域,都在往線上轉移,或者說線上線下結合。其實這本來就是一種趨勢,但疫情又在一定程度上加速了這種趨勢,使得這些在短期內有了一個跳變。加上各種線上產品形態的迸發,又進一步帶來了實時音視頻服務需求的短期飆升。
其實不止線上辦公、線上教育等領域,這次疫情的特殊性還在于,它讓大家意識到,把業務搬到線上,可能是繞不開的一個工作,是保障業務對抗未知的“安全”戰略。可以預計,更多的領域更多的玩法,都會有線上的形態,而實時音視頻服務的需求和體量也許會比我們估計的更大。
一方面線上音視頻體量飆升,另一方面,像線上教育線上辦公這些應用場景,對實時音視頻體驗和質量的要求也更高了。同時,隨著服務的客戶和業務增多,也將碰到更多的場景,更多的網絡狀況和更多的國家地區以及更多的設備等等。
所以相應的,首先我們要“撐得起”現在的音視頻體量,從架構和資源等方面要支持高并發,達到高可用性和高可擴展性。甚至為了保證服務,架構設計和資源儲備時還要向前一步,把更大的體量支持考慮進去。
另一方面,從媒體層到傳輸層,算法能力也需要更上一層,以應對更多的網絡狀況、設備狀況和場景,以保持魯棒性,提供穩定的極致體驗。舉個例子,網絡優化要考慮不同地區的差異,考慮到音視頻用量激增后在傳輸中可能遇到更多的資源和網絡瓶頸等等。
原文標題:實時音視頻服務的“既要、又要、還要”
文章出處:【微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
音頻
+關注
關注
29文章
2870瀏覽量
81498 -
人工智能
+關注
關注
1791文章
47208瀏覽量
238298 -
機器學習
+關注
關注
66文章
8408瀏覽量
132576 -
深度學習
+關注
關注
73文章
5500瀏覽量
121118
原文標題:?實時音視頻服務的“既要、又要、還要”
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論