當前視頻行業環境下,硬件芯片的機遇與挑戰并存,如何使得硬件芯片產品及方案設計更好地貼近用戶、服務用戶及滿足用戶更深層次需求?本次LiveVideoStackCon 2022 北京站邀請到镕銘微電子解決方案架構總監——蔡媛Amy,為大家介紹镕銘微電子VPU如何幫助客戶實現極致增效降"本",并介紹基于新一代Quadra VPU的全球首個硬件智能極速高清產品,如何將歷來成本高企的AI增強視頻產品帶入到規模應用中。
文/蔡媛Amy 編輯/LiveVideoStack 大家好,我是镕銘微電子解決方案架構團隊負責人的蔡媛 Amy,本次分享的題目是镕銘微電子VPU極致降本增效實踐,主要介紹在生產實踐中,如何使用镕銘VPU產品在規?;瘧弥袔椭蛻魧崿F極致降本增效,給大家帶來新的應用方案和啟發。我會從以下幾個方面進行介紹:
-01-
镕銘微電子公司及產品介紹
NETINT是一家專注于新型智能存儲和視頻/圖像編解碼解決方案的科技公司,在國內的上海、北京、濟南,加拿大的溫哥華和多倫多都設有研發中心。NETINT自主設計的VPU可提供基于ASIC的超大規模、超高密度、超低延遲的視頻解決方案,我們的視頻轉碼器產品已被全球眾多頂級大公司所使用。
镕銘微電子的使命是為云和數據中心提供強大的算力,長期愿景是成為世界上最好的數據中心芯片公司。我們的產品主要包括視頻處理芯片VPU和軟硬件結合的視頻處理解決方案,前者在功能上提供視頻編解碼能力,輔助視頻編解碼的AI處理能力以及2D圖像引擎的處理能力,后者包括三種產品形態,第一種是VPU服務器板卡,第二種是搭載芯片的視頻處理一體機,第三種是基于視頻處理一體機的端到端視頻解決方案。
镕銘微電子是視頻處理芯片 VPU 定義者和視頻處理方案創新企業,镕銘微電子設計出了多款高度創新的芯片產品,被廣泛應用于云數據中心、邊緣計算公司及媒體內容提供商,最大程度地降低視頻處理和數據儲存的成本。VPU產品技術位居全球第一,并且已經成功研發兩代芯片,第一代產品已經在全球頭部客戶處大規模驗證和應用部署,同時也是數據中心大芯片領域的創業公司中出貨量最大的獨角獸企業。
圖中展示了兩代產品,第一代是Logan芯片,對應Codensity T408單芯片產品和T432 4芯片產品,于2019年發布并量產。同時具備U.2/AIC的形態,來適配兼容不同型號的服務器。U.2形態的編解碼卡,和2.5寸 NVMe SSD的外形一樣,可以直接使用NVMe SSD的卡槽。除外,大部分服務器都具備PCIe卡槽,可以使用AIC形態的編解碼卡。
第二代是Quadra芯片,基于Quadra發布了T1A、T1U和T2A產品,在海外的客戶已有過萬片的部署,這兩代芯片無論是在應用性、穩定性還是在實際業務中都經過了客戶規?;渴鸬尿炞C。
-02-
镕銘微電子VPU增效降“本”實踐
鑒于目前全球經濟形勢處于下行狀態,我會重點介紹“增效降本”部分。
NETINT VPU是面向數據中心和邊緣計算設計的視頻/圖像編解碼處理芯片。那么,通常對于面向數據中心的芯片,在大規模應用部署的時候,需要考慮的幾個重要因素:包括性能、成本、同構性、穩定性。性能就是字面意思,我們需要關注峰值性能、平均性能等。比如人工智能芯片,我們會非常關注他的計算能力(吞吐量):通常關心的是32位浮點計算能力。做推理預測的話也可以用8位整數,我們會關注INT8 的計算能力。顯存大小:當模型越大,或者訓練時的批量越大時,所需要的GPU內存就越多。對于CPU來說,我們關注芯片提供的核數,芯片的頻率。對于VPU 而言,因為主要提供的是視頻/圖像的編解碼處理,所以性能上主要是指芯片可以并發處理的編解碼的路數、協同做視頻處理的AI計算能力、編碼延遲水平(最大延遲/平均延遲)等。
而成本和我們今天討論的降本增效是直接相關的,成本包括TCO(整體擁有成本)、人力成本以及時間成本。
圖中列舉了VPU系列產品性能,T408 吞吐支持8路1080P/30fps,功耗是所有產品中最低的,只有7W,而國產人工智能芯片的功耗大致在70w-100w,對于CPU,高配CPU的功耗大概是240w,對比下來,T408功耗相當低,它支持H.264/H.265 轉碼。T432是4芯片產品,相當于T408 4倍能力,相當于32路。
2022年發布的Quadra系列,其特點是性能相對于T408提升了4倍,單芯片支持32路1080P,T2產品是兩芯片的Quadra,可以支持64路1080P30。Quadra還支持8K/60fps單路的實時轉碼,T2相當于支持兩路的1080P/60fps的實時轉碼。Quadra的功耗是20w,在編解碼標準上,Quadra增加了支持VP9的解碼標準及AV1的編碼標準,海外的應用快于國內,比如META、Google,尤其是前者超過70%的流量走AV1。國內頭部公司目前更多以H.265標準為主。
圖中展示的是Quadra關鍵的視頻處理單元,包括編碼模塊、解碼模塊、AI推理引擎、2D圖像處理引擎,以及可用于音頻處理的DSP模塊。芯片集成的AI 推理引擎,與視頻編/解碼器集成于同一芯片上,這可以讓用戶在同一個芯片上實現一些復雜的AI輔助編碼,比如ROI輔助編碼,窄帶高清編碼、在同一芯片上完成AI推理,編解碼所有數據處理流程,這將極大地提升工作效率并顯著減少延遲。
我們是全球首款基于可計算存儲架構的VPU,專門為數據中心和邊緣計算所設計,使用NVMe協議作為主機到硬件加速器的設備接口。NVMe是非易失性內存接口協議,旨在用于基于PCIe的存儲設備,例如SSD(固態磁盤),它還可以擴展到支持可計算型存儲。這樣的優勢包括免驅動,能夠避免許多與服務器的兼容性問題,同時達到更好的延遲和數據交換能力。
除了性能之外,大家還會非常關注編碼的比特效率,Quadra的比特效率在快速檔上能夠達到Fast和Medium之間的水平,在慢速檔能夠達到H.265 Slow的水平。
行業中較好的H.265軟件編碼器,在Super Fast檔位上,開到4個線程,8K分辨率時能夠達到17fps,之后即使線程數增加,其fps也無法隨之提高,且CPU利用率也無法達到滿載利用率。所以要用軟件編碼器實現8K/60fps,需要在轉碼系統上實現比較復雜的并發架構。而利用Quadra硬件編碼器,就能夠實現單芯片8K/60fps實時轉碼,并且單線程達到92%以上的loading,這是VPU在高分辨率視頻處理上的極大優勢。
在畫質處理的對比結果上,相較于Nvidia T4硬件編碼器,在類似檔位lookahead-4,相同的PSNR下能夠節省23-25%的碼率,rdo開到3時,可以進一步將碼率節省提高30-31%。
另一個編解碼的重要指標是延遲,Quadra的延遲對比T408有了更高的提升,1080p的編碼延遲大概是4ms,這是單路延遲,將路數提升到32路,延遲也只增加1-2ms,大概是5-6ms,對于互動型應用如云游戲、RTC等,其QoE及QoS參數極易受延遲影響。圖中可以看到Nvidia T4延遲大概是Quadra的兩倍,H.264大概是三倍,達到15ms左右,X.265大概是20多倍,接近100ms,當然這都是開源的H.264及H.265,但即使對比行業內優化非常好的軟件編碼器,兩者的差距也達到3-4倍。
最大延遲相差更明顯,這是因為軟件編碼器的延遲波動相較于硬件編碼器來說大很多。下圖顯示Quadra的延遲波動基本處于穩定狀態,而延遲穩定對于云游戲等場景非常重要,波動較大時會影響客戶體驗,碼率和延遲不能突然增大,顯然Quadra能夠更好滿足需求。
性能和成本息息相關,在計算成本時需要考慮哪些因素?以直播場景為例,直播整個業務流程包括內容生產、內容處理、內容分發及內容播放,編解碼卡位于內容處理環節,除了本身的計算成本,其碼率也會影響到內容分發的CDN成本及計算/存儲成本。
計算成本時需要考慮密度、折舊及功耗:
①密度:如一臺32核服務器,單個服務器只能跑6路左右的H.265 1080P30FPS轉碼,前提還是行業內較優秀的軟件編碼器。64個thread的服務器可以跑12路,128個thread能夠跑24路。對于T408而言,在一臺機器插上24個U.2卡,能夠實現整機跑200多路,密度是原來的20/30倍。
②折舊成本:如一臺64核(vCPU)服務器加上編解碼卡后,整機成本并不會上升很多,但其密度能夠提升20倍左右,這便降低單路折舊成本。
③功耗成本:功耗會影響機柜成本支出,一個16A機柜能夠容納7臺400-500w的機器,插上卡后,單個機柜能夠容納的機器數量并不會有明顯變化,但其整機可運行的密度能夠提升許多。
除了計算成本外,還有分發成本和存儲成本,影響兩者的因素是比特效率。Quadra H.265在VITS2021SmallSet dataset 基準測試集上, 最高擋的rdo level的配置下相對fast擋位能夠得到8.9%的碼率節省,相對于medium擋位得到4.1%的碼率節省。對于直播冷流來說,使用VPU產品主要是為了降低轉碼的計算成本。但對于熱流而言,使用VPU高畫質模式可以在帶寬和存儲成本上獲得更大的收益。
成本還包括人力成本,即接入所付出的人力代價,T408和Quadra都基于FFmpeg架構,為用戶提供FFmpeg框架的lib,客戶只需接入libavcodec的API即可整合現有的FFmpeg流程,無需對現有的架構做太大變更。部分用戶會基于NETINT提供的Libxcoder API。在接入上和X 264/X265類似,并提供了極為靈活的編碼控制,場景的定制參數。此外,在規模化運維時,為用戶提供了運維工具及線上debug工具,以便幫助用戶快速排查問題。
-03-
镕銘微電子VPU規?;渴饘嵺`
我們是數據中心大芯片領域出貨量最大的獨角獸公司,接下來為大家介紹大規模部署的相關實踐。
規?;渴鹦枰紤]兩點,第一是同構性,如何將一張編解碼卡與現有的基礎設施進行簡單的兼容,并在現有的算力如現有的服務器基礎上進行算力擴展,從而方便地接到系統簿上進行算力擴展。第二是穩定性,也就是說在進行規?;渴饡r,硬件、固件/軟件層的穩定性如何?
在兼容性上,我們采用的是NVMe協議,是免驅動的,一般來說,Windows、Linux、Android系統都會自帶穩定高效的NVMe驅動程序,在裝編解碼卡時無需用戶裝驅動,我們基于NVMe 1.3的協議,能夠向下兼容。在系統支持上,我們能夠較好兼容Windows、Linux、Android,U.2產品還支持熱插拔。規模化擴容方面,能夠利用現有存儲機型直接插上U.2的Quadra或T408,將一臺只有幾路的服務器擴展為支持200路或300路編解碼卡的服務器。
而傳統驅動需要自動定義其驅動程序,并存在對不同操作系統的兼容問題,尤其是Windows系統的兼容更為困難,在規?;渴饡r,會凸顯穩定性相關的問題,如掉卡,無法識別卡等。我們采用的NVMe接口及驅動能夠極大程度避免此類問題的發生。
關于同構性,我們提供U.2和AIC形態的卡,可以進行選擇而無需配件轉換,U.2和NVMe SSD的形態及協議都一致,能夠復用機型。
此外,我們的功耗非常低,單卡T408是7W,單卡的Quadra U.2是20W,一般情況下插上卡后,一個機柜原來是7個服務器,現在還是7個服務器,不需要改動機架,這樣有利于機器的運維。
圖中右側是Quadra的AIC形態,我們同時了提供服務器整機方案,展臺有7張卡的服務器樣例。
算力擴展能力利用的是NVMe over fabric協議,通過高速的網卡實現服務器之間的高速數據通道,即使服務器和卡不在一臺機器上,也可以實現低延遲高數據帶寬的連接和訪問。
這是規?;涞氐膶嵗?,左圖是在海外的24*U.2,聯合SuperMICRO提供的T408服務器整機。右圖是服務器利舊實例,利舊一般采用T408,其規?;€定性部署已經非常成熟。
在大規模部署過程中,大家可能會考慮到硬件或固件穩定性,比如接入業務后會不會導致業務有損。
在硬件穩定性上,我們有Spike/Lt-loop/DCpower反復過萬次的穩定性驗證、超負載、過熱保護等穩定性驗證,進行了嚴格的跌落測試,做出掉卡率、壞卡率 SLA承諾以及RMA流程承諾,從而保證問題的閉環。
在固件穩定性上,我們經過了數萬片線上規?;渴痱炞C,對解碼場景能夠達到業界最好的兼容性支持,并且有超7w個test case支持固件升級。
-04-
Quadra硬件智能極速高清產品
大家應該非常熟悉極速高清產品,如阿里的窄帶高清,騰訊的極速高清等,我們的產品也是基于AI技術與圖像處理技術,通過深度學習網絡,對視頻畫面進行感知,優化主觀體驗,追求較好的人眼感受,節省帶寬。
而不同于其他極速高清產品,Quadra基于硬件芯片的AI推理引擎及編碼做無縫配合,從而達到更好的處理效率和規?;瘧玫某杀緝瀯?。
圖中對比了Quadra的處理流程和傳統處理流程
傳統處理流程是在視頻輸入后通過解碼,到CPU進行處理,再給到CPU/GPU做推理運算等前處理,再給CPU做后處理,再給到硬件/軟件做編碼,整個流程實際上非常復雜,延遲無法達到最好的效果,而且成本較高。
Quadra AI Enhance流程都在卡內完成,在卡內解碼,將數據推到AI推理引擎、編碼器再輸出視頻,相較于傳統流程來說簡單了許多,無需主機側參與,利用Quadra本身的AI計算單元實現端到端的視頻質量優化。
我們專注于VMAF,提升人眼主觀效果。圖中是處理前后效果對比,可以看到使用極速高清后的VMAF能夠提升14%左右,Quadra還具備極強的場景泛化能力。
在成本方面,首先,云服務對極速高清的定價是普通媒體處理的4倍,成本昂貴。通過Quadra以及提供的極速高清開關可以實現25%的轉碼比例,在無額外成本下支持極速高清,并且主觀效果提升明顯,大概達到4K@60FPS、1080P@240FPS及720P@480FPS的極速高清性能。我們希望幫助客戶將歷來成本高企的AI增強視頻產品帶入到規模應用中。
責任編輯:彭菁
-
芯片
+關注
關注
455文章
50714瀏覽量
423131 -
asic
+關注
關注
34文章
1199瀏覽量
120429 -
vpu
+關注
關注
0文章
15瀏覽量
11780
原文標題:镕銘微電子VPU 極致降本增效實踐
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論