編碼時(shí)采用精準(zhǔn)碼控,在碼率受限的情況下,將有限的資源合理分配,提高整體畫質(zhì);編碼前,對(duì)圖像進(jìn)行精致的前處理,營造更加極致的視覺效果,提升畫質(zhì)。
大家好,我是來自騰訊視頻的汪亮,主要負(fù)責(zé)騰訊視頻業(yè)務(wù)的視頻編解碼,以及圖像前處理的工作。今天的分享內(nèi)容主要分為兩個(gè)方面:精準(zhǔn)的編碼碼控和精致的圖像前處理。其主要目的是為了使終端用戶在看視頻時(shí)有最好的畫質(zhì)體驗(yàn)。此外,在文后簡(jiǎn)單介紹了我們的下一步工作方向和內(nèi)容。
1、轉(zhuǎn)碼框架
如上圖所示, 我們所有的直播和點(diǎn)播都是使用同一套邏輯框架來進(jìn)行處理,包括NBA、101等節(jié)目直播流和點(diǎn)播文件的源介質(zhì),通過就近接入,進(jìn)入轉(zhuǎn)碼系統(tǒng)。
在轉(zhuǎn)碼系統(tǒng)中,進(jìn)行前處理后,執(zhí)行H.264或HEVC的視頻編碼以及AAC或Dolby的音頻編碼,然后將編碼后的音、視頻流封裝成MP4、TS、FMP4的文件,進(jìn)行DRM加密處理,最后把它上傳到FS文件系統(tǒng)保存,并分發(fā)到CDN,全平臺(tái)的終端也以就近接入的方式,下載文件進(jìn)行播放。
在播放的過程中,我們會(huì)加入P2P的SDK來節(jié)約帶寬。本次分享的內(nèi)容主要集中在上圖中前處理這部分邏輯。
2、畫質(zhì)評(píng)測(cè)
我們對(duì)視頻進(jìn)行前處理和編碼優(yōu)化,但如何評(píng)價(jià)優(yōu)化效果的好壞,是否達(dá)到預(yù)期,就涉及對(duì)畫質(zhì)評(píng)定規(guī)則的約定。希望找到一個(gè)簡(jiǎn)單又通用的方法來評(píng)定畫質(zhì),但實(shí)施的難點(diǎn)在于畫質(zhì)和人的主觀感覺強(qiáng)相關(guān),就更加增加了畫質(zhì)評(píng)測(cè)的復(fù)雜度。
我們嘗試了四種評(píng)定方式psnr、ssim、vmaf和主觀評(píng)測(cè)。傳統(tǒng)的PSNR和SSIM,缺點(diǎn)在于評(píng)測(cè)是相對(duì)質(zhì)量而不是絕對(duì)質(zhì)量,得出的值不能很好的代表主觀結(jié)果,在發(fā)現(xiàn)這個(gè)缺點(diǎn)之后,業(yè)界提出了VMAF,也是目前較為通用的一種方式,包括在MSU編碼器的比賽過程中也采用VMAF作為參考指標(biāo)之一,但它是基于一種傳統(tǒng)的方法且和訓(xùn)練樣本相關(guān),可能不能很好適配所有類型的視頻;最后一種方式就是主觀評(píng)測(cè),通過兩臺(tái)電視機(jī),或者兩個(gè)手機(jī)對(duì)比,找不同背景的同事來看,然后進(jìn)行MOS評(píng)分。
為了得到更為準(zhǔn)確的評(píng)分,我們開發(fā)了一套web評(píng)測(cè)系統(tǒng),對(duì)上述4項(xiàng)指標(biāo)均進(jìn)行評(píng)測(cè)和統(tǒng)計(jì),在新算法全量發(fā)布前,測(cè)評(píng)結(jié)果作為不斷改進(jìn)和優(yōu)化的參考指標(biāo)。
3、編碼-內(nèi)核優(yōu)化
點(diǎn)播和直播的流進(jìn)來后,首先會(huì)將其解碼成YUV的數(shù)據(jù),再進(jìn)行前處理與編碼,得到編碼壓縮NAL包。
視頻編碼的經(jīng)典框架沒有大的更新,包括預(yù)測(cè),變換,量化,掃描,熵變換,依舊是這幾個(gè)步驟。由于內(nèi)核的優(yōu)化是一個(gè)周期較久,比較耗時(shí)的過程,在沒有好的結(jié)果出來之前,會(huì)基于編碼器不變的情況下,進(jìn)行類似參數(shù)調(diào)優(yōu)等操作,比如,進(jìn)行場(chǎng)景的識(shí)別,讓其自適應(yīng)的進(jìn)行量化和參數(shù)的設(shè)定,達(dá)到在最低碼流情況下獲得最好視頻效果的目的。
4、編碼-分類別編碼
不同的視頻內(nèi)容,由于其復(fù)雜度不一樣,可以為其分配不同的參數(shù),在目標(biāo)碼率不一樣的情況下,也能達(dá)到很好的畫質(zhì)效果;分類別編碼的目的是在總碼率一定的情況下,能夠讓碼率在不同類型的視頻間進(jìn)行很好的分配和轉(zhuǎn)移,物盡其用。對(duì)片源進(jìn)行分類,例如分類為四個(gè):2D動(dòng)畫、3D動(dòng)畫、普通電影、以及體育視頻(如足球賽,籃球賽等)。在分類之前,所有視頻的目標(biāo)碼率是同樣對(duì)待處理的,分類之后,為不同的類別的內(nèi)容分配一個(gè)更為合適的目標(biāo)碼率,測(cè)試發(fā)現(xiàn),2D動(dòng)畫的視頻,即使減少30%的碼率,也能夠達(dá)到同樣的畫質(zhì)效果,此時(shí),將節(jié)約出來的碼率轉(zhuǎn)給體育視頻,使之達(dá)到更好的畫質(zhì)效果。
5、編碼-動(dòng)態(tài)碼率
在一個(gè)視頻中,場(chǎng)景是動(dòng)態(tài)變化的,有時(shí)比較平緩,有時(shí)比較復(fù)雜,碼率曲線可以很好的展示它的變換情況。片源分類是針對(duì)片源對(duì)象來說的,動(dòng)態(tài)碼率則是對(duì)該片源按時(shí)間軸進(jìn)行細(xì)致的劃分,區(qū)分平緩和復(fù)雜的區(qū)間,并為其分配不同的目標(biāo)碼率。
點(diǎn)播中,編碼的過程一般會(huì)采用2-Pass的方式,首先進(jìn)行720P格式進(jìn)行1-Pass的編碼,得到每一幀的參考幀的一些信息,這些信息可以為第二次編碼進(jìn)行指引。在第二次編碼時(shí),參考該pass1的信息,并生成多個(gè)不同的目標(biāo)格式的清晰度,例如480P、540P、1080P等。得到兩個(gè)好處,其一節(jié)約時(shí)間,只用生成一次passlog信息;其二是各個(gè)格式的I幀是對(duì)齊的,能進(jìn)行無縫切換的播放。
6、編碼-ROI編碼
在演唱會(huì)等娛樂節(jié)目中,人物背后的霓光燈對(duì)畫質(zhì)的影響非常大,由于燈光相對(duì)平滑且顏色信息非常多,如果按普通的方式處理,會(huì)占用大量的碼率,導(dǎo)致終端用戶即使有4M或5M的帶寬也會(huì)覺得畫質(zhì)不清晰。
ROI編碼的核心思想是,基于深度學(xué)習(xí),識(shí)別出感興趣的區(qū)域,例如人臉或人體部分,然后在編碼時(shí),對(duì)這部分區(qū)域進(jìn)行碼率增強(qiáng)的處理。例如我們觀看一個(gè)跳舞的視頻,人眼更關(guān)注的人體,通過把這個(gè)人體區(qū)域找出來,并將區(qū)域的信息傳遞給編碼器,分配更多的碼率,從而讓人臉顯得更加清晰。上圖展示的是傳統(tǒng)處理方法與應(yīng)用ROI編碼技術(shù)后的效果對(duì)比。
7、圖像-前處理框架
由于圖像前處理算法需要應(yīng)用于點(diǎn)播和直播兩個(gè)系統(tǒng),因此我們自研了一套框架。從圖中可以看到,來自點(diǎn)播和直播的輸入幀,進(jìn)入一個(gè)前處理Filter,再進(jìn)行編碼得到碼流,優(yōu)點(diǎn)就是開發(fā)的任何一個(gè)算法,類似模塊,可以直接插入,應(yīng)用于點(diǎn)播和直播中。該框架的使用,使得自研算法的集成和應(yīng)用非常方便。
8、圖像-TIE增強(qiáng)
上圖展示的是自研的TIE(Tencent Image Enhance)即騰訊視頻畫質(zhì)增強(qiáng)技術(shù),通過對(duì)視頻進(jìn)行特定的分析處理使得畫面能夠更加的通透,層次感更加突出,為用戶營造一個(gè)更加逼真的視頻效果。在大部分的點(diǎn)播和直播視頻中都啟用了TIE增強(qiáng)處理。
9、圖像-數(shù)字水印
加上數(shù)字水印的主要目標(biāo)就是為了加強(qiáng)版權(quán)保護(hù),在視頻幀中嵌入數(shù)字水印,方法是在高頻和中頻的信息里面加入自己的私有信息。如果視頻被盜,可以分析被盜的視頻流,進(jìn)行解碼,用相應(yīng)的工具進(jìn)行分析,如果提取的信息包含植入的加密信息,就說明視頻流是從我們這里被盜走的。 在視頻中添加數(shù)字水印可能會(huì)導(dǎo)致畫面出現(xiàn)瑕疵,在加入強(qiáng)度和策略上會(huì)進(jìn)行一個(gè)控制,盡量減少對(duì)畫質(zhì)的影響。
10、圖像-超分(老片翻新)
超分目前我們主要是應(yīng)用于老片翻新和視頻分辨率清晰度提升中,因?yàn)楹芏嗬掀雍苡锌赡苁菑钠胀ǖ腣CD里傳出來的,它的畫質(zhì)是比較差的,不滿足我們對(duì)畫質(zhì)的需求。用深度學(xué)習(xí)的方法,通過構(gòu)建不同的訓(xùn)練集,構(gòu)建起較為完備模型,避免圖像中的噪聲的增強(qiáng),同時(shí)得到較好的效果。為了解決后端服務(wù)器處理耗時(shí)的問題,在分布式框架中啟用超分算法,并發(fā)加速。目前我們也準(zhǔn)備在手機(jī)等終端上加入超分的特性,540P的碼流,終端可以超分到1080P,在提升畫質(zhì)的同時(shí),節(jié)約大量碼率,當(dāng)然為了達(dá)到實(shí)時(shí)性,在模型選擇上,進(jìn)行了一些縮減。
11、圖像-HDR10視頻
很多終端設(shè)備已經(jīng)支持hdr視頻的顯示,即支持更高的亮度范圍和更多的顏色信息,目前常用的有hdr10、dolbyvision等標(biāo)準(zhǔn),在支持的終端上播放,有著無與倫比的效果。但受限于片源介質(zhì)的數(shù)量較少,就自研究了sdr轉(zhuǎn)hdr10的技術(shù)。主要進(jìn)行2個(gè)步驟的操作,第一個(gè)就是亮度的擴(kuò)展,第二個(gè)就是要對(duì)色域的擴(kuò)展,要把原先亮度的BT709的色域擴(kuò)展到BT2020色域上。有兩種方式進(jìn)行,第一個(gè)就是普通算法的方式,建立一個(gè)空間映射,將亮度和色度從一個(gè)空間映射到另外一個(gè)空間,但這個(gè)映射有時(shí)會(huì)導(dǎo)致亮度不是很均勻,需要一個(gè)調(diào)優(yōu)的過程。第二個(gè)方式是采用hdrnet進(jìn)行訓(xùn)練,生成一個(gè)映射模型,基于普通的sdr介質(zhì)生成hdr介質(zhì)。
12、持續(xù)探索/完善的技術(shù)
最后簡(jiǎn)單介紹我們正在探索和即將展開的一些工作,例如,多模態(tài)內(nèi)容的理解,包括對(duì)場(chǎng)景的識(shí)別,在視頻內(nèi)容中植入不同的應(yīng)景的廣告,實(shí)現(xiàn)千人千面的廣告;內(nèi)容的搜索,希望在片源量非常大的媒資庫中,能快速找到想要的內(nèi)容;音視頻編解碼技術(shù),在不斷的在做更新和優(yōu)化迭代,并在環(huán)繞聲、VR等方向上也在不斷的探索。希望音視頻技術(shù)的不斷演進(jìn),能為終端用戶提供更美妙的體驗(yàn)。
-
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40449 -
編碼
+關(guān)注
關(guān)注
6文章
942瀏覽量
54814 -
視頻編碼
+關(guān)注
關(guān)注
2文章
113瀏覽量
21018
原文標(biāo)題:精致前處理,精準(zhǔn)碼控 — 極致視覺效果
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論