甜蜜惩罚小说,四虎官网,在线观看高清视频

近年來(lái)，內(nèi)容業(yè)務(wù)在行業(yè)蓬勃發(fā)展。淘寶也在積極進(jìn)行內(nèi)容化轉(zhuǎn)型，本次LiveVideoStackCon 2021 上海站大會(huì)我們邀請(qǐng)到了阿里巴巴淘系技術(shù)高級(jí)算法專家——王立波（莊?。?，回顧淘寶從圖文到短視頻直播的發(fā)展歷程，介紹音視頻算法在其中的應(yīng)用和未來(lái)的投入方向包括編解碼、視頻處理、音頻通訊與互動(dòng)。

很高興與大家進(jìn)行交流與分享，首先介紹一下自己，我是來(lái)自淘系技術(shù)部的王立波，花名莊恕，今天分享的主題是音視頻算法在淘寶中的應(yīng)用。剛接到這個(gè)任務(wù)時(shí)，覺得題目特別大，可以講的東西特別多，經(jīng)過(guò)考慮我還是決定集中講3個(gè)觀點(diǎn)，可以為大家介紹得更詳細(xì)。

這三個(gè)觀點(diǎn)分別是：視頻壓縮有效降低成本（這個(gè)觀點(diǎn)在業(yè)界應(yīng)該已經(jīng)被大家所接受）、視頻處理提升畫質(zhì)體驗(yàn)（隨著阿里云的窄帶高清的推廣，也逐漸被大家接受）、音頻技術(shù)是新的生產(chǎn)力（這是淘寶過(guò)去1-2年發(fā)力探索的方向，希望能夠?yàn)樾袠I(yè)帶來(lái)新的思考）。

業(yè)務(wù)介紹

首先我簡(jiǎn)短介紹一下淘寶的內(nèi)容業(yè)務(wù)。隨著通信技術(shù)的發(fā)展，互聯(lián)網(wǎng)內(nèi)容生態(tài)從2G時(shí)代的文字，過(guò)渡到3G時(shí)代的圖片，再到4G時(shí)代的直播和短視頻；對(duì)于淘寶來(lái)講，同樣也面臨“內(nèi)容化”的全面升級(jí)。

淘寶從PC走向移動(dòng)，從圖文走向直播短視頻，從傳統(tǒng)電商走向內(nèi)容電商再到發(fā)現(xiàn)電商、興趣電商。在過(guò)去的2020年，淘寶直播的GMV突破4000億，去年雙十一一天之內(nèi)有超過(guò)7億人次觀看淘寶直播；2020年底隨著點(diǎn)淘，逛逛的推出，短視頻成為內(nèi)容業(yè)務(wù)發(fā)展的新引擎；在這個(gè)飛速發(fā)展過(guò)程中面臨巨大的成本壓力。

視頻壓縮有效降低成本

2.1 從圖片壓縮說(shuō)起

第一個(gè)觀點(diǎn)，視頻壓縮有效降低成本。

說(shuō)起編解碼，可能不得不先提圖片壓縮了，這是一張小小的商品詳情圖，在直播短視頻興起之前，圖片是大家獲取信息主要手段，隨著用戶增長(zhǎng)，成本壓力越來(lái)越大，過(guò)去幾年中，淘寶圖片日均播放量超過(guò)千億次，如果通過(guò)降低質(zhì)量來(lái)降低成本會(huì)犧牲大家的體驗(yàn)，所以我們希望依靠技術(shù)升級(jí)來(lái)提高壓縮效率。

2.1.1 圖片壓縮標(biāo)準(zhǔn)的演進(jìn)

大家應(yīng)該很熟悉圖片壓縮。圖片壓縮實(shí)際上是一個(gè)去除空間冗余的過(guò)程，從標(biāo)準(zhǔn)發(fā)展上來(lái)看，主要經(jīng)歷了JPEG，基于VP8內(nèi)核的WebP，以及HEVC MSP三代。

這里我對(duì)各種格式做了一個(gè)簡(jiǎn)單總結(jié)，JPEG是目前使用最廣泛的圖片壓縮標(biāo)準(zhǔn)，從1992年公布至今已經(jīng)接近三十年，它非常簡(jiǎn)單高效。10年前左右，Google基于VP8內(nèi)核發(fā)布了WebP格式。WebP在塊劃分，預(yù)測(cè)，變化，量化，熵編碼方面比JPEG更優(yōu)，且增加了Deblock功能；HEVC則比WebP更進(jìn)一步，通過(guò)多個(gè)工具的升級(jí)來(lái)提升壓縮效率，另一方面，由于Tile劃分及Wpp技術(shù)的引入，HEVC給Codec工程實(shí)現(xiàn)提供很多并行化的手段，這對(duì)現(xiàn)代多核CPU來(lái)說(shuō)比較友好。

為了比較三種格式在不同場(chǎng)景數(shù)據(jù)集下的壓縮效率，我們?cè)O(shè)計(jì)圖中實(shí)驗(yàn)。得出的結(jié)論是WebP比JPEG大約提升29%的壓縮性能，HEVC對(duì)比JPEG大約提升接近50%壓縮效率。

2.1.2 淘寶自研APG格式

APG是淘寶自研的圖片格式，有三個(gè)特點(diǎn)。第一，有非常高的壓縮效率，對(duì)比JPEG節(jié)省50%碼率，非常接近HEVC；第二，高效率的移動(dòng)端解碼器，對(duì)比Webp減少20%解碼時(shí)間；第三，支持Alpha通道和動(dòng)圖，動(dòng)圖被廣泛使用的是GIF格式，而GIF沒有考慮到幀與幀之間的相關(guān)性，壓縮效率不高，而APG對(duì)比GIF節(jié)省10倍體積；

除此之外，我們對(duì)整個(gè)系統(tǒng)的架構(gòu)方面也進(jìn)行了大量工作，比如高并發(fā)實(shí)時(shí)響應(yīng)、CDN的下發(fā)策略、存儲(chǔ)和計(jì)算分離，多內(nèi)容災(zāi)等策略，最終實(shí)現(xiàn)了淘寶千億級(jí)的實(shí)時(shí)圖片處理系統(tǒng)，在大大節(jié)省業(yè)務(wù)成本的同時(shí)也保障了畫質(zhì)體驗(yàn)。

2.1.3 內(nèi)容業(yè)務(wù)進(jìn)化為視頻為主

隨著內(nèi)容業(yè)務(wù)的進(jìn)化，視頻和直播占據(jù)了主要流量。一方面信息表達(dá)從空間維度拓展到時(shí)間維度，另一方面，分辨率也提升到720P，1080P甚至4K，消費(fèi)時(shí)長(zhǎng)也成倍增長(zhǎng)，（剛才陳老師有數(shù)據(jù)，每個(gè)人花費(fèi)在視頻的平均時(shí)間可能有好幾十分鐘）。我們也知道，每一代視頻壓縮標(biāo)準(zhǔn)相比上一代有50%的碼率節(jié)省，從MPEG4到H.264/AVC到H.265/HEVC，再到去年發(fā)布的的H.266/VVC，很自然我們會(huì)想到通過(guò)升級(jí)編碼標(biāo)準(zhǔn)來(lái)節(jié)省視頻成本。

2.1.4 HEVC在視頻業(yè)務(wù)落地挑戰(zhàn)

首先我們探討一下HEVC在視頻業(yè)務(wù)落地的挑戰(zhàn)。HEVC標(biāo)準(zhǔn)在2013年公布已有8年時(shí)間，但直到最近幾年才在業(yè)務(wù)上大規(guī)模落地，這里主要有以HM下幾個(gè)原因：

首先是編碼速度，H265的官方模型HM，在普通PC上編碼720P視頻時(shí)只能達(dá)到0.1fps，想象一下，壓縮一段十分鐘的視頻需要花費(fèi)一天甚至幾天的時(shí)間。業(yè)界最好的開源編碼器X265，在慢速檔也只有6.8fps，距離30fps實(shí)時(shí)編碼的需求有相當(dāng)大的差距；

其次是編碼質(zhì)量，由于復(fù)雜度的原因，X265僅比X264節(jié)省18%的碼率，遠(yuǎn)遠(yuǎn)達(dá)不到HEVC相比AVC理論上的上限值（HEVC標(biāo)準(zhǔn)在設(shè)計(jì)時(shí)以50%的碼率節(jié)省為目標(biāo)）；

第三是碼率控制，業(yè)界有許多場(chǎng)景的碼率控制方法，比如ABR、CBR、CRF，但現(xiàn)在實(shí)時(shí)音視頻的業(yè)務(wù)場(chǎng)景非常復(fù)雜，無(wú)法直接使用這樣的碼率控制方法；

第四是解碼的兼容性和性能，也是大家普遍關(guān)心的問(wèn)題。用戶觀看環(huán)境多種多樣，有Android、IOS、Web的H5觀看，H265在H5上的支持不太好，限制了它的發(fā)展，硬解設(shè)備兼容性也不完善，所以在解碼兼容性方面也面臨著很大的挑戰(zhàn)。

2.1.5 S265編碼內(nèi)核優(yōu)化

S265編碼器是2017開始研發(fā)的，花費(fèi)三年多時(shí)間使之達(dá)到較好的狀態(tài)。我們主要在編碼工具、快速算法、工程優(yōu)化、碼控方法、框架優(yōu)化方面做了大量的優(yōu)化工作從而提升壓縮效率和編碼速度。

下面為大家詳細(xì)介紹一下速度優(yōu)化的相關(guān)技術(shù)。

1、Cu深度預(yù)測(cè)算法，HEVC的塊劃分從64劃分到8*8，深度有4層，如何預(yù)測(cè)出CTU的劃分深度是具有挑戰(zhàn)性的事情。HM為了確保編碼性能會(huì)對(duì)每一層都計(jì)算其RDcost，我們這里結(jié)合紋理復(fù)雜度、時(shí)空域相鄰塊及前處理運(yùn)動(dòng)信息，做到比較準(zhǔn)確的Cu深度預(yù)測(cè)。進(jìn)一步深度預(yù)測(cè)方面有許多研究，比如一些機(jī)器學(xué)習(xí)，深度學(xué)習(xí)的方法能夠精準(zhǔn)預(yù)測(cè)塊的劃分層級(jí)。

2、自適應(yīng)的EarlySkip算法和RecursionSkip算法。這兩個(gè)算法比較類似，EarlySkip的目的是在本層跳過(guò)其它模式的計(jì)算，而RecursionSkip目的是跳過(guò)當(dāng)前層不再Split。X265也有類似的技術(shù)，我們比X265更進(jìn)一步，做RS時(shí)會(huì)同時(shí)考慮skip和merge模式子塊的satd，做ES時(shí)，會(huì)同時(shí)考慮最佳模式的cost大小避免殘差過(guò)大，我們的結(jié)果做到在相同速度條件下對(duì)比X265相當(dāng)程度的節(jié)省碼率。

3、All Zero Block的檢測(cè)。如果一個(gè)塊經(jīng)過(guò)量化后是全零塊，就沒有必要進(jìn)行RDO及編碼了，但怎樣預(yù)測(cè)一個(gè)塊是All Zero Block。我們發(fā)現(xiàn)一種方法可能適合于一種大小的塊，在8*8中比較準(zhǔn)確，但放在32*32中不可用，所以要根據(jù)塊大小及內(nèi)部紋理強(qiáng)度，更加精確地預(yù)測(cè)出是否是All Zero Block。

4、Fast Intra Prediction。這個(gè)技術(shù)有很多人研究，H.265總共有35種預(yù)測(cè)方式，如何快速找到預(yù)測(cè)角度，有許多相關(guān)論文。我們使用Bayes估計(jì)模型，在橫向及縱向找到準(zhǔn)確方向，再去做細(xì)分角度預(yù)測(cè)，提高角度預(yù)測(cè)的速度。

5、分像素的搜索。傳統(tǒng)的分像素的搜索在整像素最佳點(diǎn)上下左右找4或8個(gè)點(diǎn)，相對(duì)來(lái)說(shuō)計(jì)算量比較大，根據(jù)整像素結(jié)果通過(guò)誤差平面估計(jì)模型推導(dǎo)出分像素點(diǎn)的位置，從而節(jié)省分像素的計(jì)算個(gè)數(shù)。

6、多參考幀的選擇。為了提高壓縮效率，現(xiàn)在的編碼器會(huì)選擇更多參考幀，比如在一個(gè)方向選擇3到4個(gè)參考幀，我們會(huì)根據(jù)參考幀的質(zhì)量，距離來(lái)做加權(quán)，選擇適合的參考幀。在拿到一個(gè)比較好的結(jié)果后如何提前跳出其它參考幀的遍歷？多參考幀是提升壓縮質(zhì)量的一個(gè)很好選擇，但需要避免計(jì)算復(fù)雜升高。

7、Distortion的快速估計(jì)。在RDO過(guò)程中要對(duì)誤差進(jìn)行仔細(xì)估計(jì)，如果用傳統(tǒng)下的SATD做的話，效率不高，但如果做完整的RDO計(jì)算非常耗時(shí)，所以我們有殘差的預(yù)估模型，從量化后的系數(shù)中用模型推導(dǎo)出Distortion的結(jié)果避免再做反量化，反變化。還有像Bits估計(jì)，RDCost的另一個(gè)分量是Bits代價(jià)，用一次完整的熵編碼會(huì)非常耗時(shí)，如果用一個(gè)分段線性模型能夠估算出來(lái)Bits來(lái)，我們就可以快速做出RDO的計(jì)算。

其它的比如Deblock，SAO優(yōu)化偏一些工程方面手段。

除了快速算法之外，我還對(duì)壓縮性能做了一些總結(jié)，速度不變的前提下，相比于X265，我們有》30%的性能增益。我們的編碼器在以下幾個(gè)方面有性能收益：

1、第一個(gè)碼率控制。碼率控制的目標(biāo)是把碼率分配到更有價(jià)值的地方。它分幀級(jí)別碼控和塊級(jí)別碼控。在幀級(jí)別碼控中，我們對(duì)I幀碼控和P幀碼控做了精確的預(yù)分析，在塊級(jí)別碼控中，我們?cè)O(shè)計(jì)了增強(qiáng)型的Cu-tree算法。

2、分層B幀以及參考結(jié)構(gòu)的優(yōu)化。分層B幀在實(shí)現(xiàn)方面不難，對(duì)壓縮效率方面有大的幫助。前面介紹了GOP結(jié)構(gòu)的優(yōu)化，我們會(huì)對(duì)參考幀的選擇會(huì)做權(quán)衡。

3、大家知道在靜止場(chǎng)景下，分層越多壓縮效率越高，但在運(yùn)動(dòng)場(chǎng)景就不那么有效，所以我們實(shí)現(xiàn)了自適應(yīng)的GOP Size，并自研了Scenecut算法。能夠適應(yīng)不同運(yùn)動(dòng)強(qiáng)度、場(chǎng)景切換的需求包括淡入淡出的需求。

4.此外，在Bi-Search，GPB，LTR這幾個(gè)工具，在開源軟件X265是沒有的，但對(duì)提高預(yù)測(cè)效率很有幫助；MCTF工具對(duì)編碼噪聲的去除非常有幫助，我們將這幾個(gè)技術(shù)加入到S265之后獲得了5%以上的BD-rate收益。

5、2-pass是在求解一個(gè)全局最優(yōu)的Qscale，它在離線轉(zhuǎn)碼場(chǎng)景中被用到，允許對(duì)視頻做更多分析，但在求解過(guò)程中，失真度量是MSE，我們對(duì)度量函數(shù)進(jìn)行了重新推導(dǎo)，獲得5%壓縮性能；

6、Dynamic CRF和Pboffset，常規(guī)做法是是固定幀級(jí)P，B幀的Offset，我們會(huì)根據(jù)幀的復(fù)雜度來(lái)調(diào)節(jié)幀級(jí)QP值；

7、AQ和RDO的代價(jià)計(jì)算通?；贛SE，但如果是針對(duì)SSIM指標(biāo)的話，可以推導(dǎo)SSIM的模型，RD也一樣。

8、針對(duì)會(huì)議場(chǎng)景，我們還實(shí)現(xiàn)了IBC工具，對(duì)PPT投屏有幫助。并專門設(shè)計(jì)了對(duì)屏幕內(nèi)容優(yōu)化的搜索算法，傳統(tǒng)的快速算法如菱形搜索、六邊形搜索在SCC場(chǎng)景下效率很低，很難找到最優(yōu)解，但如果用自研的算法搜索就有較好的效率提升。

上述是S265技術(shù)的介紹，記得在2016年的時(shí)候，金山KS265第一次參加MSU比賽獲得了非常好的成績(jī)，后來(lái)國(guó)內(nèi)有不少同行參賽也獲得了不錯(cuò)的名次。阿里巴巴S265從2017年開始投入研究到2020年首次參加MSU比賽，我們?cè)诒荣愔蝎@得了3項(xiàng)第一：1080P 30FPS PNSR指標(biāo)第一、1080P 1FPS PNSR指標(biāo)第一、1080P 30FPS主觀質(zhì)量第一。

2.2 場(chǎng)景自適應(yīng)編碼

除了核心編碼器之外，在編碼器應(yīng)用方面，我們還自研了一套場(chǎng)景自適應(yīng)編碼方法，分為三個(gè)步驟：

1、視頻分析：利用機(jī)器學(xué)習(xí)方法做視頻切分，并得到高層語(yǔ)義分類，比如動(dòng)畫，體育，秀場(chǎng)，商品介紹等；

2、另一個(gè)維度看利用信號(hào)分析手段檢測(cè)出視頻的底層特征，比如運(yùn)動(dòng)強(qiáng)度，紋理特征，噪聲強(qiáng)度，亮度特征等，根據(jù)高低維度信息決定編碼參數(shù)。

3、自適應(yīng)決策引擎（ADE）：根據(jù)語(yǔ)義特征和信號(hào)特征以及網(wǎng)絡(luò)狀況，決策出最佳編碼參數(shù)組合。這個(gè)決策過(guò)程被建模為一個(gè)帶約束優(yōu)化模型；

2.3 S265解碼提升覆蓋率

一直以來(lái)，H265的解碼兼容性是大家關(guān)心的話題，假如生產(chǎn)端編碼出265碼流，但播放端不能支持265解碼，需要在服務(wù)端轉(zhuǎn)碼成264格式，這不僅不能減少CDN帶寬，反而會(huì)增加轉(zhuǎn)碼成本。在解碼這一側(cè)我們做了很多工作：

1、硬解碼適配。對(duì)市面上基本所有機(jī)型（》1000款）都進(jìn)行了適配；

2、自研高性能Native H265解碼器，在小米5 720P的設(shè)備上做測(cè)試得到240幀左右的速度，通過(guò)很低的功耗實(shí)現(xiàn)實(shí)時(shí)解碼。

3、H5的解碼。H.265在H5中沒有支持，我們基于WebAssembly技術(shù)來(lái)支持H5的播放。目前可以做到在i7電腦上1080P 30fps的實(shí)時(shí)解碼，CPU消耗在30%以內(nèi)；

2.4 淘寶編碼器落地歷程

基于以上的編解碼內(nèi)核和應(yīng)用方面的探索，我來(lái)介紹一下淘寶編碼器的落地歷程。2017年開始投入S265的研究，經(jīng)過(guò)一年多時(shí)間，開始在直播業(yè)務(wù)的落地；2019年的Q1第一版上線后結(jié)果不算太好，大約節(jié)省30%碼率；2020年Q1第二版上線后節(jié)省40%碼率；今年的Q1第三版結(jié)合窄帶高清技術(shù)實(shí)現(xiàn)了50%碼率節(jié)省。短視頻方面，我們嘗試將S265應(yīng)用到淘寶短視頻轉(zhuǎn)碼，2019年Q3第一版上線，2020年上線第二版。

基于在S265核心編碼器上的積累，我們從2020年Q2開始了S266編解碼器的研發(fā)工作，并率先在行業(yè)內(nèi)公布了可商用的S266解碼器。

解碼器方面對(duì)比VTM實(shí)現(xiàn)單核3.5倍提速，多核16倍提速；在高端的手機(jī)（IPhone12、P40）實(shí)現(xiàn)4K 30FPS解碼，低端手機(jī)720P雙核實(shí)現(xiàn)30FPS解碼。720P內(nèi)存消耗《35m《 span=“”》和Binary《1m《 span=“”》，對(duì)大型APP來(lái)說(shuō)非常關(guān)鍵，包過(guò)大時(shí)安裝下載會(huì)受阻。

我們內(nèi)部正在做VVC編碼器，目標(biāo)是1FPS Slow檔對(duì)比X265 Veryslow節(jié)省50%碼率；30FPS Fast檔對(duì)比X265 Medium節(jié)省40%碼率。大家知道VVC比HEVC會(huì)更慢，一段1分鐘的4k視頻用HEVC的HM壓縮需要幾天，而如果用VVC的VTM則可能需要一個(gè)月，時(shí)間消耗會(huì)非常長(zhǎng)。目前我們Slow檔已經(jīng)做到比VTM提升100倍速度但是壓縮效率接近。

總結(jié)一下，淘寶的S265智能編碼方案目標(biāo)是讓視頻更清晰，覆蓋所有業(yè)務(wù)場(chǎng)景，包括圖片壓縮、會(huì)議SCC、直播、云轉(zhuǎn)碼甚至云游戲。

業(yè)務(wù)策略上包括場(chǎng)景分類自適應(yīng)、智能碼控、針對(duì)不同場(chǎng)景的延時(shí)需求，做延時(shí)的適配及優(yōu)化（在非常低的延時(shí)下達(dá)到接近不限延時(shí)的壓縮效率）、算力自適應(yīng)（根據(jù)不同的設(shè)備自適應(yīng)調(diào)節(jié)編碼的速度檔次）。

編解碼內(nèi)核包括碼控及前處理、編碼工具集、快速算法，編碼框架等優(yōu)化。系統(tǒng)平臺(tái)包括基于ARM平臺(tái)的（armV7/arm64）及X86實(shí)現(xiàn)（SSE/AVX）、目前在考慮基于FPGA、ASIC的實(shí)現(xiàn)，還有質(zhì)量評(píng)價(jià)系統(tǒng)和訓(xùn)練集群來(lái)輔助編碼器研發(fā)。

視頻處理提升畫質(zhì)體驗(yàn)

下面介紹視頻處理提升畫質(zhì)體驗(yàn)的觀點(diǎn)。

3.1 視頻處理提升畫質(zhì)

視頻失真來(lái)源于很多方面：包括過(guò)曝失曝、縮放、失焦、頻閃、色彩損失、壓縮損失、噪聲、抖動(dòng)、幀率下采樣。我們有自己的視頻增強(qiáng)工具集做對(duì)應(yīng)適配比如去塊失真（DeBlk）、超分辨率（偏向端側(cè)的和服務(wù)端不同版本的模型）、紋理細(xì)節(jié)增強(qiáng)、視頻去抖（DEI）、色彩增強(qiáng)、暗光增強(qiáng)、時(shí)空域去噪。

3.2 淘寶短視頻窄帶高清轉(zhuǎn)碼

淘寶短視頻的整個(gè)轉(zhuǎn)碼遷移到窄帶高清技術(shù)上，從視頻生產(chǎn)鏈條分為內(nèi)容編輯、上傳（上傳要求上傳成功率高、速度快，我們有多PASS上傳，切分上傳、轉(zhuǎn)碼、審核（有低質(zhì)、失真視頻需要篩選）、播放（根據(jù)播放設(shè)備能力做后處理及渲染）。

向大家介紹一下轉(zhuǎn)碼服務(wù)，它的核心技術(shù)是窄帶高清和S265，分別有兩個(gè)視覺處理模型。首先是窄帶高清的處理模型包括質(zhì)量分類，細(xì)小紋理去除、脫焦區(qū)域弱化（節(jié)省碼率）、易感知紋理增強(qiáng)（增強(qiáng)視覺體驗(yàn)）、人臉保護(hù)（避免過(guò)度增強(qiáng)引起體感不好）、馬賽克修復(fù)、去隔行掃描。

S265視覺壓縮模型有三個(gè)點(diǎn)，人眼感知與失真拐點(diǎn)（BD-rate曲線剛開始較陡，向后較緩，要找到高性價(jià)比的點(diǎn)，感覺不出更多的失真又可以達(dá)到合適碼率）、碼率與分辨率甜蜜拐點(diǎn)（不同碼率在不同內(nèi)容上適合于不同分辨率壓縮。如果一個(gè)非常低的碼率300K強(qiáng)行壓縮1080P出來(lái)都是塊主觀體驗(yàn)很差，如果壓縮540P、360P可以獲得更高的視覺體驗(yàn)）、場(chǎng)景分類編碼（不同分類場(chǎng)景適合不同編碼參數(shù)、碼率的選擇）。

3.3 電競(jìng)場(chǎng)景中的美顏

在內(nèi)容生產(chǎn)中美顏?zhàn)鳛橐豁?xiàng)基礎(chǔ)功能，已經(jīng)被人們廣泛接受，但是常規(guī)美顏在電商場(chǎng)景中存在一些問(wèn)題，比如過(guò)度美化，商品變色，背景模糊，資源消耗大等等；在PixelAI美顏中，我們使用了Face3D重建來(lái)保障形變的自然，使用AI膚色模型來(lái)保證美顏不會(huì)傷害到背景和商品。

3.4 HDR10端到端系統(tǒng)

隨著采集和顯示設(shè)備的發(fā)展，HDR+10Bit逐漸有一些應(yīng)用，我們覺得HDR10有三項(xiàng)核心技術(shù)：第一是動(dòng)態(tài)范圍。在低照度、曝光過(guò)度場(chǎng)景下幫助我們看清內(nèi)容；第二是色域空間。支持BT2020提升色彩還原；第三是10bit位深。HDR對(duì)我們的商品還原會(huì)非常有幫助，因?yàn)殡娚讨辈ズ投桃曨l中最核心的是還原商品而不是美化商品。

但HDR是一個(gè)端到端的系統(tǒng)，需要考慮到各種設(shè)備的兼容，所以我們做了一些適配來(lái)提升用戶體驗(yàn)，比如普通相機(jī)拍出的內(nèi)容就用普通通道傳輸解碼，而一些高端設(shè)備支持HDR10，可以把內(nèi)容做10Bit壓縮，傳輸，在對(duì)端根據(jù)播放設(shè)備能力，做HDR To SDR、10Bit To 8Bit的轉(zhuǎn)換來(lái)保證質(zhì)量，對(duì)于好的手機(jī)就可以得到最好的HDR體驗(yàn)，一般手機(jī)也能得到基礎(chǔ)的HDR體驗(yàn)。圖中可以看到HDR技術(shù)使照片顏色更接近實(shí)物顏色。

音頻技術(shù)提升體驗(yàn)和生產(chǎn)力

第三個(gè)觀點(diǎn)是視頻技術(shù)提升體驗(yàn)和生產(chǎn)力。音頻在過(guò)去幾年都伴隨視頻出現(xiàn)，而在去年Clubhouse的發(fā)布，大家覺得音頻可以獨(dú)立玩，這對(duì)音頻技術(shù)來(lái)說(shuō)是一個(gè)很好的啟發(fā)。除此以外，音頻的技術(shù)還可以輔助我們做內(nèi)容的生產(chǎn)、審核及各種音頻處理，個(gè)人認(rèn)為音頻會(huì)是后續(xù)很重要的生產(chǎn)力。

4.1 業(yè)務(wù)：用戶數(shù)和時(shí)長(zhǎng)

對(duì)內(nèi)容業(yè)務(wù)來(lái)說(shuō)，最核心的是用戶數(shù)和時(shí)長(zhǎng)。對(duì)于技術(shù)來(lái)說(shuō)，如何提升消費(fèi)體驗(yàn)，提升主播生產(chǎn)效率，做好平臺(tái)治理工作是核心工作。在這幾個(gè)方面音頻都可以起到非常重要的作用。

在主播角度，音頻技術(shù)可以來(lái)做口播自動(dòng)剪輯、來(lái)客提醒（不用一直守在電腦旁邊）、開播輔助、字幕和配樂(lè)生成。在用戶角度，音頻的互動(dòng)可以支持連麥、游戲、猜價(jià)格、語(yǔ)音評(píng)論。在平臺(tái)角度，音頻可以監(jiān)管黃暴政、盜播、盜鏈、檢測(cè)空鏡。

分享幾個(gè)典型案例。第一，音頻技術(shù)提高音質(zhì)體驗(yàn)。這是一個(gè)簡(jiǎn)單的音頻傳輸系統(tǒng)，采集、預(yù)處理、AEC/ANS/AGC、編碼、網(wǎng)絡(luò)傳輸（FEC/NACK技術(shù)）、對(duì)端（Jitter Buffer/NETEQ）、解碼、重采樣。要實(shí)現(xiàn)高音質(zhì)體驗(yàn)，我們?cè)诿總€(gè)環(huán)節(jié)都需要做非常細(xì)致的工作：

采集中做高保真，雙聲道處理（Alidenoise、回聲抑制、智能美聲），編碼中做自適應(yīng)碼率（HE-AAC），傳輸過(guò)程要保障傳輸質(zhì)量QOS（FEC/NACK），接收中還需要原音頻數(shù)據(jù)（PLC/NETEQ），播放中應(yīng)用各種音效技術(shù)（3D音效、空間音效、重低音）來(lái)提升收聽體驗(yàn)。

直播內(nèi)容中，對(duì)音頻的適配也非常重要。（陳老師提到一個(gè)例子：如果是音樂(lè)直播間，用普通模板做音質(zhì)會(huì)很差，所以需要幾套針對(duì)不同類型直播間的聲音模板。）在這樣的系統(tǒng)上，我們支持淘寶直播，語(yǔ)音聊天室等業(yè)務(wù)。

4.2 AliDenoise——讓聲音更清晰

淘寶自研的AliDenoise技術(shù)是一個(gè)智能降噪技術(shù)，可以使聲音更清晰。傳統(tǒng)的降噪是根據(jù)時(shí)域傅里葉變換+維拉增益來(lái)做，痛點(diǎn)是對(duì)非平穩(wěn)噪聲抑制差，在低信噪比失效，而AliDenoise根據(jù)端到端的語(yǔ)音降噪，用數(shù)據(jù)驅(qū)動(dòng)方式，基于先驗(yàn)信噪比方法做模型訓(xùn)練。

還有Cache Buffer的流式處理以及1D卷積+模型小型化的工作，核心優(yōu)勢(shì)是降噪能力強(qiáng)、語(yǔ)音保真度高（我們做了一些競(jìng)品對(duì)比，AliDenoise的主客觀指標(biāo)都超過(guò)競(jìng)品）、極輕量小模型（1.6M的模型可以在普通手機(jī)實(shí)現(xiàn)降噪，且CPU消耗只有6%）、延時(shí)可控（可根據(jù)設(shè)備能力做延時(shí)調(diào)節(jié)）。

有三段音頻，第一段是街邊的場(chǎng)景，是原聲；第二段是RTC處理后的效果（汽車走過(guò)的聲音比較明顯）；第三段是AliDenoise處理后的效果，可以聽出它對(duì)非平穩(wěn)噪聲的抑制很好，且人聲保留度高。

第二個(gè)例子是端上互動(dòng)。直播答題是前幾年非?；鸬幕?dòng)玩法，2020年雙十一點(diǎn)淘推出了猜價(jià)格活動(dòng)，答題交互從觸屏到語(yǔ)音，需要低延時(shí)、高并發(fā)、低誤識(shí)率。如果用服務(wù)端ASR做，會(huì)需要上千臺(tái)服務(wù)器來(lái)支持同時(shí)在線10萬(wàn)人?；谶@樣的痛點(diǎn)，我們采用了自研離線ASR技術(shù)，在端上做語(yǔ)音識(shí)別?？梢宰龅侥Ｐ痛笮?3M，內(nèi)存大小50M，字錯(cuò)誤率1.3%，識(shí)別延遲《50ms的水平。

第三個(gè)案例，語(yǔ)音技術(shù)可以輔助短視頻的直播編輯生產(chǎn)。在“親拍”APP中可以做到輔助“逛逛”的內(nèi)容生產(chǎn)。內(nèi)容生產(chǎn)中有非常多需求，包括刪除無(wú)用片段、自動(dòng)添加字幕，旁白、音樂(lè)標(biāo)簽，自動(dòng)配樂(lè)、音頻變速，變聲，降噪。借助后臺(tái)一整套技術(shù)和曲庫(kù)（蝦米1000萬(wàn)曲庫(kù)、ASR以及信號(hào)處理算法），我們提供一鍵導(dǎo)入、一鍵編輯這樣的音頻功能比如停頓刪除、感知配樂(lè)、自動(dòng)字幕、自動(dòng)變聲。通過(guò)音頻技術(shù)大大提高編輯效率，原先30min的編輯通過(guò)可以降到3min，質(zhì)量也會(huì)比較有保證。

4.3 直播短視頻音頻解決方案——TaoAudio

我們給淘寶業(yè)務(wù)提供了一套直播短視頻音頻解決方案——TaoAudio。在業(yè)務(wù)上支持淘寶直播、點(diǎn)淘、逛逛、親拍、語(yǔ)音聊天室等需求。在應(yīng)用方案上有直播看點(diǎn)、直播互動(dòng)、直播安全、短視頻編輯。在算法技術(shù)中有三個(gè)核心技術(shù)是音頻處理、音頻安全、語(yǔ)音交互?；A(chǔ)設(shè)施包括端上推力引擎、云上資源、端側(cè)設(shè)備等。

總之音頻的核心是良好的音質(zhì)、很強(qiáng)的互動(dòng)體驗(yàn)及平臺(tái)安全，在未來(lái)可能還有豐富的音樂(lè)體驗(yàn)。

淘寶音視頻算法的發(fā)展

最后和大家分享淘寶音視頻算法的發(fā)展。

1、下一代APG2要做到比前一代有更高的壓縮效率；

2、S266的落地，將S266真實(shí)的應(yīng)用到業(yè)務(wù)場(chǎng)景中；

3、AR+3D+多視角直播的探索。傳統(tǒng)的直播已經(jīng)固化很多年了，我們希望通過(guò)更多技術(shù)提高交互和沉浸式體驗(yàn)；

4、下一代窄帶高清技術(shù)。以更高的質(zhì)量和更低的成本呈現(xiàn)；

5、端側(cè)ASR技術(shù)。前面提到的“猜價(jià)格”應(yīng)用到ASR，還需要進(jìn)一步提高準(zhǔn)確率并降低成本；

6、場(chǎng)景自適應(yīng)語(yǔ)音增強(qiáng)。傳統(tǒng)的語(yǔ)音增強(qiáng)沒有考慮到語(yǔ)音環(huán)境也沒有做更多的自適應(yīng)（比如在一個(gè)嘈雜的環(huán)境或是安靜的環(huán)境分別要用怎樣的模型），加入場(chǎng)景檢測(cè)機(jī)制可以適配收音場(chǎng)景和聽音的環(huán)境；

7、智能的音樂(lè)配樂(lè)服務(wù)；

8、大規(guī)模無(wú)參考評(píng)價(jià)系統(tǒng)。

以上是本次分享的內(nèi)容，謝謝大家！

編輯：jq

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

PC

PC

+關(guān)注

關(guān)注
9

文章
2143

瀏覽量
156038
編解碼

編解碼

+關(guān)注

關(guān)注
1

文章
145

瀏覽量
19997
阿里巴巴

阿里巴巴

+關(guān)注

關(guān)注
7

文章
1635

瀏覽量
48078
視頻壓縮

視頻壓縮

+關(guān)注

關(guān)注
0

文章
29

瀏覽量
9177

原文標(biāo)題：音視頻算法在淘寶中的應(yīng)用

文章出處：【微信號(hào)：livevideostack，微信公眾號(hào)：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

簡(jiǎn)述音視頻算法在淘寶中的應(yīng)用

評(píng)論

電子發(fā)燒友