基于AI的超分辨技術(shù)在圖像恢復和圖像增強等領(lǐng)域的應(yīng)用前景,受到了學術(shù)界的關(guān)注,但在RTC領(lǐng)域中很多算法并不能滿足實際場景下的應(yīng)用需求。本次分享我們邀請到了網(wǎng)易云信音視頻算法工程師袁振老師探討超分辨技術(shù)在RTC領(lǐng)域大規(guī)模落地應(yīng)用所面臨的機遇與挑戰(zhàn)。
文 /袁振 整理 /LiveVideoStack 大家好,我是袁振,現(xiàn)在就職于網(wǎng)易云信,主要負責視頻后處理算法的開發(fā)和研究。今天我將和大家分享AI驅(qū)動的超分辨技術(shù)應(yīng)用現(xiàn)狀,主要是結(jié)合我之前的研究方向,以及當前的業(yè)務(wù)需求,來向大家分享一下基于深度學習的超分技術(shù)在RTC領(lǐng)域落地應(yīng)用所面臨的一些機遇和挑戰(zhàn)。 我的分享主要包括以下四部分內(nèi)容。
1. 圖像超分辨技術(shù)的簡要概述
1.1 超分辨技術(shù)的提出
有的同學可能會問,什么是超分辨?比較直觀的理解,超分辨就是將一張低分辨率圖像,通過某種算法、模型生成一張高分辨圖像的過程,并且在這個過程中盡可能地恢復出更多的細節(jié)信息。比較通俗的理解,超分辨就是從小圖生成大圖的計算機視覺任務(wù)。 超分辨這一概念最早是在20世紀60年代由Harris和Goodman提出的,一開始也被稱為頻譜外推法。但是在研究初期,頻譜外推法只是在一些比較理想的條件下,進行的一些仿真,所以一開始并沒有得到廣泛的認可。直到后來,單張圖像超分辨方法提出之后,超分辨重建技術(shù)才開始得到廣泛的研究和應(yīng)用。目前,它已經(jīng)成為圖像增強、乃至整個計算機視覺領(lǐng)域重要的研究方向。 1.2 超分辨技術(shù)的分類
根據(jù)超分辨對象,超分辨技術(shù)可以分成單張圖像的超分辨以及多張圖像的超分辨兩種類型。其中,單張圖像的超分辨方法只根據(jù)低分辨率圖像自身的信息就可以完成到高分辨圖像的重建,是目前學術(shù)界研究的重點。單張圖像的超分辨方法根據(jù)原理的不同,也可以分為基于插值、重構(gòu)、學習的方法。 其中基于插值的方法是最簡單、也是應(yīng)用最為廣泛的方法,像我們平時應(yīng)用最多的用于圖像縮放的算法,基本上都是基于插值的方法。它的優(yōu)點是算法比較簡單,實時性比較好,所以目前應(yīng)用最廣泛,但缺點是,在插值的時候沒有充分利用圖像的像素信息,效果比較平滑,不能恢復出更多細節(jié)信息。
它的主要思想是選擇合適的插值窗口和插值函數(shù)來對低分辨率圖像中一定范圍內(nèi)的像素信息進行加權(quán)計算,來得到一個新的像素值,插入到圖像中,從而實現(xiàn)圖像的放大。根據(jù)插值窗口和插值函數(shù)不同,基于插值的方法也有很多類型:像最簡單的最近鄰插值方法,它是直接將待插值像素點最近的像素值,賦值給新的像素值,它的插值窗口大小是1×1;其他的插值方法比如雙線性和雙三次插值,使用了更大的插值窗口以及一些更高階的插值函數(shù),超分辨的效果也更好。總體來說,插值窗口越大,基于插值的超分辨方法的效果也會越好。 基于重構(gòu)的方法,它主要是利用了圖像的降質(zhì)退化模型,假定圖像是經(jīng)過了一定的退化過程,才得到了低分辨率的圖像,然后根據(jù)這一信息,完成高分辨圖像的逆向重建。
這種方法在一些特定的領(lǐng)域具有比較好的效果,但是由于在實際的場景中,圖像退化的因素多種多樣,假設(shè)的先驗信息并不準確,因此重構(gòu)的方法在實際應(yīng)用中,并不是很廣泛。 然后就是基于學習的方法,也是目前效果最好也是學術(shù)界研究最多的一種方法。它的核心包括兩個部分:一個是算法模型的建立,另一個就是訓練集的選取。根據(jù)算法模型和訓練集,基于學習的方法也可以分為傳統(tǒng)學習方法和深度學習方法。一般來說,傳統(tǒng)學習方法的算法模型比較簡單,訓練集也往往比較小。深度學習方法一般是指采用大量數(shù)據(jù)訓練的卷積神經(jīng)網(wǎng)絡(luò)的方法,也是目前效果最好的超分辨方法。因此接下來我將重點介紹基于深度學習的超分辨方法的發(fā)展過程。 1.3 DL-based SR
首先SRCNN是深度學習方法在超分辨問題的首次嘗試,它是一個比較簡單的卷積網(wǎng)絡(luò),由3個卷積層構(gòu)成,每個卷積層所負責的職能也各不相同,其中第一個卷積層的作用主要是負責提取出抽象的高頻信息,第二個卷積層則負責完成從低清特征到高清特征的非線性映射,最后一個卷積層的作用是重建出高分辨率的圖像。SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)比較簡單,超分辨效果也有待改善,不過它確立了深度學習方法在處理超分辨這類問題時的三個基本過程。
后來的一些深度學習方法不管網(wǎng)絡(luò)有多復雜,卷積層有多深,基本也是遵循著這一思想去進行超分辨的重建。后來的 ESPCN、FSRCNN也都基于SRCNN進行了一些改進,總的來說它們的網(wǎng)絡(luò)層數(shù)仍然比較淺,卷積層數(shù)一般不會超過10,超分辨的效果也不是特別理想。因為在當時,深度卷積網(wǎng)絡(luò)的訓練是存在一些問題的。一般對于卷積神經(jīng)網(wǎng)絡(luò)來說,當網(wǎng)絡(luò)層數(shù)增加的時候,它的性能也會增加,但在實際應(yīng)用中,人們發(fā)現(xiàn)當網(wǎng)絡(luò)層數(shù)增加到了一定程度的時候,由于反向傳播的原理,就會出現(xiàn)梯度消失的問題,導致網(wǎng)絡(luò)的收斂性變差,使得模型性能降低。這個問題直到ResNet提出了殘差網(wǎng)絡(luò)結(jié)構(gòu)之后,才得到了比較好的解決。
VDSR網(wǎng)絡(luò)是殘差網(wǎng)絡(luò)以及殘差學習思想在超分辨問題上的首次應(yīng)用,將超分辨網(wǎng)絡(luò)的層數(shù)首次增加到了20層,它的優(yōu)點是可以利用殘差學習的方式,直接學習殘差特征,這樣的話網(wǎng)絡(luò)的收斂會比較快,超分辨效果也更好。后來的一些卷積神經(jīng)網(wǎng)絡(luò)也提出了更復雜的結(jié)構(gòu), 比如SRGAN提出使用生成式對抗網(wǎng)絡(luò)來生成高分辨的圖像,SRGAN由2部分組成,一個是生成網(wǎng)絡(luò),另一個是判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)的作用是根據(jù)一張低分辨率的圖像來生成一張高分辨的圖像,而判別網(wǎng)絡(luò)的作用是將生成網(wǎng)絡(luò)生成的高分辨圖像盡量判定為假,這樣網(wǎng)絡(luò)在訓練的時候,生成網(wǎng)絡(luò)和判定網(wǎng)絡(luò)兩者之間不斷博弈,最終達到平衡,從而可以生成細節(jié)紋理比較逼真的高分辨圖像,具有更好的主觀視覺效果。其他的深度卷積網(wǎng)絡(luò)方法比如SRDenseNet、EDSR、RDN,它們使用了一些更復雜的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)的卷積層也越來越深,在單張圖像上的超分辨效果也是越來越好。
以上是我對超分辨技術(shù)發(fā)展的總體趨勢的簡單總結(jié),基本上可以概括為從傳統(tǒng)方法,到深度學習方法,從簡單的卷積網(wǎng)絡(luò)方法到深度殘差網(wǎng)絡(luò)方法。在這個過程中,超分辨模型結(jié)構(gòu)越來越復雜,網(wǎng)絡(luò)層次越來越深,單張圖像的超分辨效果也越來越好,不過這也會有一定的問題,在后面我會具體介紹到。
2. 超分辨技術(shù)應(yīng)用現(xiàn)狀
根據(jù)我的調(diào)研,目前在業(yè)界已經(jīng)落地的超分辨項目,應(yīng)用場景可以概括為視頻和圖像兩個領(lǐng)域,具體包括低質(zhì)視頻的修復,比如一些老舊電影、電視劇或者質(zhì)量比較差的視頻,這在一些視頻網(wǎng)站上比較常用;還有電視和直播分辨率的提升,比如一些網(wǎng)絡(luò)TV或者直播平臺;此外在移動端,主要應(yīng)用于圖像畫質(zhì)的優(yōu)化,比如手機相機分辨率的提升。下面我會介紹幾個具體的例子分別介紹這三類應(yīng)用場景。 2.1 愛奇藝ZoomAI
第一個是愛奇藝推出的ZoomAI,它是一個比較成熟的深度學習工具包,主要針對目前網(wǎng)絡(luò)視頻所存在的一些低質(zhì)退化問題,是各種視頻處理和增強方法的集合,它主要應(yīng)用的場景包括用戶在上傳網(wǎng)絡(luò)視頻的時候,由于拍攝手段不專業(yè)導致的噪點和模糊問題,還有一些老舊電影、電視劇由于在拍攝時分辨率比較低,以及后來數(shù)字化過程中引入的噪點和劃痕問題,導致網(wǎng)絡(luò)視頻畫質(zhì)低下。ZoomAI針對這些低質(zhì)視頻存在的問題,提出了一系列不同的視頻處理算法,像超分辨、去噪、銳化等等。這些算法模塊都是由一個或若干個深度學習模型組成,并且相互獨立,可以根據(jù)用戶的不同需要,實現(xiàn)不同場景視頻的增強和修復。
我們比較關(guān)注其中的超分模塊,ZoomAI的超分模塊提出了兩種策略。學術(shù)界在探究超分辨問題時,一般經(jīng)典的做法是采用均方誤差作為損失函數(shù)去約束整個網(wǎng)絡(luò)的訓練,均方誤差是一種L2型的損失函數(shù),好處是可以重建得到具有更大峰值信噪比的超分辨圖像,不過峰值信噪比并不能代表人眼的主觀感受。當使用L2損失作為損失函數(shù)時,需要對異常值進行平方處理,所以當異常值比較大的時候,損失也會比較大。這樣導致對噪聲特別敏感,在宏觀上,表現(xiàn)為生成圖像會出現(xiàn)模糊預測的問題。
ZoomAI針對學術(shù)界這種常用的訓練模式所存在的問題,提出了兩種策略上的改進,首先它在訓練集中加入了一些模糊操作。這樣網(wǎng)絡(luò)在訓練時,數(shù)據(jù)和標簽之間,不僅有從低分辨特征到高分辨特征的映射關(guān)系,也存在從模糊到清晰的映射關(guān)系,生成的圖像會具有更好的細節(jié)。針對MSE損失函數(shù)所存在的模糊預測問題,ZoomAI則是引入了另外一種損失函數(shù),來改善之前均方誤差所產(chǎn)生的模糊預測問題。
右邊這張圖像是傳統(tǒng)的插值方法和ZoomAI中基于深度學習的超分辨方法的對比,可以看到雙三次插值后的圖像細節(jié)是比較差的,發(fā)絲的紋理和細節(jié)基本上是看不太清。基于深度學習的方法,生成的圖像具有更豐富的細節(jié)和邊緣。不過ZoomAI也存在一些局限,因為它是由若干個模塊組成的,每個模塊都包含了一個或者若干個深度學習模型,導致它的計算量比較大,只是在自己服務(wù)端進行視頻處理,沒有辦法在接收端做到視頻的實時處理。另外,由于計算量的限制,在手機端也沒有用到深度學習的方法。 2.2 虎牙直播AI超分
下面是一個直播超分辨的例子,上圖是去年的一篇報道,虎牙的技術(shù)團隊利用他們基于深度學習的超分技術(shù)實現(xiàn)了S9賽事視頻從1080P到4K的兩倍超分,并且可以達到60幀,畫面延時僅僅增加了100毫秒。 我當時看到這個新聞時是比較震驚的,對于從1080P到4K的兩倍超分,計算量是特別大的,而且關(guān)鍵是還要達到60幀,延遲的增加也在可接受范圍之內(nèi)。后來仔細看完文章之后,發(fā)現(xiàn)他們的超分也是在自己的服務(wù)端進行的,先是在服務(wù)端的GPU轉(zhuǎn)碼集群內(nèi)做了超分處理,然后再通過虎牙比較強大的分發(fā)平臺去分發(fā)給用戶。這樣其實與我們目前的業(yè)務(wù)場景是相悖的,因為RTC領(lǐng)域更多是希望窄帶高清的應(yīng)用場景,在不犧牲用戶畫質(zhì)的前提下,盡可能減少網(wǎng)絡(luò)帶寬。這種方法由于是在分發(fā)之前做了超分,所以傳輸?shù)囊曨l比較大,所需要占用的帶寬也比較大,沒有辦法在接收端實時實現(xiàn)。 2.3 移動端畫質(zhì)增強
這兩個是應(yīng)用在移動設(shè)備上圖像超分的落地項目,其中一個是vivo和商湯合作的,基于深度學習的手機相機分辨率增強的項目;另一個是谷歌和騰訊在他們各自社交平臺上所推出的圖像省流的項目,據(jù)說可以在不犧牲圖像質(zhì)量的前提下,來盡量減少用戶流量,可以降低高達75%的帶寬。
3. 視頻任務(wù)的需求與SR的挑戰(zhàn)
上面三個例子是幾個比較有代表性的已經(jīng)落地的比較成熟的超分辨項目,總體來說,這些項目依然沒有辦法在客戶端尤其是移動端做到實時處理。接下來我將介紹一下,RTC領(lǐng)域?qū)τ谝曨l任務(wù)提出的一些需求,以及目前基于深度學習的超分辨方法在這種情況下所面臨的挑戰(zhàn)。
在RTC領(lǐng)域中,對于視頻處理任務(wù)來說,由于我們所面對的大多數(shù)場景都是像直播和會議這種即時通信場景,對算法的實時性要求是特別高的,所以視頻處理算法的實時性是優(yōu)先考慮的,然后是算法的實用性。這里怎么理解呢?用戶在使用直播或會議時,攝像頭所采集到的視頻質(zhì)量一般都不是比較高的,可能包含了很多噪點;另外視頻在編碼傳輸?shù)倪^程中會先進行壓縮,在壓縮的過程中也會導致圖像畫質(zhì)的退化,所以RTC領(lǐng)域的實際應(yīng)用場景比較復雜,而很多視頻處理方法,比如超分辨算法在研究的是比較理想的場景。所以我們需要考慮如何提高這些方法在實際場景中的實用性。另外,如何去提升用戶尤其是移動端用戶的體驗,減少算法的計算資源占用,適用更多的終端和設(shè)備,也是視頻任務(wù)所必須考慮的。
針對上面這些需求,目前的超分辨方法尤其是基于深度學習的超分辨方法是存在很多問題的。目前學術(shù)界關(guān)于超分辨的研究大多還是局限在理論階段,圖像超分,尤其是視頻超分如果要大規(guī)模落地的話,必須要去面對一些實際問題。 首先是網(wǎng)絡(luò)模型的問題,因為目前很多深度學習方法為了追求更好的超分辨效果,所采用的網(wǎng)絡(luò)規(guī)模比較大,這些卷積神經(jīng)網(wǎng)絡(luò)規(guī)模動不動就幾十、上百層,并且參數(shù)量也越來越多,需要耗費大量的計算資源。
這在很多實際場景中沒有辦法實時處理。 第二點是關(guān)于深度學習模型的泛化能力問題,對于各種深度學習模型來說,都會存在訓練集適配的問題,在訓練的時候所使用的訓練集不同,在不同場景上的表現(xiàn)也不同。用公開數(shù)據(jù)集訓練的模型,在實際的應(yīng)用場景中是否也會具有同樣良好的表現(xiàn),也是我們需要重點關(guān)注的問題。 第三點是真實場景下超分效果的問題,目前學術(shù)界的一些超分方法,都是針對一些比較理想的問題,比如通常都是針對從下采樣圖像到高分辨圖像的重建。但在真實的場景中,圖像的退化不僅僅包括下采樣因素,可能會有很多其他的因素,比如之前提到的圖像壓縮、噪點、模糊等。怎么樣在這些真實的場景下提高超分的效果,也是目前超分辨方法需要思考的問題。
總的來說,目前基于深度學習的超分辨方法在視頻任務(wù)中,所面臨的主要挑戰(zhàn)可以概括為,如何憑借規(guī)模比較小的網(wǎng)絡(luò)來實現(xiàn)具有良好真實效果的視頻質(zhì)量增強,也就是說怎么樣“既叫馬兒跑得快,又讓馬兒少吃草”。
4. 視頻超分辨技術(shù)的發(fā)展方向
目前在RTC視頻領(lǐng)域,超分辨基本上可以概括為三個發(fā)展方向。 首先,深度學習方法依然會是超分辨算法的主流,因為傳統(tǒng)的方法在超分辨任務(wù)上的效果還是不太理想,細節(jié)會比較差。深度學習方法為超分辨提供了一條新的思路。近年來基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨方法,也逐漸成為主流方法,效果也是在不斷改善,雖然還存在一些問題,但相信在不久的將來,這些問題也將會得以解決,深度學習方法依然會是超分辨的主流研究方向。
第二點,一些參數(shù)比較小的輕量級網(wǎng)絡(luò),在推動超分算法落地方面,可能會發(fā)揮出更大的作用。因為目前各種的深度卷積網(wǎng)絡(luò)方法,像EDSR、RDN這些過于龐大的深度殘差網(wǎng)絡(luò)是難以滿足視頻實時傳輸需要的,一些比較小的輕量級網(wǎng)絡(luò)對于實時任務(wù)會有更好的效果。 第三點是將來的超分辨方法會更加聚焦在一些真實場景的任務(wù),因為學術(shù)領(lǐng)域的SR方法多是針對下采樣問題進行超分,在真實場景下的表現(xiàn)并不是很好,在真實場景中,圖像退化因素是各種各樣的,一些比較有針對性的方法,比如包含壓縮損失、編碼損失以及各種噪聲的超分辨任務(wù),可能會更加實用。 下面我將對這三點做具體的介紹。 4.1 深度學習方法依然是主流
我總結(jié)了一下,近年來一些頂級CV會議上所發(fā)表的超分辨論文的總結(jié)。可以看到近幾年來,基于深度學習的超分辨方法相對于傳統(tǒng)方法的論文數(shù)量呈現(xiàn)出一邊倒的局面,并且這種局面在未來幾年還會進一步擴大。因為隨著一些輕量級網(wǎng)絡(luò)的出現(xiàn),深度學習方法將來在落地應(yīng)用方面可能會有更大的突破。 4.2輕量級網(wǎng)絡(luò)推動算法落地 下面介紹輕量級網(wǎng)絡(luò)在推動超分算法落地時所發(fā)揮的作用。在這之前,先向大家介紹卷積神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)參數(shù)計算相關(guān)的一些基本概念。
左圖是一個經(jīng)典的3×3的卷積過程, 3×3大小的卷積核會對輸入特征圖上的3×3范圍內(nèi)的像素值進行加權(quán)計算,得到一個新的特征值,最終通過步長為1的逐次掃描得到一張輸出特征圖。在輸入特征圖中,邊界這一圈空白像素代表的是padding為1的填充,目的是保證特征圖的對齊,也就是讓輸出特征圖和輸入特征圖的尺寸保持一致。因為在超分辨的過程中,特征圖的尺寸比較重要,一般不會輕易發(fā)生改變,所以我們需要采用合適的填充,來保證特征圖的對齊。
右邊是沒有加padding的情況,可以看到一個5×5的特征圖經(jīng)過3×3的卷積后,它的尺寸會縮小為3。 右邊是一個比較簡單的卷積層的示意圖,它的輸入是一個三通道的RGB圖像,經(jīng)過5個通道的卷積之后,每個卷積核都會和輸入的三個通道進行卷積計算,得到一個新的特征圖,經(jīng)過5個卷積核之后就會輸出5通道的6×6特征圖。在這個過程中,卷積層的參數(shù)主要是跟輸入輸出的特征維度以及特征圖、卷積核的尺寸是相關(guān)的。
現(xiàn)在的輕量級網(wǎng)絡(luò)通常也是從以上方面對網(wǎng)絡(luò)的模型和參數(shù)進行壓縮。具體包括特征壓縮、特征降維、減少卷積層尺寸、利用分組思想的卷積策略。其中比較好理解的是特征壓縮和特征降維的方式,在進行比較大尺寸的卷積計算之前,先用1×1的卷積核降低特征的維度,然后再進行比較大尺寸的卷積核進行計算。另外卷積核尺寸減少對于縮減網(wǎng)絡(luò)規(guī)模也是一種比較有效的方法。
在介紹之前,先向大家介紹一下感受野的概念。感受野是指卷積神經(jīng)網(wǎng)絡(luò)輸出特征圖的特征值在輸入圖片上映射的區(qū)域范圍的大小。比較通俗的理解就是,輸出特征圖的一個特征值所對應(yīng)輸入特征圖的區(qū)域范圍。 比如右邊的例子是一個5×5的卷積過程,左邊的是輸入特征圖,在進行卷積時,5×5范圍內(nèi)的像素會和卷積核進行卷積計算得到一個新的特征值。那么新的特征值所對應(yīng)的輸入特征圖上的范圍就是5×5,所以它的感受也就是5×5。
那么我們是不是可以在保持感受野不變的情況下使用更小尺寸的卷積核去減少網(wǎng)絡(luò)的參數(shù),比如一個5×5的卷積核可以用兩個3×3的卷積核代替,并且它的參數(shù)量可以減少到原來18/25,感受野保持不變;一個7×7的卷積核可以用3個3×3的卷積核來代替,參數(shù)量可以減少為原來的27/49;一個9×9的卷積核也可以用4個3×3的卷積核來代替。這樣的好處是使用多個較小尺寸的卷積層可以比一個更大的卷積層進行更多次的非線性變化,這樣的話對抽象特征的學習能力會更強。而且VGGNet提出,對于卷積神經(jīng)網(wǎng)絡(luò),卷積核的尺寸并不是越大越好,當卷積核尺寸增加到一定程度后,網(wǎng)絡(luò)的精確度反而會下降,所以當我們使用比較小的多個卷積層去代替大的卷積層時,不僅可以減少網(wǎng)絡(luò)的尺寸,而且可以使網(wǎng)絡(luò)具有更好的非線性能力。
上圖是兩個利用分組思想的模型壓縮策略,一個是分組卷積,在左邊的經(jīng)典卷積計算過程中,它的輸入是一個12通道的特征圖,經(jīng)過6通道的卷積后,會得到6個輸出特征圖,在進行卷積計算時,每個卷積核都會和12個輸入特征圖進行卷積計算,這種情況下需要進行72次的卷積計算。但是如果我們把不同的卷積核和輸入特征進行分組,比如我們將其分為3組,其中每3個輸入特征只分別和對應(yīng)的兩個卷積層進行卷積,這樣的話,可以把卷積計算的次數(shù)縮減到原來的三分之一,只進行24次的卷積計算。
所以分組卷積可以大幅度壓縮網(wǎng)絡(luò)的規(guī)模。另外一種深度可分離卷積是一種比較特殊的分組卷積,它也是把傳統(tǒng)的卷積計算分為了兩個過程,同樣可以對網(wǎng)絡(luò)的參數(shù)進行多倍的壓縮。 目前基于深度學習的超分辨方法,網(wǎng)絡(luò)規(guī)模還是比較大的,如果要想在移動端落地應(yīng)用,依舊存在不小的難度。所以使用這些輕量級網(wǎng)絡(luò)所提出的一些思想對模型進行壓縮,對于深度學習方法的落地是極為重要的。 4.3 更加聚焦真實場景任務(wù)
最后是關(guān)于真實場景任務(wù)的一些思考,這是目前學術(shù)界比較通用的超分辨模型的訓練模式,一般是將高分辨圖像經(jīng)過下采樣得到低分辨率圖像,以此作為配對的數(shù)據(jù)集輸入到網(wǎng)絡(luò)中進行訓練。但是這種情況只考慮到了下采樣退化的因素,而在實際場景中圖像會有像圖像壓縮、視頻編碼以及圖像采集噪聲等多種退化因素,如果直接用公開訓練集訓練好的模型套用在實際的場景中,效果是比較差的。
這里舉一個我們業(yè)務(wù)中遇到的例子,在RTC領(lǐng)域中我們需要對視頻進行編碼,然后再去傳輸給接收端解碼,但是當網(wǎng)絡(luò)比較差的時候,視頻編碼所采用的量化參數(shù)會比較大,會對圖像造成比較嚴重的壓縮,從而導致輸出圖像會帶有一些塊效應(yīng)和其他失真,畫質(zhì)比較模糊。這種情況下,如果直接將解碼后的視頻進行超分,這些視頻的損失也會被進一步放大,超分效果就會不夠理想。針對這種問題,我們提出了一些改進思路,一種方法是在數(shù)據(jù)集中加入編碼損失,先對數(shù)據(jù)集進行預處理,在預處理時把編碼損失也加入到訓練集中,網(wǎng)絡(luò)在訓練時可以同時學習到下采樣損失和編碼壓縮損失;另外則是結(jié)合去模糊和去噪等算法增強超分效果。基于這些思路,我們目前提出了基于編碼損失復原的視頻超分辨方法。
這是我們所提出的視頻超分方法的基本思想,目前還在探究階段,所以這里提出兩條思路,一種直接將原始尺寸的視頻使用比較大的QP進行編碼、傳輸。這樣解碼后視頻會產(chǎn)生比較大的失真,這時候可以用去模糊的方法,并且把QP損失考慮進去,得到去模糊的重建視頻。對于這種方法,視頻的損失是比較單一的,只包含了視頻編碼的壓縮損失,但缺點是在原始尺寸的視頻上進行的,所以計算量會比較大。 另外一種思路是在進行編碼傳輸之前先對視頻進行下采樣,然后將解碼后的低分辨率視頻進行超分,并且在超分模型中加入特定QP損失,重建得到超分辨圖像。這種方法是在下采樣后的小尺寸視頻上進行計算的,計算量相對第一種方法會小一些,但是解碼后視頻中既包含了下采樣損失,也包含編碼壓縮損失,所以如何恢復出更好的細節(jié)也是對于超分辨算法的嚴峻挑戰(zhàn)。
責任編輯:xj
原文標題:基于AI的超分辨技術(shù)在RTC領(lǐng)域的技術(shù)難點與挑戰(zhàn)
文章出處:【微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269487 -
RTC
+關(guān)注
關(guān)注
2文章
541瀏覽量
66728 -
超分辨
+關(guān)注
關(guān)注
0文章
7瀏覽量
6581
原文標題:基于AI的超分辨技術(shù)在RTC領(lǐng)域的技術(shù)難點與挑戰(zhàn)
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論