背景介紹
人臉修復是一種典型的ill-posed問題、可逆圖像修復問題,其解不唯一且必存在。高度退化和多退化的場景下,高質量的人臉修復明顯更具有挑戰性。傳統深度學習方法利用成對的數據集訓練模型從而獲得處理該退化問題的能力,這些普通范式雖然在全局人臉結構上有不錯的效果,但是明顯在修復結果的細節豐富度上并不理想。
因此,近一兩年,頂會上出現了不少基于GAN先驗特征的人臉修復方法。這些方法通過將退化的人臉圖像編碼到訓練好的GAN網絡的潛在空間中,利用隱藏在GAN網絡中豐富的圖像先驗知識,來獲得更好的人臉修復細節。但是,常見的GAN網絡的latent features維度并不高,這些特征的空間表達能力也不佳,難以完整捕獲退化人臉圖像的面部結構,造成恢復結果的身份信息與原圖并不一致,即方法結果的保真度較低。
為了進一步、更完整得捕獲輸入退化圖像的面部特征,一些方法不僅將降質人臉圖像編碼到潛空間中,而且還將外部特征(例如從降質人臉圖像中提取的特征)與 GAN 先驗特征融合起來,以實現更好的身份一致性。然而,它們并沒有提供明確的降質感知的特征融合設計,因此在面對不同的、多變的退化時,修復效果的魯棒性并不理想。
受最近對比學習范式的啟發,作者團隊首先提出一種無監督的退化表征學習策略,旨在利用對比學習和視覺注意力的最新進展,預訓練一個退化表示編碼器(DRE)。DRE 提取輸入退化人臉圖像的退化表征,作為全局條件指導恢復過程。此外,作者還提出了一種新的退化感知特征插值(DAFI)模塊,可以根據退化表征動態融合 GAN 先驗特征和從退化人臉圖像中提取的特征。
作者團隊進一步提出了一種新的網絡,以集成這些設計用于人臉修復任務。由于選擇和融合不同來源的特征的思路類似于制作 panini (帕尼尼,KFC早餐經典食品)的方式,因此將這個網絡稱為 Panini-Net。該網絡可以根據退化程度動態調整融合的特征比例,以實現更好的修復性能。
方法介紹
下面將逐一介紹Panini-Net的各個模塊,最后將總結該方法的重點內容。
Panini-Net架構圖。它由圖像特征提取模塊(Image Feature Extraction Module)、退化感知特征插值模塊組成(DAFI) 模塊,以預訓練的 StyleGAN2 作為 GAN Prior 模塊 (GPM)。給定退化的人臉圖像作為輸入,圖像特征提取模塊提取特征,并預測latent code,該latent code可以從 GPM 中粗略地獲取類似的高質量人臉。然后,使用 DAFI 塊逐步對特征做插值處理從而合并退化人臉圖像的有效結構信息。預訓練的退化表示編碼器 (DRE) 將退化表示編碼為向量,其可以被視為指導 DAFI 塊進行恢復的全局條件。
GAN Prior Module
Panini-Net采用預訓練的StyleGAN2的生成器來作為GAN先驗模塊,如上圖中所示,該模塊從一個可學習的常量特征開始,逐漸通過一系列的GAN blocks來生成分層的高質量特征圖,從而將其配合退化感知特征插值模塊,通過動態的特征融合來矯正面部結構。
Unsupervised Degradation Representation Learning for Degradation Representation
退化表示的無監督退化表示學習策略。對于每次迭代,隨機生成一組新的退化參數,并在兩個高質量圖像上操作它們從而得到不同的新 HQ 圖像生成正例對。讓隊列中的歷史圖像成為反例,以鼓勵學習退化而不是內容。
無監督表征學習(Unsupervised Degradation Representation Learning )用于圖像修復(超分)其實不是一個比較新的idea,之前cvpr‘21的超分工作DASR,以及cvpr’22的AirNet都有類似的范式來作為方案的核心。不過在Panini-Net中,該部分還是挺不一樣的。
具體來說,如上圖所示,先在兩個不同的高質量人臉圖像上應用同一組退化參數來得到兩個內容不同、退化模式不同的退化圖像,隨后利用MoCo范式來執行對比學習,所利用的約束也是常見的InfoNCE loss,從而鼓勵學習退化而不是內容。cvpr‘21的超分工作DASR,以及cvpr’22的AirNet的論文名字:Unsupervised Degradation Representation Learning for Blind Super-Resolution (CVPR'21)All-in-one image restoration for unknown corruption (CVPR'22)
Degradation-aware Feature Interpolation (DAFI) block
退化感知特征插值 (DAFI) 塊,無監督退化特征學習方式訓練得到的encdoer從退化圖像中抽取出V_{DR}作為退化的判別表征,該表征可以作為一種“condition”來生成自適應的channel-wise mask。可以從上圖中看出,mask由一個mlp子網絡和softmax來生成。這個mask 將用于動態特征插值從而輔助特征的融合。
在獲得退化的判別表征后,Panini-Net將其作為一個全局的退化“condition”從而指導退化修復,具體來說,通過如上圖所示的mask,該mask的size為:,即channel-wise的形式。將每個mask元素用于對應的融合特征通道的插值權重。通過如下插值公式,來利用該mask來靈活的動態融合不同特征:
其中表示channel-wise上的點積。
實驗分析&視覺效果對比
16xSR設定下的視覺對比圖,可以看到PaniniNet很好的修復了退化圖像的細節信息,保真度也非常不錯。
消融實驗
作者在正文消融實驗部分重點探討了利用DAFI模塊作為fusion操作的增益,并對Panini-Net的關鍵超參做了剖析。對fusion操作的探討,主要是和直接利用concat+conv來fusion的常見操作做了對比,模型剖析部分則重點關注退化水平與插值比率的超參關系。
作者發現DAFI模塊可以更好的保留GAN先驗特征中的細節信息,而global condition guidance可以幫助DAFI更好的去fusion特征。當退化嚴重時,Panini-Net可以動態增加GAN-Prior的使用比例。
結論
這篇論文重點關注如何更好的引入GAN Prior從而幫助人臉圖像修復問題,作者通過無監督表征學習和結合mask策略的插值(特征融合)模塊來將GAN prior動態的引入到修復網絡中,實現了非常不錯的修復效果。
審核編輯:劉清
-
編碼器
+關注
關注
45文章
3638瀏覽量
134426 -
GaN
+關注
關注
19文章
1933瀏覽量
73286 -
圖像編碼
+關注
關注
0文章
26瀏覽量
8309
原文標題:AAAI'22 | Panini-Net | 基于GAN先驗的退化感知特征插值人臉修復網絡
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論