教新手畫畫?字體風(fēng)格遷移?換明星“假臉”?毫無疑問,在圖像生成中 GAN 以其生成以假亂真的圖像“發(fā)揮”出了巨大的潛力。
日前,來自日本東京大學(xué)和 Preferred Networks 公司的團(tuán)隊(duì)開源了一款名為「neural collage」的圖像編輯工具,允許用戶在圖像的制定位置更改圖像的語義信息,以達(dá)到圖像拼貼的效果。
例如,將一只面露兇光的哈士奇的圖片換臉成為可愛的博美。
而更值得一提的是,整個過程的中間操作非常簡單。
如何使用和安裝?
首先保證 Python 3.6 以上的語言環(huán)境,并安裝所需的 Python 庫:pip install -r requirements.txt
如果想要使用預(yù)訓(xùn)練模型生成圖像,項(xiàng)目作者該提供了鏈接以下載模型。需要注意的是,將 snapshot 參數(shù)設(shè)置為下載的預(yù)訓(xùn)練模型文件(.npz)的路徑。
相關(guān)鏈接:
https://drive.google.com/drive/u/0/folders/1SFmq9LjEkIXXAKo6p-Wdlfu0BUFSyLJi
https://drive.google.com/drive/folders/1qPP2RxMNnPSbacotnG7_H5dZrQpOmI3D
作者表示,基于 GAN 模型采用了兩種新策略:sCBN 和 特征混合,并在“Spatially Controllable Image Synthesis with Internal Representation Collaging”論文中詳述了該方法原理及實(shí)現(xiàn)效果。
鏈接:
https://arxiv.org/abs/1811.10153
以下為論文解讀:
摘要
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的圖像編輯策略,這種新穎的方法通過對 GAN模型生成的圖像進(jìn)行特征空間表征,從而改變圖像任意區(qū)域的語義信息。
該策略能夠與任何帶條件正則化層 (conditional normalization layers) 的 GAN模型相結(jié)合,用于圖像對人工圖像和真實(shí)圖像的編輯任務(wù),它有如下兩種變體:
(1) sCBN (spatial conditional batch normalization),這是一種基于用戶指定空間權(quán)重映射的條件批正則化方法;
(2) 特征混合(feature-blending),即一種直接修改中間特征圖的方法。此外,通過在不同數(shù)據(jù)集上、與不同 GAN 模型結(jié)合實(shí)驗(yàn),進(jìn)一步驗(yàn)證了本文所提出方法的有效性及強(qiáng)大性能。
簡介
深度生成模型,如生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAE)是很有潛力的無監(jiān)督學(xué)習(xí)技術(shù),具有強(qiáng)大的語義信息表征能力。
其中以 GAN 在圖像任務(wù)方面尤為成功,如圖像著色、圖像修復(fù)、領(lǐng)域轉(zhuǎn)換、風(fēng)格遷移、目標(biāo)形變等應(yīng)用。
隨著穩(wěn)定 GAN 模型訓(xùn)練的方法的相繼提出,這類模型在圖像生成方面也得到廣泛的應(yīng)用。
然而,如何根據(jù)用戶的意愿正則化 GAN 模型,得到想要的輸出,這仍是當(dāng)前相關(guān)領(lǐng)域的一大問題。
先前的研究,諸如條件生成對抗網(wǎng)絡(luò)(CGAN)、InfoGAN、風(fēng)格生成對抗網(wǎng)絡(luò)(StyleGAN)等都在探索如何讓生成對抗網(wǎng)絡(luò)有指向性地生成所需要的圖像。
而最近提出的 GAN dissection 研究深入探索了模型輸出與中間特征語義信息之間的關(guān)系,并通過推理關(guān)系 (relation) 成功實(shí)現(xiàn)逼真圖像的生成。
受此啟發(fā),本文提出一種新穎的圖像變換方法,即 sCBN 和特征混合策略,通過處理生成網(wǎng)絡(luò)圖像的中間特征來編輯圖像,并允許用戶對圖像語義信息進(jìn)行復(fù)制、粘貼等編輯操作。
其中, sCBN 基于用戶所指定的混合系數(shù) (標(biāo)簽拼貼(label collaging)) 的空間映射圖,允許用戶融合多標(biāo)簽的語義信息。
如此,不僅可以從一個標(biāo)簽映射圖中生成圖像,還能夠通過局部的圖像語義改變圖像。
如下圖1a,該方法能夠?qū)⒁恢还科娴难劬ψ優(yōu)椴┟廊难劬Α?/p>
特征混合能夠在中間特征空間直接融合多張圖像,還能將復(fù)雜特征進(jìn)行局部混合;圖 1b 中,通過特征混合將一只動物的姿態(tài)變?yōu)槟P退x的姿勢。
圖1 通過 sCBN 方法 (a) 和特征混合方法 (b) 得到的特征拼貼樣本。
總的來說,該方法的一大優(yōu)勢在于只需要訓(xùn)練 AdaIN 或 CBN 結(jié)構(gòu)的 GAN 模型就能實(shí)現(xiàn),無需額外訓(xùn)練其他模型。
它能夠用于 GAN 模型所生成的任意圖像,適用于廣泛的圖像語義操作。此外,通過與流形投射 (Manifold projection) 結(jié)合,該方法能夠?qū)φ鎸?shí)圖像的局部語義信息進(jìn)行編輯處理,并大量實(shí)驗(yàn)中展現(xiàn)了強(qiáng)大的性能。
方法
sCBN
sCBN 是一種特殊形式的條件批正則化方法 (CBN),作為批正則化方法 (BN) 的變體,它能夠?qū)?BN 中的參數(shù)按類語義信息進(jìn)行編碼。對于圖像的局部類標(biāo)簽,它通過空間變換來改變條件批正則化參數(shù),如下圖2所示。
圖2 CBN 方法和 sCBN 方法中層結(jié)構(gòu)對比圖。左邊是 CBN 方法,它通過空間一致長度,逐層向生成的圖像添加類別特征。
右圖是 sCBN 方法,該方法的每一層將用戶指定的混合密度與類特征混合到生成的圖像中。
基于單一類別的圖像樣本,CBN 方法通過特定類的放縮比例 (class-specific scale) 和偏差參數(shù) (bias parameters) 來正則化中間特征集合。
而 sCBN 則是將 CBN 方法中的放縮比例項(xiàng)替換為一種加權(quán)和的形式,該權(quán)重系數(shù)是由混合系數(shù)的非負(fù)張量映射組成,這是由用戶所決定的。
如此,用戶可以通過所選取的權(quán)重系數(shù)來決定某個類別 c 在任意區(qū)域的特征密度,達(dá)到控制生成輸出的目的。
此外,通過所選用的權(quán)重值控制圖像不同區(qū)域不同類別的特征密度,用戶可以將圖像多個不相交部分進(jìn)行分類。
空間特征混合
空間特征混合 (spatial feature blending)是一種可以提取圖像特定區(qū)域特征并將其與其他特征混合的方法。
與 sCBN 方法中的權(quán)重系數(shù)類似,用戶同樣可以通過選擇特征混合參數(shù) M 來控制所混合的效果。
此外,通過流形投射變換,該方法還能用于真實(shí)圖像的編輯處理,如下圖3所示,通過特征混合處理,將圖像 G(z2) 和 G(z1) 的嘴巴特征混合。用戶只需要通過選擇選擇嘴巴特定區(qū)域的混合系數(shù) M,就能夠?qū)崿F(xiàn)這種效果。
圖3 空間特征混合方法,通過不斷地迭代過程,在生成網(wǎng)絡(luò)的特征空間,將不同隱變量生成的圖像混合到目標(biāo)圖像中去。
真實(shí)圖像應(yīng)用
通過尋找一個流形投射方法,使得隱變量 z 滿足 G(z) 與 x 大致相等,實(shí)現(xiàn)真實(shí)圖像的語義信息進(jìn)行編輯。
在獲得 x 的倒數(shù)后,可以通過應(yīng)用相同的流程來更改 x 的部分標(biāo)簽信息或?qū)⑵渌麍D像特征混合到 x 中。
實(shí)際的圖像編輯流程如下圖4所示,在圖像變換的最后一步,這里采用一個泊松混合(Poisson blending)的后處理步驟。
這主要是因?yàn)?GAN 模型沒有解耦圖像背景信息的能力,而通過泊松混合操作能夠去除感興趣區(qū)域的一些偽像。
圖4 將特征空間拼貼算法應(yīng)用于真實(shí)圖像的流程:用戶需要指定混合映射圖,選擇特征空間拼貼方法,并在后處理時將掩碼用于泊松混合過程。
下圖5展示的是不同類別條件的圖像重構(gòu)例子。
圖5 通過流形投射對多種類別標(biāo)簽進(jìn)行圖像重構(gòu)的例子。其中紅色幀圖像是通過原始類別標(biāo)簽進(jìn)行重構(gòu)的圖像。
下圖6展示兩種方法在真實(shí)圖像上的應(yīng)用例子。左側(cè)是 sCBN 方法在真實(shí)圖像上的結(jié)果,而右圖是特征混合方法所得到的結(jié)果。
圖6 sCBN 和特征混合方法在圖像上的應(yīng)用。
實(shí)驗(yàn)
結(jié)果分析
這里,將所提出的方法與 DCGAN 模型相結(jié)合,并在多個不同圖像數(shù)據(jù)集來驗(yàn)證方法的有效性。
此外,為了驗(yàn)證流形投射和 DCGAN 模型的表征能力,這里還進(jìn)行一系列的非空間變換的消融實(shí)驗(yàn) (ablation experiments)。
下圖7展示的是使用 sCBN 方法所得到的標(biāo)簽拼貼示例。可以看到,該方法能夠調(diào)整圖像的全局信息 (如面部、形狀) 和局部信息 (如顏色、紋理),而不會破壞圖像的語義一致性。
圖7 sCBN 方法的標(biāo)簽拼貼結(jié)果。其中,紅線包圍的區(qū)域被翻譯為目標(biāo)標(biāo)簽。
圖8顯示的是使用特征混合所得到的標(biāo)簽拼貼結(jié)果。可以看到,該方法成功地修改了圖像的語義分割,而不會破壞原始圖像的質(zhì)量。
這種方法對于轉(zhuǎn)換區(qū)域的語義排列信息有很強(qiáng)的魯棒性。
圖8 特征混合方法的標(biāo)簽拼貼結(jié)果。其中,紅色幀區(qū)域內(nèi)的特征被混合到基礎(chǔ)圖像中。
每層的拼貼效果
通過一系列的消融研究來探究模型中每層修改的影響。下圖9是 sCBN 方法分別應(yīng)用于 (1) 所有層,(2) 最靠近輸入層,(3) 除了第一層的所有層,所得到的結(jié)果。
可以看到,越靠近 z 層,該方法對于全局特征的影響越明顯;而越靠近 x 層,sCBN 方法對就局部特征的影響越顯著。
圖9 在不同層的拼貼效果。從上到下分別是 sCBN 方法作用于不同層所得到的結(jié)果。
同樣,下圖10展示的特征混合方法,則是以不同的混合權(quán)重,應(yīng)用于不同層 (l=1,2,3,4) 所得到的結(jié)果。
可以看到,當(dāng)用于第一層時,全局特征將受到影響,而局部特征將會被保留。而當(dāng)該方法應(yīng)用于靠近 x 層時,所得到的結(jié)果則相反。
因此,用戶可以根據(jù)需要,更精細(xì)地選取混合權(quán)重系數(shù)來控制局部特征轉(zhuǎn)換及其密度。
圖10 特征混合方法作用于不同層所得到的結(jié)果
真實(shí)圖像的轉(zhuǎn)換
為了通過分類精度和人類感知測試來定量評估方法在真實(shí)圖像轉(zhuǎn)換方面的表現(xiàn),將 sCBN 方法應(yīng)用于 ImageNet 數(shù)據(jù)集中的圖像,并進(jìn)行 (1) cat→big cat,(2) cat→dog 以及 (3) dog→dog 的變換。
隨后,以 UNIT 和 MUNIT 為基準(zhǔn),將本文所提出的方法與其進(jìn)行對比分析,結(jié)果如下圖11。
可以看到,在 top-5 錯誤率方面,該方法的表現(xiàn)更優(yōu)于其他兩種基準(zhǔn),這也驗(yàn)證了它在真實(shí)圖像變換方面的有效性。
圖11 top-5 分類錯誤率結(jié)果
結(jié)論
本文提出一種新穎有效的圖像編輯策略,通過 sCBN 和特征混合方法,對圖像中間特征表征進(jìn)行處理,從而達(dá)到修改語義信息、編輯圖像的目的。
其中條件正則化方法不僅能夠處理類別條件,還能處理其他的信息,在未來的研究中可以將該方法應(yīng)用于更廣泛的非圖像數(shù)據(jù)集。
然而,在研究中仍發(fā)現(xiàn)一些不足之處:表達(dá)能力受限的生成網(wǎng)絡(luò),尤其是在與流形投射結(jié)合用于處理真實(shí)圖像變換,未來的研究中相關(guān)問題仍值得深入探究。
-
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40449 -
GaN
+關(guān)注
關(guān)注
19文章
1933瀏覽量
73290 -
python
+關(guān)注
關(guān)注
56文章
4792瀏覽量
84628
原文標(biāo)題:惡犬秒變萌汪:東京大學(xué)開源“治愈系” GAN 圖片拼貼工具 | 技術(shù)頭條
文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論