編者按:幾個月前,論智介紹了圖像生成領域的一個巨大進展:SAGAN。在那篇論文中,羅格斯大學和Google Brain的研究人員大膽把NLP中的self-attention模型引入GAN,解決了特征記憶問題,把圖像生成的初始分數(IS)從36.8一下提到了52.52。而近日,一篇ICLR 2019的Open Review論文(赫瑞-瓦特大學&DeepMind)帶來了更震撼結果,他們把IS一下子提高了一百多分,從52.52提升到了166.3。
摘要
盡管學界在生成圖像建模上取得了不小進展,但從像ImageNet這樣的復雜數據集中成功生成高分辨率、多樣化的樣本仍然是一個難以實現的目標。為此,我們以至今最大規模訓練了生成對抗網絡(GAN),并研究了這種規模所特有的不穩定性。研究發現,通過在生成器上使用正交正則化,我們可以讓它適應簡單的“截斷技巧”,即允許利用“截斷”潛在空間來精確控制樣本保真度和多樣性之間的權衡。
我們的修改使模型的性能達到了新高度。當我們在ImageNet上用128×128分辨率的圖像進行訓練時,我們的模型(BigGAN)的IS為166.3,FID為9.6,而之前的最佳記錄是IS 52.52,FID 18.65。
簡介
近年來,生成圖像建模領域出現了不少成果,其中最前沿的是GAN,它能直接從數據中學習,生成高保真、多樣化的圖像。雖然GAN的訓練是動態的,而且對各方面的設置都很敏感(從優化參數到模型架構),但大量研究已經證實,這種方法可以在各種環境中穩定訓練。
盡管取得了這些進步,當前生成圖像模型在ImageNet數據集上的表現還是很一般,最高IS只有52.52,而真實圖像數據的得分高達233。
在這篇論文中,研究人員通過一系列修改,縮小了GAN生成的圖像和ImageNet中的真實圖像之間的差異,他們做出的貢獻主要有以下三點:
證明GAN能從大規模訓練中受益。通過對體系結構做了兩個簡單修改,他們在訓練過程中使用的參數量是現有研究的2-4倍,batch size是8倍,但模型性能有顯著提高。
作為改進的副作用,新模型非常適合“截斷技巧”,即精確控制樣本保真度和多樣性之間的權衡。
發現大規模GAN的特有不穩定性,并根據經驗進行表征。根據分析所得,他們認為把新方法和現有技術結合可以緩解這種不穩定性,但如果要實現完全的穩定訓練,這會大大有損性能。
主要改進
本文提出的BigGAN遵循了SAGAN的基本架構,它基于ResNet,但判別器D中的通道和一般ResNet不同,每個模塊的第一個卷積層的filter數量等于輸出的filter數,而不是輸入數。
在128×128 ImageNet數據上的架構
研究人員首先簡單增加了基線模型的batch size,這樣做的效果如下表所示。隨著batch size逐漸變為基線的2倍、4倍、8倍,模型的FID不斷下降,IS不斷增加,至8倍時,BigGAN的IS較SAGAN已經提高了約46%。對于這個結果,他們提出的一個猜想是更大的batch size意味著每個batch覆蓋的模式更多,這為兩個神經網絡提供了更好的梯度。
但這么做也有缺點,就是雖然模型能在更少的迭代中達到更好的最終性能,但它很不穩定,甚至會在訓練時崩潰。
各batch size下BigGAN的IS(越高越好)和FID(越低越好)
之后,他們又把神經網絡每一層的通道數在原有基礎上增加了50%,這時每個神經網絡的參數數量也幾乎翻了一倍。當BigGAN的參數數量是SAGAN的兩倍時,它的IS較后者提高了約21%。對此,他們給出的解釋是,相對于數據集的復雜性,模型的容量增加了。而增加神經網絡深度不會產生相似效果,反而會降低最終性能。
考慮到生成器G中conditional BatchNorm layer的類嵌入c包含大量權重,他們不再為每個嵌入分別設置一個層,而是使用了一個共享嵌入,由它投影到每一層。這降低了計算和存儲成本,并把訓練速度提高了37%。同時,他們使用了分層潛在空間的變體,把噪聲向量z饋送進生成器的多個層,直接影響不同分辨率和層次結構級別的特征。
(a)常規生成器架構;(b)生成器中的殘差塊
生成效果
BigGAN生成的各個類別的圖像
BigGAN生成的256×256的圖像
BigGAN生成的512×512的圖像
上面是論文呈現的一些生成圖像。雖然其他GAN也能精選一些不錯的圖,但對比細節,BigGAN在質地、光影、外形等方面的表現都優于以往成果。而且就SAGAN強調的腿部生成效果來看,上圖中公雞的腿不突兀、更自然,和真實圖像難以區分。
-
神經網絡
+關注
關注
42文章
4789瀏覽量
101598 -
圖像
+關注
關注
2文章
1091瀏覽量
40682 -
GaN
+關注
關注
19文章
2076瀏覽量
75051
原文標題:DeepMind:從52.52到166.3,圖像生成再現巨大突破
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
圖像生成領域的一個巨大進展,BigGAN的效果真的有那么好嗎?
一種基于改進的DCGAN生成SAR圖像的方法

評論