英偉達(dá)再推黑科技GauGAN,這款圖像生成軟件僅憑用戶隨意畫的線條和色塊,就能自動生成逼真的圖片,效果堪比風(fēng)光大片!此番可謂“你只管亂畫,最后不好看算我輸”!
這是網(wǎng)上流傳甚廣的一個圖,教你一步步來畫一匹馬。
首先,畫兩個圈;接著畫4條腿、臉;然后畫上毛發(fā)
最后再加幾筆細(xì)節(jié)就大功告成了
這張圖真實的體現(xiàn)了在通常情況下,學(xué)生面對老師傳授知識、或者技能時候的一種狀態(tài)。很多人對此深有同感:在大牛口中“簡單加幾筆細(xì)節(jié)”的操作,在凡人看來無異于直接從新手跳到王者。但這種情況正在改變,手殘黨也可以畫出逼真的風(fēng)光大片了!這完全要感謝英偉達(dá)最新推出的一款黑科技。
英偉達(dá)在GTC 2019上推出了一個令人驚嘆的圖像生成器。它使用生成對抗性網(wǎng)絡(luò)(GAN),用戶只需點擊幾下即可繪制出近乎真實的圖像。該軟件能夠立即將幾行草草勾勒的輪廓圖,變成華麗的山頂日落圖景。
我們先來看一個動圖:
圖中,左邊是人類操作員畫的,右邊是AI直接“簡單加上幾筆細(xì)節(jié)”后生成的。在普通人看來,右邊的圖像幾乎毫無破綻,看不出這并非一張風(fēng)光照片,而是AI生成的虛擬海灘。
讓我們再來看幾張動圖,來更深刻的體會一下:
從圖中我們可以看出,GauGAN并不是像Photoshop里貼一個圖層那樣,簡單的把圖形貼上去,而是根據(jù)相鄰兩個圖層之間的對應(yīng)關(guān)系對邊緣進(jìn)行調(diào)整。比如石頭在水里的倒影應(yīng)該是什么樣的、被瀑布沖刷的山石應(yīng)該是怎樣的狀態(tài)、近處的山和遠(yuǎn)處的山之間的層次應(yīng)該如何表現(xiàn)…
這次,不光設(shè)計師、修圖師坐不住了,攝影師也坐不住了!
英偉達(dá)的黑魔法:GauGAN
他們給這個軟件起名叫做GauGAN。這個軟件只是對英偉達(dá)神經(jīng)網(wǎng)絡(luò)平臺強大性能的一次證明。這個軟件能夠?qū)⑷祟惖睦L畫方式和過程進(jìn)行編譯,在幾秒鐘內(nèi)就能畫出草圖,并將其轉(zhuǎn)換為逼真的照片。從軟件的早期演示中,它似乎能夠做到這一點。
GauGAN這個詞,很容易讓人聯(lián)想到那位和梵高相愛相殺的19世紀(jì)著名后印象派繪畫大師高更。事實上,GauGAN也確實使用了高更的繪畫作品對模型進(jìn)行訓(xùn)練。
保羅·高更(1848年6月7日-1903年5月8日)
GauGAN目前提供三種工具:顏料桶、鋼筆和鉛筆。屏幕底部是一系列對象。選擇“云”,并用鉛筆畫一條線,軟件將生成一縷逼真的云。但這些不是固定的圖像模板。GauGAN可以根據(jù)不同的輸入生成獨有的結(jié)果。畫一個圓圈,在用顏料工具填充,可以使生成的云的質(zhì)感變得更蓬松。
用戶可以使用輸入工具勾勒出一棵樹的形狀,軟件就能自動生成一棵樹。畫一條直線,會產(chǎn)生一個裸露的樹干。在頂部畫一個“燈泡”一樣的形狀,軟件將自動用葉子進(jìn)行填充,生成一棵完整的樹。
利用GauGAN生成一棵樹和一條海岸線,注意生成圖像的天氣變化
GauGAN是多模式軟件。如果有兩個用戶使用相同的設(shè)置,創(chuàng)建了相同的草圖,軟件中內(nèi)置的隨機數(shù)也能確保最終的生成的作品是不同的結(jié)果。
為了獲得實時結(jié)果,GauGAN必須在Tensor計算平臺上運行。 Nvidia在RDX Titan GPU平臺上進(jìn)行了演示,生成了實時的輸出結(jié)果。演示者繪制一條線,軟件立即產(chǎn)生了結(jié)果。不過,英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro表示,未來經(jīng)過一些修改后,GauGAN可以在幾乎任何平臺上運行,包括CPU上,但生成的結(jié)果可能需要幾秒鐘時間才能顯示。
在演示中,不同對象之間的界限劃分還存在一些問題,項目團(tuán)隊表示將會繼續(xù)改進(jìn)。兩個目標(biāo)接觸的部分會出現(xiàn)很淺的線條。英偉達(dá)聲稱圖片生成結(jié)果可以像照片一樣真實,但仔細(xì)看其實達(dá)不到這個程度。神經(jīng)網(wǎng)絡(luò)目前在訓(xùn)練對象以及訓(xùn)練目標(biāo)上還存在問題。希望這個項目有助于解決這個問題。
在訓(xùn)練數(shù)據(jù)上,英偉達(dá)利用Flickr上的100萬張圖像來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。大多數(shù)圖像來自Flickr的知識共享計劃,Catanzaro說表示,該公司僅使用經(jīng)過的圖像。
英偉達(dá)表示,這款軟件可以合成數(shù)十萬個對象及其與現(xiàn)實世界中其他對象的關(guān)系。在GauGAN中,如果用戶改變季節(jié)設(shè)置,葉子將從樹枝上消失。如果樹前有一個池塘,那么這棵樹就會在水中反射出來。
Catanzaro希望這款軟件可以在英偉達(dá)的新AI游戲平臺上使用,但目前要實現(xiàn)這個目標(biāo)還需要做一些進(jìn)一步的工作。在視頻游戲中使用此類工具可以為用戶打造更加身臨其境的環(huán)境,但是英偉達(dá)并沒有直接開發(fā)這樣的軟件。
對于此軟件可能被惡意利用來生成虛假圖像的問題, Catanzaro同意這是一個重要的問題,可能比一個項目和一個公司更重要。他說,這是一個信任問題,而不是技術(shù)問題,社會必須面對和妥善處理這個問題。
即使在這個有限的演示來看,從視頻游戲設(shè)計師、到架構(gòu)師、再到休閑游戲玩家都很容易被這個軟件的功能所吸引。目前英偉達(dá)沒有透露關(guān)于將此軟件進(jìn)行商業(yè)化發(fā)布的任何計劃,但預(yù)計很快就會發(fā)布公開試用版,任何人都可以體驗。
支持該項目的技術(shù)論文已經(jīng)發(fā)布。Catanzaro表示,此文已經(jīng)被CVPR 2019接收。
預(yù)印本論文地址:
https://arxiv.org/pdf/1903.07291.pdf
從論文中可以看出,GauGAN應(yīng)用軟件是基于名為“空間自適應(yīng)歸一化”技術(shù)實現(xiàn)的。論文中對該技術(shù)進(jìn)行了比較系統(tǒng)的介紹,并通過數(shù)據(jù)集實驗表明,該技術(shù)在圖像內(nèi)容生成和編輯任務(wù)上比以往方法實現(xiàn)了更優(yōu)秀的表現(xiàn)。而該技術(shù)的提出,是由“條件圖像合成”任務(wù)開始的。
GauGAN背后的秘密:空間自適應(yīng)條件歸一化
條件圖像合成是指在某些輸入數(shù)據(jù)上生成照片級真實圖像的任務(wù)。早期的方法是通過拼接圖像數(shù)據(jù)庫中的片段來計算輸出圖像。最近則一般使用神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)映射。后一種方法通常更快,并且不需要外部圖像數(shù)據(jù)庫。
條件圖像合成的特定形式可以將語義分割掩模轉(zhuǎn)換為照片級真實的圖像。該技術(shù)可以產(chǎn)生廣泛的應(yīng)用,包括內(nèi)容生成和圖像編輯。這種形式稱為“語義圖像合成”。通過堆疊卷積,歸一化和非線性層構(gòu)建的傳統(tǒng)網(wǎng)絡(luò)架構(gòu)達(dá)不到最優(yōu)效果,因為它們的歸一化層很可能會“帶走”輸入語義掩碼中的信息。
用戶可以在合成圖像時控制語義和樣式。 語義(樹的存在)通過標(biāo)簽圖(在頂行中可視化)來控制,樣式可以通過參考圖像(最左列)來控制
為了解決這個問題,我們提出了空間自適應(yīng)的歸一化,這是一種條件歸一化,通過空間自適應(yīng)學(xué)習(xí)轉(zhuǎn)換使用輸入語義布局來調(diào)制激活,可以在整個網(wǎng)絡(luò)中有效地傳播語義信息。
我們將模型在幾個具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了實驗(包括COCO-Stuff,ADE20K和Cityscapes)。結(jié)果表明,在空間自適應(yīng)歸一化層的幫助下,與幾種最先進(jìn)的方法相比,網(wǎng)絡(luò)的生成結(jié)果明顯更好了。
不同數(shù)據(jù)集上的實驗結(jié)果對比
另外,空間自適應(yīng)歸一化對語義圖像合成任務(wù)的幾種變體任務(wù)同樣有效,而且支持基于多模態(tài)和樣式的圖像合成,能夠?qū)崿F(xiàn)可控的多樣化輸出,最終呈現(xiàn)了讓人驚嘆的效果:
GauGAN的意義
GauGAN可以為建筑師、城市規(guī)劃者、景觀設(shè)計師、游戲開發(fā)者、廣告設(shè)計師…等各種和圖像相關(guān)的職業(yè)在創(chuàng)建虛擬世界時提供強大的工具。 通過人工智能了解現(xiàn)實世界的外觀,這些專業(yè)人員可以更好地制作想法原型并快速更改合成場景。
NVIDIA應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro將GauGAN背后的技術(shù)比作“智能畫筆”,可以填充粗略分割圖中的細(xì)節(jié)。粗略分割圖是顯示場景中物體位置的高級輪廓圖,GauGAN允許用戶繪制自己的分割圖并操縱場景,用沙子,天空,海洋或雪等標(biāo)簽標(biāo)記每個圖形。
通過對一百萬張圖像的訓(xùn)練,深度學(xué)習(xí)模型將填充景觀并顯示停止結(jié)果:在池塘中繪制,并且附近的元素如樹木和巖石將在水中出現(xiàn)反射。 將片段標(biāo)簽從“草”交換為“雪”,整個圖像變?yōu)槎緢鼍埃郧暗木G葉樹變得貧瘠。
“這就像一張彩圖圖片描述了一棵樹在哪里,太陽在哪里,天空在哪里,”Catanzaro說。“然后神經(jīng)網(wǎng)絡(luò)能夠根據(jù)它對真實圖像的了解,填充所有的細(xì)節(jié)和紋理,以及反射,陰影和顏色。”
Catanzaro說:“通過簡單的草圖進(jìn)行頭腦風(fēng)暴設(shè)計要容易得多,而且這種技術(shù)能夠?qū)⒉輬D轉(zhuǎn)換成高度逼真的圖像。”也就是說,產(chǎn)品設(shè)計師可以在頭腦風(fēng)暴的階段,就直接產(chǎn)出高保真原型;而乙方更是可以在甲方當(dāng)面提需求的時候,就給出預(yù)覽效果圖。
但是話又說回來,雖然GauGAN的出現(xiàn),讓我們不需要具備專業(yè)的繪畫、設(shè)計、攝影技能就可以制造出逼真的圖像,但它畢竟只是一個幫我們將腦海中的想法實現(xiàn)出來的工具,而非我們大腦本身,如果我們腦海中沒有任何想法,它也無法憑空去創(chuàng)造任何東西。
可以預(yù)見的是,基礎(chǔ)技能方面的需求正在變得不那么重要,而對更高階的技能需求(比如創(chuàng)意、審美、洞察)的要求正在變得越來越高。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101049 -
生成器
+關(guān)注
關(guān)注
7文章
319瀏覽量
21082 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3842瀏覽量
91688
原文標(biāo)題:英偉達(dá)再出黑魔法GauGAN:憑借幾根線條,草圖秒變風(fēng)景照
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論