我們都知道變色龍可以改變皮膚的顏色紋理,而如今深度學習技術甚至可以做到將一只貓的圖像同時轉變為狗、甚至獅子和老虎的圖像。這種可以將一張圖片轉換為多種不同目標的算法不僅為電影和游戲場景制作提供了豐富的素材,更能為自動駕駛迅速和便捷地生成不同路況下豐富的訓練數據,以不斷提高面對不同路況的能力。
由一而多的圖像翻譯
早先研究人員發現可以利用非監督的方法進行圖像翻譯,將一幅圖像和視頻轉換為另一個。它通過利用來自獨立域中邊緣分布的圖像來學習處于不同域之中的聯合概率分布。研究人員通過建立共享隱含空間的假設,提出了一個圖像對圖像的非監督翻譯框架,并利用對偶GANs實現了高效的圖像翻譯。在實驗中進行了街道場景、動物圖像以及人臉的圖像翻譯過程。
而隨著研究的深入,研究人員們研發出了新的網絡結構。這種多模態的網絡結構將可以同時將一張圖片轉換為多張不同的圖像輸出。類似于早先的圖像翻譯研究,多模態圖形翻譯使用了兩種深度學習技術:非監督學習和生成對抗網絡(GANs),其目的在于為機器賦予更強的想象力,可以讓機器將陽光燦爛的街道照片變成狂風暴雨或者茫茫冬日的不同景色。這種技術對于無人駕駛有著極大的促進作用。與之前的技術不同,研究人員們通過轉換不止能得到一個冬天的實例,而可以同時得到一系列不同降雪量的的冬日場景。這意味著單一的數據可以生成一系列豐富的、覆蓋更廣泛情況的數據集。
為了實現這一非監督圖像的翻譯任務,研究人員們提出了多模態非監督圖像翻譯架構(Multimodal Unsupervised Image-to-image Translation ,MUNIT),首先假設圖像的表示可以被分解成與域無關的編碼,同時可以采集到與域相關的風格編碼。為了實現不同域間的圖像翻譯,作者將內容編碼與目標域中采樣的風格編碼結合在一起,實現了多個目標樣本的輸出。這種多模態非監督圖像翻譯技術將圖像內容和風格分離開來。例如對于圖像中的一只貓來說,它的姿勢是圖像的內容而貓的種類則是圖像的風格。在實際翻譯過程中,姿勢是固定的,而風格則隨著目標的不同而不同。可以是狗狗或者豹子。動物的姿勢是保持不變的,而它的風格則可以覆蓋從柯基到美洲豹各色不同的品種。
同樣的技術還能用于生成一天中不同時間的場景圖像、不同天氣條件下或者光照條件下的場景。這樣的技術對于需要大量數據訓練的深度神經網絡大有裨益。
除了自動駕駛和深度學習領域外,多模態圖像翻譯技術還能為游戲公司提供一種迅速創造新角色和新世界的有力工具。同樣藝術家們也可以生成復雜或者豐富場景的工作交給機器去處理,將更多的精力投入到創作的核心上來。
沒數據?沒問題!
這一研究主要建立在一種善于生成視覺數據的深度學習方法——GANs上。一個典型的GANs包含兩個互相競爭的神經網絡:一個用于生成圖像而另一個用于判斷生成的圖像是否看起來像真的,或者是假的。GANs在數據短缺的時候會顯示出更強大的能力。
一般的圖像翻譯需要兩個互相關聯的數據集:如果需要將貓轉換為狗或者其他動物的話,需要收集同樣姿勢貓和狗的照片。而這樣的數據十分稀缺,有些時候甚至是不可能收集的。而本文中提出的MUNIT方法則突破了這個限制,使得圖像翻譯的使用范圍大大增加。它無需使用一一對應的數據即可實現多模態的轉化。
MUNIT同時還可以在無需抓取同一視點記錄的情況下為自動駕駛生成大量的訓練數據,可以再同一視角同一地點的精確位置下生成各種交通情況和細節的數據。除此之外、GANs還免去了對于圖像或者視頻冗長的人工標注,節約了大量的時間和金錢。
論文的作者表示希望給機器賦予人類一樣的想象力。就像人類在看風景時,無論庭前花開花落,總能想象出春夏秋冬四季變遷的模樣。在眺望風景時候,朝暉夕陰、氣象萬千、四季輪回都了然于胸。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100715 -
自動駕駛
+關注
關注
784文章
13784瀏覽量
166392 -
深度學習
+關注
關注
73文章
5500瀏覽量
121111
原文標題:因吹斯汀!看深度學習如何將一只貓的圖像同時轉變為狗、獅子和老虎
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論