加州大學(xué)伯克利分校的Xinlei Pan等人提出了一種虛擬到現(xiàn)實(Virtual to Real)的翻譯網(wǎng)絡(luò),可以將虛擬駕駛模擬器中生成的虛擬場景翻譯成真實場景,來進行強化學(xué)習(xí)訓(xùn)練,取得了更好的泛化能力,并可以遷移學(xué)習(xí)應(yīng)用到真實世界中的實際車輛,滿足真實世界的自動駕駛要求。
1.前言
強化學(xué)習(xí)(Reinforcement Learning)是機器學(xué)習(xí)的一個熱門研究方向。強化學(xué)習(xí)較多的研究情景主要在機器人、游戲與棋牌等方面,自動駕駛的強化學(xué)習(xí)研究中一大問題是很難在現(xiàn)實場景中進行實車訓(xùn)練。因為強化學(xué)習(xí)模型需要成千上萬次的試錯來迭代訓(xùn)練,而真實車輛在路面上很難承受如此多的試錯。所以目前主流的關(guān)于自動駕駛的強化學(xué)習(xí)研究都集中在使用虛擬駕駛模擬器來進行代理(Agent)的仿真訓(xùn)練,但這種仿真場景和真實場景有一定的差別,訓(xùn)練出來的模型不能很好地泛化到真實場景中,也不能滿足實際的駕駛要求。加州大學(xué)伯克利分校的Xinlei Pan等人提出了一種虛擬到現(xiàn)實(Virtual to Real)的翻譯網(wǎng)絡(luò),可以將虛擬駕駛模擬器中生成的虛擬場景翻譯成真實場景,來進行強化學(xué)習(xí)訓(xùn)練,取得了更好的泛化能力,并可以遷移學(xué)習(xí)應(yīng)用到真實世界中的實際車輛,滿足真實世界的自動駕駛要求。下面為本文的翻譯,編者對文章有一定的概括與刪改。
2.簡介
強化學(xué)習(xí)被認為是推動策略學(xué)習(xí)的一個有前途的方向。然而,在實際環(huán)境中進行自動駕駛車輛的強化學(xué)習(xí)訓(xùn)練涉及到難以負擔(dān)的試錯。更可取的做法是先在虛擬環(huán)境中訓(xùn)練,然后再遷移到真實環(huán)境中。本文提出了一種新穎的現(xiàn)實翻譯網(wǎng)絡(luò)(Realistic Translation Network),使虛擬環(huán)境下訓(xùn)練的模型在真實世界中變得切實可行。提出的網(wǎng)絡(luò)可以將非真實的虛擬圖像輸入轉(zhuǎn)換到有相似場景結(jié)構(gòu)的真實圖像。以現(xiàn)實的框架為輸入,通過強化學(xué)習(xí)訓(xùn)練的駕駛策略能夠很好地適應(yīng)真實世界的駕駛。實驗表明,我們提出的虛擬到現(xiàn)實的強化學(xué)習(xí)效果很好。據(jù)我們所知,這是首次通過強化學(xué)習(xí)訓(xùn)練的駕駛策略可以適應(yīng)真實世界駕駛數(shù)據(jù)的成功案例。
圖1 自動駕駛虛擬到現(xiàn)實強化學(xué)習(xí)的框架。由模擬器(環(huán)境)渲染的虛擬圖像首先被分割成場景解析的表現(xiàn)形式,然后通過提出的圖像翻譯網(wǎng)絡(luò)(VISRI)將其翻譯為合成的真實圖像。代理(Agent)觀察合成的真實圖像并執(zhí)行動作。環(huán)境會給Agent獎勵。由于Agent是使用可見的近似于真實世界的圖像來訓(xùn)練,所以它可以很好地適應(yīng)現(xiàn)實世界的駕駛。
自動駕駛的目標(biāo)是使車輛感知它的環(huán)境和在沒有人參與下的行駛。實現(xiàn)這個目標(biāo)最重要的任務(wù)是學(xué)習(xí)根據(jù)觀察到的環(huán)境自動輸出方向盤、油門、剎車等控制信號的駕駛策略。最直接的想法是端到端的有監(jiān)督學(xué)習(xí),訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型直接映射視覺輸入到動作輸出,訓(xùn)練數(shù)據(jù)被標(biāo)記為圖像-動作對。然而,有監(jiān)督的方法通常需要大量的數(shù)據(jù)來訓(xùn)練一個可泛化到不同環(huán)境的模型。獲得如此大量的數(shù)據(jù)非常耗費時間且需要大量的人工參與。相比之下,強化學(xué)習(xí)是通過一種反復(fù)試錯的方式來學(xué)習(xí)的,不需要人工的明確監(jiān)督。最近,由于其在動作規(guī)劃方面的專門技術(shù),強化學(xué)習(xí)被認為是一種有前途的學(xué)習(xí)駕駛策略的技術(shù)。
然而,強化學(xué)習(xí)需要代理(Agent)與環(huán)境的相互作用,不符規(guī)則的駕駛行為將會發(fā)生。在現(xiàn)實世界中訓(xùn)練自動駕駛汽車會對車輛和周圍環(huán)境造成破壞。因此目前的自動駕駛強化學(xué)習(xí)研究大多集中于仿真,而不是在現(xiàn)實世界中的訓(xùn)練。一個受過強化學(xué)習(xí)訓(xùn)練的代理在虛擬世界中可以達到近人的駕駛性能,但它可能不適用于現(xiàn)實世界的駕駛環(huán)境,這是因為虛擬仿真環(huán)境的視覺外觀不同于現(xiàn)實世界的駕駛場景。
雖然虛擬駕駛場景與真實駕駛場景相比具有不同的視覺外觀,但它們具有相似的場景解析結(jié)構(gòu)。例如虛擬和真實的駕駛場景可能都有道路、樹木、建筑物等,盡管紋理可能有很大的不同。因此將虛擬圖像翻譯成現(xiàn)實圖像是合理的,我們可以得到一個在場景解析結(jié)構(gòu)與目標(biāo)形象兩方面都與真實世界非常相似的仿真環(huán)境。最近,生成對抗性網(wǎng)絡(luò)(GAN)在圖像生成方面引起了很多關(guān)注。[1]等人的工作提出了一種可以用兩個域的配對數(shù)據(jù)將圖像從一個域翻譯到另一個域的翻譯網(wǎng)絡(luò)的設(shè)想。然而,很難找到駕駛方向的虛擬現(xiàn)實世界配對圖像。這使得我們很難將這種方法應(yīng)用到將虛擬駕駛圖像翻譯成現(xiàn)實圖像的案例中。
本文提出了一個現(xiàn)實翻譯網(wǎng)絡(luò),幫助在虛擬世界中訓(xùn)練自動駕駛車輛使其完全適應(yīng)現(xiàn)實世界的駕駛環(huán)境。我們提出的框架(如圖1所示)將模擬器渲染的虛擬圖像轉(zhuǎn)換為真實圖像,并用合成的真實圖像訓(xùn)練強化學(xué)習(xí)代理。雖然虛擬和現(xiàn)實的圖像有不同的視覺外觀,但它們有一個共同的場景解析表現(xiàn)方式(道路、車輛等的分割圖)。因此我們可以用將場景解析的表達作為過渡方法將虛擬圖像轉(zhuǎn)化為現(xiàn)實圖像。這種見解類似于自然語言翻譯,語義是不同語言之間的過渡。具體來說,我們的現(xiàn)實翻譯網(wǎng)絡(luò)包括兩個模塊:第一個是虛擬解析或虛擬分割模塊,產(chǎn)生一個對輸入虛擬的圖像進行場景解析的表示方式。第二個是將場景解析表達方式翻譯為真實圖像的解析到真實網(wǎng)絡(luò)。通過現(xiàn)實翻譯網(wǎng)絡(luò),在真實駕駛數(shù)據(jù)上學(xué)習(xí)得到的強化學(xué)習(xí)模型可以很好地適用于現(xiàn)實世界駕駛。
為了證明我們方法的有效性,我們通過使用現(xiàn)實翻譯網(wǎng)絡(luò)將虛擬圖像轉(zhuǎn)化成合成的真實圖像并將這些真實圖像作為狀態(tài)輸入來訓(xùn)練我們的強化學(xué)習(xí)模型。我們進一步比較了利用領(lǐng)域隨機化(Domain Randomization)的有監(jiān)督學(xué)習(xí)和其他強化學(xué)習(xí)方法。實驗結(jié)果表明,用翻譯的真實圖像訓(xùn)練的強化學(xué)習(xí)模型比只用虛擬輸入和使用領(lǐng)域隨機化的強化學(xué)習(xí)模型效果都要更好。
3.自然環(huán)境下的強化學(xué)習(xí)
我們的目標(biāo)是成功地將一個完全在虛擬環(huán)境中訓(xùn)練的駕駛模型應(yīng)用于真實世界的駕駛挑戰(zhàn)。其中一個主要的空白是,代理所觀察到的是由模擬器渲染的幀,它們在外觀上與真實世界幀不同。因此提出了一種將虛擬幀轉(zhuǎn)換為現(xiàn)實幀的現(xiàn)實翻譯網(wǎng)絡(luò)。受圖像-圖像翻譯網(wǎng)絡(luò)工作的啟發(fā),我們的網(wǎng)絡(luò)包括兩個模塊:即虛擬-解析和解析-現(xiàn)實網(wǎng)絡(luò)。第一個模塊將虛擬幀映射到場景解析圖像。第二個模塊將場景解析轉(zhuǎn)換為與輸入虛擬幀具有相似的場景結(jié)構(gòu)的真實幀。這兩個模塊可以產(chǎn)生保持輸入虛擬幀場景解析結(jié)構(gòu)的真實幀。最后我們在通過現(xiàn)實翻譯網(wǎng)絡(luò)獲得的真實幀上,運用強化學(xué)習(xí)的方法,訓(xùn)練了一個自動駕駛代理。我們所采用了[2]等人提出的方法,使用異步的actor-critic強化學(xué)習(xí)算法在賽車模擬器TORCS[3]中訓(xùn)練了一輛自動駕駛汽車。在這部分,我們首先展現(xiàn)了現(xiàn)實翻譯網(wǎng)絡(luò),然后討論了如何在強化學(xué)習(xí)框架下對駕駛代理進行訓(xùn)練。
圖2:虛擬世界圖像(左1和左2)和真實世界圖像(右1和右2)的圖像分割實例
3.1 現(xiàn)實翻譯網(wǎng)絡(luò):
由于沒有配對過的虛擬和真實世界圖像,使用[1]的直接映射虛擬世界圖像到真實世界圖像將是尷尬的。然而由于這兩種類型的圖像都表達了駕駛場景,我們可以通過場景分析來翻譯它們。受[1]的啟發(fā),我們的現(xiàn)實翻譯網(wǎng)絡(luò)由兩個圖像翻譯網(wǎng)絡(luò)組成,第一個圖像翻譯網(wǎng)絡(luò)將虛擬圖像轉(zhuǎn)化為圖像的分割。第二個圖像翻譯網(wǎng)絡(luò)將分割后圖像轉(zhuǎn)化為現(xiàn)實世界中的對應(yīng)圖像。
由[1]等人提出的圖像至圖像的翻譯網(wǎng)絡(luò)基本上是一個有條件的生成對抗網(wǎng)絡(luò)(GAN)。傳統(tǒng)的GAN網(wǎng)絡(luò)和有條件的GAN網(wǎng)絡(luò)的區(qū)別在于,傳統(tǒng)GAN網(wǎng)絡(luò)是學(xué)習(xí)一種從隨機噪聲矢量z到輸出圖像s的映射:G:z → s,而有條件的GAN網(wǎng)絡(luò)是同時吸收了圖像x和噪聲向量z,生成另一個圖像s:G:{x, z} → s,且s通常與x屬于不同的領(lǐng)域(例如將圖像翻譯成其分割)。
有條件的GAN網(wǎng)絡(luò)的任務(wù)目標(biāo)可以表達為:
G是試圖最小化目標(biāo)的生成器,D是與G相違背的試圖最大化目標(biāo)的對抗判別器。換句話說,=argmima(G,D),為了抑制模糊,添加了L1的損失正則化,可以表達為
:
因此,圖像-圖像翻譯網(wǎng)絡(luò)的總體目標(biāo)是:
λ是正則化的權(quán)重。
我們的網(wǎng)絡(luò)由兩個圖像-圖像的轉(zhuǎn)換網(wǎng)絡(luò)組成,這兩個網(wǎng)絡(luò)使用公式(3)作為相同的損失函數(shù)。第一個網(wǎng)絡(luò)將虛擬圖像x翻譯成它們的分割 s:G1:{x,} → S,第二個網(wǎng)絡(luò)將分割的圖像s轉(zhuǎn)換成它們的現(xiàn)實對應(yīng)的y: G2:{ s,} → y,,是噪聲,以避免確定性的輸出。對于GAN神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),我們使用的是與[1]相同的生成器和判別器結(jié)構(gòu)。
3.2 訓(xùn)練自主駕駛汽車的強化學(xué)習(xí):
我們使用傳統(tǒng)的強化學(xué)習(xí)解決方案異步優(yōu)勢Actor-Arbitor(A3C)來訓(xùn)練自動駕駛汽車,這種方法在多種機器學(xué)習(xí)任務(wù)中表現(xiàn)的很出色。A3C算法是將幾種經(jīng)典的強化學(xué)習(xí)算法與異步并行線程思想相結(jié)合的一種基本的行動Actor-Critic。多個線程與環(huán)境的無關(guān)副本同時運行,生成它們自己的訓(xùn)練樣本序列。這些Actor-learners繼續(xù)運行,好像他們正在探索未知空間的不同部分。對于一個線程,參數(shù)在學(xué)習(xí)迭代之前同步,完成后更新。A3C算法實現(xiàn)的細節(jié)見[2]。為了鼓勵代理更快地駕駛和避免碰撞,我們定義了獎勵函數(shù)為:
Vt是在第t步時代理的速度(m/s),α是代理的速度方向與軌跡切線之間的輪廓(紅色部分),是代理中心和軌跡中點之間的距離,β、γ是常數(shù)并在訓(xùn)練的一開始就被定義。我們在訓(xùn)練時設(shè)置β=0.006,γ=-0.025。
我們做了兩組實驗來比較我們的方法和其他強化學(xué)習(xí)方法以及有監(jiān)督學(xué)習(xí)方法的性能。第一組實驗涉及真實世界駕駛數(shù)據(jù)的虛擬到現(xiàn)實的強化學(xué)習(xí),第二組實驗涉及不同虛擬駕駛環(huán)境下的遷移學(xué)習(xí)。我們實驗中使用的虛擬模擬器是TORCS。
圖3:強化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)是一個端到端的將狀態(tài)表示映射到動作概率輸出的網(wǎng)絡(luò)
圖4:虛擬到真實圖像翻譯的例子。奇數(shù)列是從TORCS截取的虛擬圖像。偶數(shù)列是根據(jù)左邊的虛擬圖像相對應(yīng)合成的真實世界圖像。
3.3 真實世界駕駛數(shù)據(jù)下的虛擬到現(xiàn)實強化學(xué)習(xí):
在本實驗中,我們用現(xiàn)實翻譯網(wǎng)絡(luò)訓(xùn)練了我們所提出的強化學(xué)習(xí)模型。我們首先訓(xùn)練虛擬到真實的圖像翻譯網(wǎng)絡(luò)然后利用受過訓(xùn)練的網(wǎng)絡(luò)對模擬器中的虛擬圖像進行濾波。這些真實的圖像隨后被輸入A3C算法,以訓(xùn)練駕駛策略。最后經(jīng)過訓(xùn)練的策略在真實世界駕駛數(shù)據(jù)上進行了測試,以評估其轉(zhuǎn)向角度預(yù)測精度。
為便于比較,我們還訓(xùn)練了一個有監(jiān)督學(xué)習(xí)模型來預(yù)測每個駕駛測試視頻框架的轉(zhuǎn)向角度。該模型是一種具有我們的強化學(xué)習(xí)模型中相同的策略網(wǎng)絡(luò)設(shè)計結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)(DNN)。網(wǎng)絡(luò)輸入是四個連續(xù)框架的序列,網(wǎng)絡(luò)輸出的是動作概率向量,向量中的元素表示直行、左轉(zhuǎn)、右轉(zhuǎn)的概率。有監(jiān)督學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)不同于用于評價模型性能的測試數(shù)據(jù)。另外,另一個基線強化學(xué)習(xí)模型(B-RL))也被訓(xùn)練。B-RL和我們的方法的唯一區(qū)別是虛擬世界圖像是由代理直接作為狀態(tài)輸入的。B-RL模型也在相同的真實世界駕駛數(shù)據(jù)上被測試。
數(shù)據(jù)集:真實世界駕駛視頻數(shù)據(jù)來自[4],這是一個在晴天收集的每一幀都有詳細的轉(zhuǎn)角標(biāo)注的數(shù)據(jù)集。這個數(shù)據(jù)集大概有45000張圖片,其中15000張被用作訓(xùn)練有監(jiān)督學(xué)習(xí),另外15000張被選出來進行測試。為了訓(xùn)練我們的現(xiàn)實翻譯網(wǎng)絡(luò),我們從TORCS中的Aalborg環(huán)境收集了虛擬圖像以及他們的分割。共收集了1673張涵蓋了整個Aalborg環(huán)境的駕駛照片。
圖5:不同環(huán)境間的遷移學(xué)習(xí)。Orcle曾在CGTrac2中接受過訓(xùn)練和測試,所以它的性能是最好的。我們的模型比領(lǐng)域隨機化RL方法更有效。領(lǐng)域隨機化方法需要在多個虛擬環(huán)境中進行培訓(xùn),這就需要大量的人工的工程工作。
場景分割:我們使用了[5]中的圖像語義分割網(wǎng)絡(luò)設(shè)計及其在CityScape圖像分割數(shù)據(jù)集[6]上經(jīng)過訓(xùn)練的分割網(wǎng)絡(luò),從[5]中分割45000張真實世界的駕駛圖像。該網(wǎng)絡(luò)在11個類別的CityScape數(shù)據(jù)集上訓(xùn)練并迭代了30000次。
圖像翻譯網(wǎng)絡(luò)訓(xùn)練:我們使用收集的虛擬-分割圖像對和分割-真實圖像對訓(xùn)練了虛擬-解析和解析-真實兩個網(wǎng)絡(luò)。如圖1所示,翻譯網(wǎng)絡(luò)采用編碼-解碼器的方式。在圖像翻譯網(wǎng)絡(luò)中,我們使用了可以從編碼器到解碼器跳躍連接兩個獨立分開層的U-Net體系結(jié)構(gòu),具有相同的輸出特征圖形狀。生成器的輸入尺寸是256×256。每個卷積層有4×4大小的卷積核,步長為2。每一卷積層后都有一個slope為0.2 的LeakyReLU層,每一個反卷積層后都應(yīng)用一個Relu層。此外,在每一個卷積層與反卷積層后,都應(yīng)用一個BatchNormalization層。編碼器的最終輸出與輸出尺寸為3×256×256并接著tanh激活函數(shù)的卷積層連接。我們用了全部的1673個虛擬-分割圖像對來訓(xùn)練一個虛擬-分割網(wǎng)絡(luò)。因為45000張真實圖像有所冗余,我們從45000張圖像中選擇了1762張圖像和它們的分割來訓(xùn)練解析-真實的圖像翻譯網(wǎng)絡(luò)。為了訓(xùn)練這個圖像翻譯模型,我們使用了Adam優(yōu)化器,初始學(xué)習(xí)率為0.0002,沖量設(shè)為0.5,batchsize設(shè)為16,訓(xùn)練了200次迭代直到收斂。
強化訓(xùn)練:我們訓(xùn)練中使用的RL網(wǎng)絡(luò)結(jié)構(gòu)類似于[2]中的actor網(wǎng)絡(luò),是有4個層并且每層間使用Relu激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)(如圖3所示)。該網(wǎng)絡(luò)將4個連續(xù)RGB幀作為狀態(tài)輸入并輸出9個離散動作,這些動作對應(yīng)于“直線加速”,“加速向左”、“加速向右”、“直走和剎車”、“向左和剎車”、“向右和剎車”、“向左走”和“向右走”。我們用0.01個異步線程和RMSPop優(yōu)化器對強化學(xué)習(xí)代理進行了訓(xùn)練,初始學(xué)習(xí)率為0.01,γ=0.9,ε=0.1。
評估:真實的駕駛數(shù)據(jù)集提供了每幀的轉(zhuǎn)向角度注釋。然而,在TORCS虛擬環(huán)境中執(zhí)行的動作只包含“左轉(zhuǎn)”,“向右走”,“直走”或它們與“加速”“剎車”的組合。因此我們定義了一個標(biāo)簽映射策略,將轉(zhuǎn)向角度標(biāo)簽翻譯成虛擬模擬器中的動作標(biāo)簽。我們把(-10,10)中的轉(zhuǎn)向角度與“直走”的動作聯(lián)系起來。(由于小轉(zhuǎn)向角度不能在短時間內(nèi)導(dǎo)致明顯的轉(zhuǎn)彎),轉(zhuǎn)向角度小于-10度映射到動作“向左”,轉(zhuǎn)向角度超過10度映射到動作“向右”。通過將我們的方法產(chǎn)生的輸出動作與地面真實情況相比較,我們可以獲得駕駛動作預(yù)測的準(zhǔn)確率。
虛擬駕駛環(huán)境下的遷移學(xué)習(xí):我們進一步進行了另一組實驗,并獲得了不同虛擬駕駛環(huán)境之間的遷移學(xué)習(xí)的結(jié)果。在這個實驗中,我們訓(xùn)練了三名強化學(xué)習(xí)代理。第一個代理在TORCS中的Cg-Track2環(huán)境中接受了標(biāo)準(zhǔn)的A3C算法訓(xùn)練,并頻繁地在相同的環(huán)境中評估其性能。我們有理由認為這種代理的性能是最好,所以我們稱之為“Oracle”。第二個代理用我們提出現(xiàn)實翻譯網(wǎng)絡(luò)的強化學(xué)習(xí)方法來訓(xùn)練。但是,它在TORCS的E-track1環(huán)境中接受訓(xùn)練,然后在Cg-track2中進行評估。需要注意的是,E-track1的視覺外觀不同于Cg-Track2。第三個代理是用類似于[22]的領(lǐng)域隨機化方法訓(xùn)練的,在Cg-track2中,該代理接受了10種不同的虛擬環(huán)境的訓(xùn)練,并進行了評估。為了使用我們的方法訓(xùn)練,我們得到了15000張分割圖像給E-track1和Cg-track2去訓(xùn)練虛擬-解析和解析-真實的圖像翻譯網(wǎng)絡(luò)。圖像翻譯訓(xùn)練的細節(jié)和強化學(xué)習(xí)的細節(jié)與第3.1部分相同。
3.4 結(jié)果
圖像分割結(jié)果:我們使用在Cityscape數(shù)據(jù)集上訓(xùn)練的圖像分割模型來分割虛擬和真實的圖像。例子如圖2所示。圖中表示,盡管原始的虛擬圖像和真實的圖像看起來很不一樣,但它們的場景解析結(jié)果非常相似。因此將場景解析作為連接虛擬圖像和真實圖像的過渡過程是合理的。
現(xiàn)實翻譯網(wǎng)絡(luò)的定性結(jié)果:圖4顯示了我們的圖像翻譯網(wǎng)絡(luò)的一些有代表性的結(jié)果。奇數(shù)列是TORCS中的虛擬圖像,偶數(shù)列則被翻譯成真實的圖像。虛擬環(huán)境中的圖像似乎比被翻譯的圖像更暗,因為訓(xùn)練翻譯網(wǎng)絡(luò)的真實圖像是在晴天截取的。因此我們的模型成功地合成了與原始地面真實圖像相類似的真實圖像。
強化訓(xùn)練結(jié)果:在真實世界駕駛數(shù)據(jù)上學(xué)習(xí)到的虛擬-現(xiàn)實的強化學(xué)習(xí)結(jié)果見表1。結(jié)果表明,我們提出的方法總體性能優(yōu)于基線(B-RL)方法,強化學(xué)習(xí)代理在虛擬環(huán)境中接受訓(xùn)練,看不到任何現(xiàn)實的數(shù)據(jù)。有監(jiān)督學(xué)習(xí)方法的整體性能最好。然而,需要用大量的有監(jiān)督標(biāo)記數(shù)據(jù)訓(xùn)練。
表1 三種方法的動作預(yù)測準(zhǔn)確率
不同虛擬環(huán)境下的遷移學(xué)習(xí)結(jié)果見圖5。顯然,標(biāo)準(zhǔn)A3C(Oracle)在同一環(huán)境中訓(xùn)練和測試的性能最好。然而,我們的模型比需要在多個環(huán)境中進行訓(xùn)練才能進行泛化的域隨機化方法更好。如[7]所述,領(lǐng)域隨機化需要大量的工程工作來使其泛化。我們的模型成功地觀察了從E-track1到Cg-Track2的翻譯圖像,這意味著,該模型已經(jīng)在一個看起來與測試環(huán)境非常相似的環(huán)境中進行了訓(xùn)練,從而性能有所提高。
4總結(jié)
我們通過實驗證明,利用合成圖像作為強化學(xué)習(xí)的訓(xùn)練數(shù)據(jù),代理在真實環(huán)境中的泛化能力比單純的虛擬數(shù)據(jù)訓(xùn)練或領(lǐng)域隨機化訓(xùn)練更好。下一步將是設(shè)計一個更好的圖像-圖像翻譯網(wǎng)絡(luò)和一個更好的強化學(xué)習(xí)框架,以超越有監(jiān)督學(xué)習(xí)的表現(xiàn)。
由于場景解析的橋梁,虛擬圖像可以在保持圖像結(jié)構(gòu)的同時被翻譯為真實的圖像。在現(xiàn)實框架上學(xué)習(xí)的強化學(xué)習(xí)模型可以很容易地應(yīng)用于現(xiàn)實環(huán)境中。我們同時注意到分割圖的翻譯結(jié)果不是唯一的。例如,分割圖指示一輛汽車,但它不指定該汽車的顏色。因此,我們未來的工作之一是讓解析-真實網(wǎng)絡(luò)的輸出呈現(xiàn)多種可能的外觀(比如顏色,質(zhì)地等)。這樣,強化學(xué)習(xí)訓(xùn)練中的偏差會大幅度減少。
我們第一個提供了例子,通過與我們提出的圖像-分割-圖像框架合成的真實環(huán)境交互,訓(xùn)練駕駛汽車強化學(xué)習(xí)算法。通過使用強化學(xué)習(xí)訓(xùn)練方法,我們可以得到一輛能置身于現(xiàn)實世界中的自動駕駛車輛。
5.參考文獻
[1]Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-imagetranslation with conditional adversarial networks. CoRR, abs/1611.07004, 2016.URL http://arxiv.org/abs/1611.07004.
[2]Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, AlexGraves, Timothy P. Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu.Asynchronous methods for deep reinforcement learning. CoRR, abs/1602.01783,2016. URL http: //arxiv.org/abs/1602.01783.
[3]Bernhard Wymann, Eric Espié, Christophe Guionneau, ChristosDimitrakakis, Rémi Coulom,and Andrew Sumner. Torcs, the open racing car simulator.Software available at http://torcs. sourceforge. net, 2000.
[4]Sully Chen. Autopilot-tensor?ow,2016. URL https://github.com/ SullyChen/Autopilot-TensorFlow.
[5] VijayBadrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutionalencoder-decoder architecture for image segmentation. arXiv preprintarXiv:1511.00561, 2015.
[6]MariusCordts,Mohamed Omran,Sebastian Ramos,Timo Rehfeld,Markus Enzweiler, RodrigoBenenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes datasetfor semantic urban scene understanding. CoRR, abs/1604.01685, 2016. URL http://arxiv.org/abs/1604.01685.
[7]Fereshteh Sadeghi and Sergey Levine. (cad)$?2$rl: Real single-image flightwithout a single real image. CoRR,abs/1611.04201, 2016. URL http://arxiv.org/abs/1611.04201.
-
自動駕駛
+關(guān)注
關(guān)注
784文章
13855瀏覽量
166582 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11266
原文標(biāo)題:自動駕駛中虛擬到現(xiàn)實的強化學(xué)習(xí)
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論