編者按:Gibson是一個基于現(xiàn)實世界的虛擬環(huán)境,以支持感知學習,與游戲或人工環(huán)境不同。Gibson能讓算法同時探索感知和運動。
Gibson環(huán)境的名稱來源于Ecological Approach to Visual Perception一書的作者James J. Gibson,他曾說過:“我們必須為了移動進行感知,但同時也要為了感知而移動。”
摘要
為活動的智能體創(chuàng)建視覺感知模型并進行感覺運動控制是非常困難的,因為目前的算法較慢,無法進行高效的實時學習,而機器人成本較高,也很脆弱。這就催生了“在模擬中學習”的方法,隨之而來的問題是,結(jié)果能否轉(zhuǎn)移到現(xiàn)實世界。在這篇論文中,我們研究了在活動的智能體上對現(xiàn)實世界進行感知,并提出了Gibson虛擬環(huán)境,展示了從中學到的樣本感知任務(wù)。
詳細介紹
理想的機器人智能體需要具備復(fù)合的感知和物理能力,例如可以自動檢查建筑物的無人機、在受災(zāi)區(qū)域迅速定位受害者的機器人或者可以安全運輸包裹的機器人等等。除了應(yīng)用角度,在視覺感知和物理運動之間建立密切的聯(lián)系在很多領(lǐng)域都是很流行的:進化和計算機科學生物學家們曾假設(shè),要想在復(fù)雜的行為和智能體種類中結(jié)合感知和運動,就需要一個關(guān)鍵的角色;神經(jīng)科學家們認為在發(fā)展感知和保持活躍之間需要一個聯(lián)合的關(guān)系;機器人專家們也認為兩種功能應(yīng)該有類似的關(guān)系。這都需要發(fā)展能夠感知的模型,尤其是具有活動的智能體的模型。
通常,我們提到的智能體可以從外界環(huán)境中接收到視覺,也能相應(yīng)地實現(xiàn)一系列動作,可以導致環(huán)境中出現(xiàn)實質(zhì)性的改變,或者智能體本身做出某些改變。那么應(yīng)該如何、在哪里創(chuàng)建這樣的智能體呢?
首先,關(guān)于如何建造的問題,已經(jīng)有很多相關(guān)研究了,從經(jīng)典的控制問題,到最近的感知運動控制、強化學習、預(yù)測運動、模仿學習等等。這些方法通常假設(shè)給定從環(huán)境中觀察到的物體,之后制定一個或一系列動作來完成任務(wù)。
另一個關(guān)鍵問題,也就是傳感器得到的觀察從何而來。傳統(tǒng)的計算機視覺數(shù)據(jù)集是被動而且靜止的,雖然說從現(xiàn)實中學習是可能的,但這并不是理想場景,因為其中的學習速率必須是實時的,如果發(fā)生大規(guī)模并行,則會增加計算成本。機器人又很脆弱,這就導致了“在模擬中學習”的大規(guī)模出現(xiàn)。首要問題在于,如何自然地從對現(xiàn)實世界的模擬中進行泛化,如何保證:
模擬環(huán)境的語義復(fù)雜性精確地反映了現(xiàn)實世界;
經(jīng)過渲染的視覺觀察和照相機捕捉到的影響相近(寫實)。
為了解決這一方法,我們提出了Gibson,一種為了訓練和測試智能體對真實世界理解的虛擬環(huán)境。
Gibson組成
Gibson的主要目標是幫助在現(xiàn)實環(huán)境中訓練的模型完成遷移,這一過程分為兩步。首先,在現(xiàn)實環(huán)境中表現(xiàn)自己的語義復(fù)雜性,并根據(jù)掃描過的真是場景構(gòu)造環(huán)境,而不是根據(jù)人工渲染的環(huán)境創(chuàng)建。之后,嵌入一個機制,解決Gibson的渲染和真實相機之間的差異。
最后,智能體無法分辨Gibson渲染的成果和相機拍出的照片,于是二者之間感知上的差異就減少了許多。這是由于使用了基于渲染方法的神經(jīng)網(wǎng)絡(luò)的結(jié)果,使渲染出來的圖片看上去更像真實照片,同時另一個網(wǎng)絡(luò)還能將真實圖像變得更像渲染出的結(jié)果。兩個函數(shù)被訓練成能產(chǎn)生相同的輸出,所以可以連接兩個區(qū)域。
Gibson的結(jié)構(gòu)包括一個基于視覺合成的神經(jīng)網(wǎng)絡(luò),還有一個物理引擎。視覺合成系統(tǒng)的組成如圖所示:
它由一個幾何點云渲染器和神經(jīng)網(wǎng)絡(luò)組成,可以修正偽影,填補未被覆蓋的區(qū)域。
3D輸入和幾何渲染有很多不完美的地方,而且用神經(jīng)網(wǎng)絡(luò)得到照片一樣真實的結(jié)果似乎也不可能。所以這里和真實照片之間存在著巨大的差異。于是,我們將渲染問題看作是構(gòu)建一個公共空間,保證真實圖片和渲染圖片之間是對應(yīng)的。
實驗結(jié)果
Gibson所用數(shù)據(jù)集來自多種掃描設(shè)備,包括NavVis、Matterport或者DotProduct,涵蓋了多種不同的空間,例如辦公室、車庫、劇院、便利店、健身房、醫(yī)院等等。所有空間都完全用3D重建,并且經(jīng)過了后處理。我們對Gibson進行了基準測試,與現(xiàn)有的合成數(shù)據(jù)集進行了比較,具體參數(shù)如下表:
SSA表示特殊表面區(qū)域,是用來表示模型混亂的尺度。接著,我們對比了模型對樣本的渲染效果:
從上到下依次是未經(jīng)神經(jīng)網(wǎng)絡(luò)修正的圖片、經(jīng)過神經(jīng)網(wǎng)絡(luò)修正的圖片、Goggles看到的真實圖片、目標圖片
遷移到真實環(huán)境
下圖4×4的矩陣表示了從Gibson遷移到真實場景的評估分數(shù),(a)表示所有訓練測試結(jié)合的深度估算錯誤;(b)(c)表示MMD和CORAL分布的距離。
任務(wù)解決策略
同時經(jīng)過訓練,模型可以根據(jù)獎勵設(shè)計解決任務(wù)的策略:
路線規(guī)劃及避障
遠距離導航
結(jié)語
雖然Gibson環(huán)境能讓運動中的智能體對現(xiàn)實世界有良好的感知,但其中仍有一些缺陷。首先,盡管Gibson可以學習復(fù)雜的導航和移動,但是目前它無法做出其他動態(tài)動作,也不能進行操控。這可以通過與合成物體結(jié)合解決。另外,我們并沒有考慮所有的材料特點,而且目前也沒有最理想的物理模擬器,這可能會導致物理之間的差距。最后,我們基本上是在靜態(tài)任務(wù)中進行遷移,未來這一模型還是要應(yīng)用在真實的機器人上。
-
機器人
+關(guān)注
關(guān)注
211文章
28491瀏覽量
207448 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46030 -
智能體
+關(guān)注
關(guān)注
1文章
154瀏覽量
10593
原文標題:斯坦福提出Gibson環(huán)境,讓智能體感知現(xiàn)實空間
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論