這篇文章最初發(fā)表在加州大學(xué)伯克利分校的BAIR博客(https://bair.berkeley.edu/blog/)上。
看上面的圖片。如果我讓你給我?guī)б粭l野餐毯到草地上,你能做到嗎?當(dāng)然了。那如果我讓你帶一輛裝滿食物的車來參加聚會,你會把車推到鋪好的小路上還是推到草地上?當(dāng)然是鋪好的路啦。
雖然這些問題的答案似乎顯而易見,但今天的移動機(jī)器人很可能會在這些任務(wù)上失敗:他們會認(rèn)為高高的草地就像水泥墻,不知道平坦的道路和崎嶇的草地有什么區(qū)別。這是因?yàn)榇蠖鄶?shù)移動機(jī)器人純粹是從幾何學(xué)的角度來思考:它們探測障礙物的位置,并圍繞這些感知到的障礙物規(guī)劃路徑,以達(dá)到目標(biāo)。這種純粹的幾何世界觀不足以解決許多導(dǎo)航問題 -- 光是幾何學(xué)是不夠的。
Photo: UC BerkeleyBADGR consists of a Clearpath Jackal mobile platform equipped with an NVIDIA Jetson TX2 computer, IMU, GPS, and wheel encoders. Forward-facing cameras, a 2D lidar, and a compass were added to the standard configuration.
我們能讓機(jī)器人直接從圖像中推理出導(dǎo)航信號嗎?為了探索這個問題,我們開發(fā)了一種機(jī)器人,它可以通過自己在現(xiàn)實(shí)世界中的經(jīng)驗(yàn),自主地學(xué)習(xí)環(huán)境的物理屬性,而無需任何模擬或人類的監(jiān)督。我們稱我們的機(jī)器人學(xué)習(xí)系統(tǒng)為BADGR:伯克利自主駕駛地面機(jī)器人(the Berkeley Autonomous Driving Ground Robot)。
BADGR通過以下方式工作:
1. 自主采集數(shù)據(jù)
2. 自動標(biāo)注數(shù)據(jù)并進(jìn)行自我監(jiān)控
3. 基于圖像的神經(jīng)網(wǎng)絡(luò)預(yù)測模型的訓(xùn)練
4. 利用預(yù)測模型對未來進(jìn)行規(guī)劃并執(zhí)行將引導(dǎo)機(jī)器人完成所需導(dǎo)航任務(wù)的操作
數(shù)據(jù)收集
Image: UC BerkeleyBADGR autonomously collecting data in off-road (left) and urban (right) environments.
BADGR需要大量多樣的數(shù)據(jù)才能成功地學(xué)習(xí)如何導(dǎo)航。機(jī)器人使用簡單的時間相關(guān)隨機(jī)行走控制器收集數(shù)據(jù)。當(dāng)機(jī)器人收集數(shù)據(jù)時,如果遇到碰撞或卡住,它會執(zhí)行一個簡單的重置控制器,然后繼續(xù)收集數(shù)據(jù)。
自監(jiān)督數(shù)據(jù)標(biāo)記
接下來,BADGR利用數(shù)據(jù)計算特定導(dǎo)航事件的標(biāo)簽,例如機(jī)器人的位置,以及機(jī)器人是否碰撞或在崎嶇不平的地形上行駛,然后將這些事件標(biāo)簽添加回數(shù)據(jù)集中。這些事件通過讓人編寫一小段代碼來標(biāo)記,這些代碼將原始傳感器數(shù)據(jù)映射到相應(yīng)的標(biāo)簽。例如,用于確定機(jī)器人是否在顛簸地形上的代碼片段將查看IMU傳感器,并在角速度幅值較大時將地形標(biāo)記為顛簸。
我們將這種標(biāo)記機(jī)制描述為自我監(jiān)督形式,因?yàn)楸M管一個人必須手動編寫此代碼段,但可以使用此代碼段標(biāo)記所有現(xiàn)有和將來的數(shù)據(jù),而無需任何額外的人工操作。
神經(jīng)網(wǎng)絡(luò)預(yù)測模型
Image: UC BerkeleyThe neural network predictive model at the core of BADGR.
然后BADGR利用這些數(shù)據(jù)訓(xùn)練一個深層神經(jīng)網(wǎng)絡(luò)預(yù)測模型。該神經(jīng)網(wǎng)絡(luò)將當(dāng)前攝像機(jī)圖像和未來計劃的動作序列作為輸入,并輸出對未來相關(guān)事件(如機(jī)器人是否會碰撞或在崎嶇不平的地形上行駛)的預(yù)測。訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測模型以盡可能準(zhǔn)確地預(yù)測這些未來事件。
規(guī)劃和導(dǎo)航
Image: UC BerkeleyBADGR predicting which actions lead to bumpy terrain (left) or collisions (right).
在部署B(yǎng)ADGR時,用戶首先定義一個獎勵函數(shù),該函數(shù)對他們希望機(jī)器人完成的特定任務(wù)進(jìn)行編碼。例如,獎勵功能可以鼓勵朝目標(biāo)駕駛,同時阻止碰撞或在崎嶇不平的地形上駕駛。然后,BADGR使用經(jīng)過訓(xùn)練的預(yù)測模型、當(dāng)前圖像觀察和獎勵函數(shù)來計劃使獎勵最大化的一系列動作。機(jī)器人執(zhí)行這個計劃中的第一個動作,BADGR繼續(xù)在計劃和執(zhí)行之間交替,直到任務(wù)完成。
在我們的實(shí)驗(yàn)中,我們研究了BADGR如何在加州大學(xué)伯克利分校(UC Berkeley)附近的一個大型場外設(shè)施中了解環(huán)境的物理屬性。我們將該方法與使用激光雷達(dá)規(guī)劃無碰撞路徑的基于幾何體的策略進(jìn)行了比較。(請注意,BADGR僅使用車載攝像頭。)
Image: UC BerkeleyBADGR successfully reaches the goal while avoiding collisions and bumpy terrain, while the geometry-based policy is unable to avoid bumpy terrain.
我們首先考慮的任務(wù)是,城市環(huán)境中,在避免碰撞和崎嶇地形的同時,達(dá)到目標(biāo)GPS位置。BADGR總是成功完成任務(wù),且避免顛簸的地形。注意,我們從未告訴過機(jī)器人在道路上行駛;BADGR從車載攝像機(jī)圖像中自動得知,在具體的道路上行駛比在草地上行駛更加平滑。
Image: UC BerkeleyBADGR successfully reaches the goal while avoiding collisions, while the geometry-based policy is unable to make progress because it falsely believes the grass is an untraversable obstacle.
?我們還考慮了在避免碰撞和被困在越野環(huán)境中的同時達(dá)到目標(biāo)GPS位置的任務(wù)。基于幾何學(xué)的方法幾乎從未發(fā)生崩潰或陷入草地,但有時會出現(xiàn)拒絕移動的情況 -- 因?yàn)樗徊莸匕鼑螅e誤將草地地標(biāo)記為不可規(guī)避的障礙。
BADGR幾乎總是通過避免碰撞和卡住來達(dá)到目標(biāo),而不是錯誤地預(yù)測所有的草都是障礙。這是因?yàn)锽ADGR從經(jīng)驗(yàn)中學(xué)到,大多數(shù)草實(shí)際上是可以穿越的。
Image: UC BerkeleyBADGR’s navigation capability improves as it gathers more data.
?除了能夠了解環(huán)境的物理屬性之外,BADGR的一個關(guān)鍵方面是它能夠在收集越來越多的數(shù)據(jù)時不斷地自我監(jiān)督和改進(jìn)模型。為了證明這種能力,我們進(jìn)行了一項(xiàng)對照研究,其中BADGR收集和訓(xùn)練來自一個區(qū)域的數(shù)據(jù),移動到一個新的目標(biāo)區(qū)域,在該區(qū)域?qū)Ш绞。谑占陀?xùn)練來自該區(qū)域的額外數(shù)據(jù)后,最終在目標(biāo)區(qū)域獲得了成功。
這個實(shí)驗(yàn)不僅證明了BADGR在收集更多的數(shù)據(jù)時可以改進(jìn),而且當(dāng)BADGR遇到一個新的環(huán)境時,以前收集的經(jīng)驗(yàn)實(shí)際上可以幫助其加速學(xué)習(xí)。隨著BADGR在越來越多的環(huán)境中自動收集數(shù)據(jù),在每個新的環(huán)境中成功地學(xué)習(xí)導(dǎo)航所需要的時間也越來越少。
我們還評估了BADGR在從森林到城市建筑等新環(huán)境中的導(dǎo)航能力。這一結(jié)果表明,如果BADGR能夠在足夠大和多樣的數(shù)據(jù)集上進(jìn)行收集和訓(xùn)練,它可以推廣到新的環(huán)境中使用。
BADGR背后的關(guān)鍵洞見是,通過直接從現(xiàn)實(shí)世界的經(jīng)驗(yàn)中自主學(xué)習(xí),BADGR可以學(xué)習(xí)導(dǎo)航功能,在收集更多數(shù)據(jù)時進(jìn)行改進(jìn),并進(jìn)行推廣。盡管我們相信BADGR是朝著全自動、自我改進(jìn)的導(dǎo)航系統(tǒng)邁出的有希望的一步,但仍然存在一些開放的問題:機(jī)器人如何在新環(huán)境中安全地收集數(shù)據(jù),或如何在新數(shù)據(jù)流進(jìn)入時適應(yīng),或如何應(yīng)對非靜態(tài)環(huán)境,如人類走動呢?
我們認(rèn)為,解決這些和其他挑戰(zhàn)對于使機(jī)器人學(xué)習(xí)平臺能夠在現(xiàn)實(shí)世界中學(xué)習(xí)和行動至關(guān)重要。
Gregory Kahn是加州大學(xué)伯克利分校BAIR(Berkeley AI Research)實(shí)驗(yàn)室的博士生,師從Sergey Levine教授和Pieter Abbeel教授。他的主要研究目標(biāo)是開發(fā)能夠讓機(jī)器人在現(xiàn)實(shí)世界中操作的算法。他目前的研究是針對移動機(jī)器人的深度強(qiáng)化學(xué)習(xí)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100897 -
移動機(jī)器人
+關(guān)注
關(guān)注
2文章
763瀏覽量
33585 -
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238958
原文標(biāo)題:加州大學(xué)伯克利分校研發(fā)人工智能機(jī)器人BADGR 可自行規(guī)劃和穿越無障礙路徑
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論