近日,眾多全球頂級機(jī)器人學(xué)研究人員帶著他們的前沿成果,亮相ICRA 2019。麻省理工學(xué)院、紐約大學(xué)和賓夕法尼亞大學(xué)等NVAIL(NVIDIA AI實(shí)驗(yàn)室)合作伙伴也參與其中,展示其各自的研究成果——基于NVIDIA平臺(tái)進(jìn)行實(shí)時(shí)推理。
麻省理工學(xué)院——變分端到端導(dǎo)航和本地化
作者稱,這篇論文靈感來自于人類駕駛員所具有的三個(gè)主要特征:(1)在陌生路況中的駕駛能力;(2)在環(huán)境中本地化的能力;以及(3)當(dāng)所感知的內(nèi)容與地圖所示不一致時(shí)的推理能力。
人類可以從地圖中了解潛在的道路拓?fù)洌⑼ㄟ^基于環(huán)境信息的視覺輸入來定位。因此,當(dāng)人們的視覺感知與從定位傳感器觀察到的信息不一致時(shí),人們可以做出決策。
受人類能力的啟發(fā),作者著手開發(fā)一種深度學(xué)習(xí)系統(tǒng),使自動(dòng)駕駛汽車能夠?qū)W習(xí)如何使用端到端自動(dòng)駕駛系統(tǒng)來導(dǎo)航信息。導(dǎo)航信息采用路由和未路由地圖的形式,與原始傳感數(shù)據(jù)一起使用,以便在復(fù)雜的駕駛環(huán)境中進(jìn)行導(dǎo)航和定位,如下圖所示:
該算法從前方、右方和左方的三個(gè)攝像頭拍攝到的圖像,以及無路由的地圖圖像中獲取輸入補(bǔ)丁。這些圖像被反饋到并行卷積管道,然后合并成完全連接的層,因此該層用于學(xué)習(xí)高斯混合模型(GMM)而不是轉(zhuǎn)向控制。當(dāng)可用時(shí),路由地圖被反饋到單獨(dú)的卷積管道中,并與中間完全連接的層合并,以學(xué)習(xí)用于導(dǎo)航的確定性控制信號。
作者表示,他們的算法能夠在不同復(fù)雜程度的環(huán)境中輸出控制,包括直線道路行駛、交叉口以及環(huán)形交叉口。該算法被證明可以在車輛遇到未經(jīng)訓(xùn)練的新道路和交叉路口時(shí)發(fā)揮作用。
作者還表明,基于GMM的概率控制輸出可用于定位車輛,從而減少姿勢不確定性并增加其定位置信度。他們首先利用從GPS中獲得的姿勢進(jìn)行計(jì)算,然后基于該計(jì)算結(jié)果以及額外的不確定性,計(jì)算該姿勢的后驗(yàn)概率。根據(jù)作者得出結(jié)論,如果后驗(yàn)分布的不確定性低于先前分布中的不確定性,則該模型能夠增加其定位的置信度。這種預(yù)測姿勢和降低不確定性的能力,讓車輛即使在完全失去GPS信號的情況下也能獲得更精確的定位。
該算法在NVIDIA V100 GPU上進(jìn)行訓(xùn)練,訓(xùn)練一個(gè)模型需要3小時(shí)。推理則是在安裝于配備了線控驅(qū)動(dòng)功能的Toyota Prius中的DRIVE PX2上實(shí)時(shí)進(jìn)行的。算法在ROS中實(shí)現(xiàn),并利用NVIDIA DriveWorks SDK與車輛傳感器連接。
未來,作者計(jì)劃以多種方式推動(dòng)自主化的界限。示例包括讓車輛行駛在更多未經(jīng)明確訓(xùn)練的情況下,理解傳感器或模型何時(shí)失效,以及發(fā)現(xiàn)人何時(shí)應(yīng)該幫助或接管控制。
麻省理工學(xué)院是ICRA 2019年度最佳會(huì)議論文獎(jiǎng)的三名候選人之一。有關(guān)本文的概述,您可以查看此視頻。
紐約大學(xué)——用于自動(dòng)駕駛高效推理的可重構(gòu)網(wǎng)絡(luò)
由于配備大量傳感器,自動(dòng)駕駛車輛會(huì)收集到海量的數(shù)據(jù),處理這些數(shù)據(jù)需要大量的計(jì)算并訓(xùn)練一個(gè)大型網(wǎng)絡(luò)。為了應(yīng)對這一挑戰(zhàn),作者引入了一個(gè)可重構(gòu)網(wǎng)絡(luò),可以在線預(yù)測,在既定的時(shí)間內(nèi),哪個(gè)傳感器會(huì)提供最相關(guān)的數(shù)據(jù)。這種方法依賴于直覺,即在特定時(shí)刻只收集一小部分具有相關(guān)性的數(shù)據(jù)。
可重構(gòu)網(wǎng)絡(luò)包括門控網(wǎng)絡(luò),該門控網(wǎng)絡(luò)基于將學(xué)習(xí)劃分為子任務(wù)的概念,每個(gè)子任務(wù)由一位專家(expert)執(zhí)行。門控網(wǎng)絡(luò)決定在給定時(shí)間點(diǎn)使用哪個(gè)專家,這意味著算法將決定使用哪個(gè)傳感器收集數(shù)據(jù)。進(jìn)而,門控網(wǎng)絡(luò)為避免大量計(jì)算成本提供了一種方法。
作者分三個(gè)步驟訓(xùn)練可重構(gòu)網(wǎng)絡(luò)。首先,專家組件被訓(xùn)練為傳感器融合網(wǎng)絡(luò),門控網(wǎng)絡(luò)把它們作為特征提取器,用于選擇最相關(guān)傳感器。其次,創(chuàng)建一個(gè)單獨(dú)但小得多的門控網(wǎng)絡(luò),以模擬第一門控網(wǎng)絡(luò)的行為,并在訓(xùn)練期間在門控網(wǎng)絡(luò)的輸出上實(shí)施稀疏性,以使其僅在任何給定時(shí)刻只選擇一個(gè)專家。第三,通過微調(diào)專家和完全連接的層來訓(xùn)練可重構(gòu)網(wǎng)絡(luò),同時(shí)參考了前一步驟中估計(jì)的門控網(wǎng)絡(luò)的權(quán)重。
研究人員訓(xùn)練了兩個(gè)版本的可重構(gòu)網(wǎng)絡(luò),如下圖所示。請注意,Reconf_Select所需的計(jì)算較少,因?yàn)樗褂弥瘘c(diǎn)求和來代替級聯(lián),從而將來自專家的特征向量進(jìn)行合并。
可重構(gòu)網(wǎng)絡(luò)的兩種架構(gòu):Reconf_Concat (上方) 和Reconf_Select (下方)
使用NVIDIA GeForce GTX 1080 GPU在70,000個(gè)場景上對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,大約需要6個(gè)小時(shí)。該網(wǎng)絡(luò)在5,738個(gè)測試場景上進(jìn)行了評估,使用相同的GPU進(jìn)行推理,基于一張圖像只需要1秒。從定量分析來看,如測試損失所證明,從同一攝像頭選擇輸入的兩個(gè)網(wǎng)絡(luò)版本,可實(shí)現(xiàn)與使用來自所有攝像頭的輸入相同的性能,同時(shí)減少三倍的FLOPS計(jì)算。
對于車輛測試的實(shí)時(shí)性,作者在Traxxas X-Maxx遙控卡車上安裝了NVIDIA Jetson TX1和三臺(tái)Logitech HD Pro攝像頭。網(wǎng)絡(luò)必須選擇三個(gè)攝像頭中的一個(gè),來收集室內(nèi)環(huán)境的圖像,以用于實(shí)時(shí)轉(zhuǎn)向命令估計(jì)。該算法的在線處理能力超過20幀/秒。
賓夕法尼亞大學(xué)——用于移動(dòng)機(jī)器人的集成傳感和計(jì)算系統(tǒng)
此前,賓夕法尼亞大學(xué)在Open Vision Computer (OVC)上發(fā)表了一篇論文。OVC是一個(gè)開源計(jì)算平臺(tái),支持高速、視覺引導(dǎo)、GPS拒止和輕量級自主飛行機(jī)器人。OVC是與開源機(jī)器人基金會(huì)合作開發(fā)的,它將傳感器和計(jì)算元素集成到一個(gè)軟件包中。OVC旨在支持一系列計(jì)算機(jī)視覺算法,包括視覺慣性測距和立體聲,以及包括路徑規(guī)劃和控制在內(nèi)的自主學(xué)習(xí)相關(guān)算法。
OVC的第一個(gè)版本OVC1包含通過PCIe總線連接到計(jì)算模塊的傳感器子系統(tǒng)。傳感器子系統(tǒng)包括一對CMOS圖像傳感器和慣性測量單元(IMU)。計(jì)算模塊是NVIDIA Jetson TX2,專為計(jì)算密集型嵌入式應(yīng)用而設(shè)計(jì),PCIe總線為TX2的統(tǒng)一CPU和GPU內(nèi)存系統(tǒng)提供直接、高速的接口。
在圖像以原始圖像從傳感器傳輸?shù)紺PU和GPU的一瞬間,系統(tǒng)就可以提取特征。作者表示,該系統(tǒng)還能夠處理基于深度學(xué)習(xí)的應(yīng)用,如用于目標(biāo)檢測的單發(fā)多盒檢測器(SSD512)和用于語義分割的ERFNet架構(gòu)的變體。
搭載TX2模塊的OVC1重量不到200克,總功耗低于20瓦。隨后,OVC1被安裝在重達(dá)1.3千克的Falcon 250自主飛行機(jī)器人上。該系統(tǒng)能夠成功地穿越數(shù)百米,避開包括樹木和建筑物在內(nèi)的障礙物,并返回其起始位置,無需GPS信號并基于最小指令。 Falcon 250上的OVC1如下圖所示。
Falcon 250自主飛行機(jī)器人,配備第一版Open Vision Computer的OVC1
作者還提出了OVC的第二種設(shè)計(jì)OVC2,旨在縮小外形尺寸并提高性能,如下圖所示。OVC2基于TX2,但作者正在考慮使用比TX2性能更優(yōu)的Jetson Xavier。
基于NVIDIA Jetson TX2的第二版Open Vision Computer OVC2
賓夕法尼亞大學(xué)還發(fā)表了另一篇論文,展示了一種實(shí)時(shí)立體深度估計(jì)和稀疏深度融合算法,該算法在OVC1上進(jìn)行處理,并且可實(shí)現(xiàn)GPU加速。該算法可將從激光雷達(dá)傳感器或測距相機(jī)獲得的稀疏深度信息引入立體深度估計(jì),其基于Middlebury 2014和KITTI 2015基準(zhǔn)數(shù)據(jù)集所表現(xiàn)出的性能優(yōu)于現(xiàn)有技術(shù)水平。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238255 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13784瀏覽量
166388
原文標(biāo)題:NVAIL合作伙伴攜最新機(jī)器人研究成果亮相ICRA 2019
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論