數據集是機器學習算法的命脈——從某種意義上講,數據集對于自動駕駛等人工智能應用領域,最重要的是它們的質量最高。同時,數據集也衍生出自動駕駛行業(yè)新的商業(yè)模式。
nuTonomy今天發(fā)布了一個名為nuScenes的自動駕駛數據集,它聲稱其規(guī)模和精確度超過了KITTI、百度的ApolloScape和Udacity自動駕駛汽車數據集等公共數據集。
數據集下載鏈接:
https://d3u7q4379vrm7e.cloudfront.net/download
Scale為nuScenes提供了數據注釋,公司首席執(zhí)行官表示,這是有史以來發(fā)布的最健壯的開放源碼,基于多傳感器自動駕駛數據集。
NuTonomy編輯了1000多個場景,其中包含140萬幅圖像、40萬次激光雷達掃描(判斷物體之間距離)和110萬個三維邊界框(用RGB相機、雷達和激光雷達組合檢測的物體)。
它們已經通過Scale的傳感器融合注釋API進行了細致的標簽,該API利用人工智能和人類團隊進行數據注釋,并且從本周開始面向行業(yè)開源。
近年來,越來越多的公司在加入這個行列。比如,早些時候全球紅外系統(tǒng)供應商Flir發(fā)布了基于熱成像儀拍攝的1萬多張帶標注圖片。Mapillary公司發(fā)布了25000張街道級別的圖像,以及加州大學伯克利分校上傳了10萬張基于RGB相機拍攝的視頻序列。
之所以被稱之為比之前其他公司和機構發(fā)布的數據集更為全面,是因為此次數據搜集使用了6個攝像頭、1個激光雷達、 5個毫米波雷達、GPS及慣導系統(tǒng),包括對于自動駕駛系統(tǒng)有挑戰(zhàn)性的復雜道路、天氣條件等。
車輛傳感器設置
使用兩輛具有相同傳感器布局的雷諾Zoe汽車在波士頓和新加坡開車,收集數據。有關傳感器的位置,請參閱上圖。傳感器發(fā)布數據如下:
1x旋轉激光雷達:
5倍長距離雷達傳感器:
相機方向和重疊請參閱下圖:
20Hz捕獲頻率
32個頻道
360°水平視場,+ 10°至-30°垂直視場
80m-100m范圍,可用返回70米,精度±2厘米
每秒高達~139百萬點
用于77GHz
13Hz捕獲頻率
使用調頻連續(xù)波在一個周期內獨立測量距離和速度
距離最遠250米
速度精度為±0.1 km / h
sa'n6x相機:
12Hz捕獲頻率
1 / 1.8英寸CMOS傳感器,1600x1200分辨率
Bayer8格式,每像素1字節(jié)編碼
1600x900 ROI從原始分辨率中裁剪,以減少處理和傳輸帶寬
曝光時間限制為最大20 ms的自動曝光
圖像被解壓縮為BGR格式并壓縮為JPEG
傳感器校準
要獲得高質量的多傳感器數據集,必須校準每個傳感器的外在和內在因素。根據表示相對于自我框架的外部坐標,即后車軸的中點。最相關的步驟如下所述:
LIDAR外在因素:
使用激光襯墊來精確測量激光雷達與自我框架的相對位置。
相機外在因素:
在相機和LIDAR傳感器前面放置一個立方體形狀的校準目標。校準目標由具有已知圖案的三個正交平面組成。在檢測到圖案后,我們通過對齊校準目標的平面來計算從相機到LIDAR的變換矩陣。給定上面計算的LIDAR到自我?guī)儞Q,然后可以計算相機到自我?guī)儞Q和所得到的外部參數。
雷達外在因素:
將雷達安裝在水平位置。然后通過在城市環(huán)境中駕駛來收集雷達測量值。在過濾移動物體的雷達返回后,校準偏航角,以最小化靜態(tài)物體的補償范圍速率。
相機內在校準:
使用具有一組已知模式的校準目標板來推斷相機的固有和失真參數。
傳感器同步
為了在激光雷達和攝像機之間實現良好的交叉模態(tài)數據對準,當頂部激光雷達掃過攝像機FOV的中心時,會觸發(fā)攝像機的曝光。圖像的時間戳是曝光觸發(fā)時間;并且LIDAR掃描的時間戳是實現當前LIDAR幀的完全旋轉的時間。鑒于相機的曝光時間幾乎是瞬時的,這種方法通常可以產生良好的數據對齊。請注意,攝像機以12Hz運行,而激光雷達以20Hz運行。12個相機曝光在20個LIDAR掃描中盡可能均勻地展開,因此并非所有LIDAR掃描都具有相應的相機幀。將攝像機的幀速率降低到12Hz有助于降低感知系統(tǒng)的計算,帶寬和存儲要求。
參與此次數據標注的Scale公司,自2016年成立以來,已經為包括Lyft、Voyage、通用汽車、Zoox和Embark在內的客戶標出了超過20億英里的行駛里程。
今年8月,Scale宣布了一輪1800萬美元融資,迄今該公司已籌集到2270萬美元,報告稱去年公司收入增長了15倍。
數據標注的對象通常有圖像、語音、文本、視頻、雷達等。圖像類主要針對視覺識別類公司,所要標注的圖像內容包括人像、建筑物、植物、道路、交通標志、車輛等,每項內容下面,又會根據不同的特征進行不同標簽的標注。
業(yè)內人士表示,一般而言,客戶會有自己的需求,公司依規(guī)而行。目前在國內,阿里巴巴、騰訊、百度等大型互聯(lián)網公司,擁有海量的數據標注需求,單個訂單量都是以億元為單位。如此大的訂單,基本都是分包給不同的數據標注公司進行處理,國內外還沒有一家公司能夠處理這樣大的訂單。
另外還有自動駕駛公司,以及視覺圖像處理的公司,也有著數據標注的強烈的需求,他們需要用標注后的數據來訓練人工智能,而人工智能的日趨成熟,是永無止境的。
業(yè)內人士透露,數據標注是一個簡單又困難的事情。簡單之處在于,確定了篩選規(guī)則以后,操作人員只需依規(guī)操作即可,沒有執(zhí)行上的難度,而困難之處在于,數據標注本質上是要獲得更準確,更精細化的數據結果,高質量的數據是業(yè)內急需的。
“在數據采集上,由原來的普通行車記錄儀的數據采集,到現在已有諸多公司開始使用特殊采集設備采集行車數據。在數據標注上,原來的2D標注到3D標注,再到語義分割,3D點云的標注需求,對數據的要求越來越專業(yè)”,龍貓數據CEO昝智表示,“我們也正不斷開發(fā)新的標注工具,適配自動駕駛行業(yè)的發(fā)展。”
昝智表示,未來至少10年內,各領域對AI數據的獲取需求只增不減。在發(fā)展的不同階段,龍貓數據也將不斷關注技術更新,適配新的需求。
而在在行業(yè)內特斯拉是第一家規(guī)模化采集數據的汽車制造商,他們很早就用自己的車輛來收集數據,為無人駕駛技術研發(fā)提供基礎數據。
由于沒有獲取車輛數據源的通道,目前有很多汽車廠商都在模仿特斯拉的做法,通過在自己公司生產的車輛上安裝采集設備,獲取車輛數據并回傳到平臺,這是一種最直接的方式,也是相對比較明智的做法。
目前,全球主流的自動駕駛測試數據集包括Cityscapes、Imagenet(ILSVRC)、COCO、PASCAL VOC、CIFAR、MNIST、KITTI、LFW等。
Cityscapes
Cityscapes是由奔馳與2015年推出的,提供無人駕駛環(huán)境下的圖像分割數據集。用于評估視覺算法在城區(qū)場景語義理解方面的性能。
Cityscapes包含50個城市不同場景、不同背景、不同季節(jié)的街景,提供5000張精細標注的圖像、20000張粗略標注的圖像、30類標注物體。用PASCAL VOC標準的 intersection-over-union(IoU)得分來對算法性能進行評價。
Cityscapes是目前公認的自動駕駛領域內最具權威性和專業(yè)性的圖像語義分割評測集之一,其關注真實場景下的城區(qū)道路環(huán)境理解,任務難度更高且更貼近于自動駕駛等熱門需求。
KITTI
KITTI是由德國卡爾斯魯厄理工學院和豐田芝加哥技術研究院于2012年聯(lián)合創(chuàng)辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。
KITTI用于評測3D目標(機動車、非機動車、行人等)檢測、3D 目標跟蹤、道路分割等計算機視覺技術在車載環(huán)境下的性能。
KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數據,每張圖像中多達15輛車和30個行人,還有各種程度的遮擋。
ILSVRC
ILSVRC也就是通常所說的Imagenet數據集,是美國斯坦福的計算機科學家李飛飛模擬人類的識別系統(tǒng)建立的。
它是目前深度學習圖像領域應用較多的一個數據集,關于圖像分類、定位、檢測等研究工作大多基于此數據集展開。Imagenet數據集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標注和圖像中物體位置的標注。
COCO
COCO(common objects Dataset)數據集,它由微軟贊助,除了基本的圖像的標注信息外,還有對圖像的語義文本描述,COCO數據集的特點是開源,這使得它在近三來在圖像分割語義理解領域取得了巨大的進展,Google的開源show and tell生成模型就是在此數據集上測試的。
PASCAL VOC
PASCAL VOC是視覺對象的分類識別和檢測的一個基準測試,提供了檢測算法和學習性能的標準圖像注釋數據集和標準的評估系統(tǒng)。
雖然它在2012年后便不再舉辦,但其數據集圖像質量好,標注完備,非常適合用來測試算法性能。
CIFAR
CIFAR(Canada Institude For Advanced Research)包括CIFAR 10和CIFAR 100兩個數據集,它們被標記為8000萬個微型圖像數據集的子集。
這些數據集是由Vinod Nair、Alex Krizhevsky和Geoffrey Hinton收集的。CIFAR對于圖像分類算法測試來說是一個非常不錯的中小規(guī)模數據集。
MNIST
MNIST(THE MNIST DATABASE of handwritten digits)號稱深度學習領域的“Hello World!”,是一個手寫的 數字數據集。當前主流深度學習框架幾乎無一例外將MNIST數據集的處理作為介紹及入門第一教程。
-
數據集
+關注
關注
4文章
1208瀏覽量
24689 -
自動駕駛
+關注
關注
784文章
13784瀏覽量
166399
原文標題:又多了一種數據集!nuTonomy發(fā)布自動駕駛數據集nuScenes
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論