亚洲精品久久午夜香蕉,永久免费毛片在线播放,亚洲乱亚洲23p女

本文介紹了自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法

單目圖像估計3-D檢測框是目前自動駕駛研發流行的，單純的2-D檢測框無法在3-D空間去做規劃控制，去年百度Apollo發布2.5版本特意提到這方面的解決方案。

這里分析一下公開發表的有關論文，特別是近期的深度學習CNN框架，供參考。

其實最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授給的PPT demo（沒有paper了）：

結果Tesla和Nvidia全都這么干了，潮流：）。

注：關于單目鏡頭估計物體的姿態有不少論文，也是跟這個課題相關的，一些深度學習的方法也不錯，不過不是本文的重點，在此不做重復介紹。

3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images，9，2018

來自UC San Diego的論文。簡單講，該方法提出估計center of bottom face of 3D bounding box (CBF) 來解決2-D圖像得到3-D邊框的問題，為加速也采用了LUT。同時估計的還有物體的大小尺寸以及姿態。

下圖解釋了他們采用key point預測的方法而不是傳統2-D邊框底邊中心去推理3-D的位置。

這是他們的3-D邊框估計的算法結構：

3D Bounding Box Estimation Using Deep Learning and Geometry，CVPR，2017

該文也是百度Apollo引用的方法：

首先估計物體3-D朝向，然后回歸物體尺寸和3-D中心，最后得到物體的整個姿態和位置。這是2-D和3-D邊框的對應關系圖：

論文提出一種MultiBin方法求解物體朝向（相鄰bin之間可以重疊一部分），CNN模型如下圖：

朝向的局部和全局的關系如下所示：

總之，該方法利用了幾何約束從2-D邊框來估計3-D邊框，其中朝向估計很關鍵。一些結果見下圖：

Joint Monocular 3D Vehicle Detection and Tracking， 11，2018

該方法是對上面工作的推廣，增加了跟蹤模塊，提高了穩定性。

這是算法的流程圖：在RPN預測3-D中心的2-D投影位置，其中采用ROIalign而不是ROIpool減小了misalignment。每個求解3-D邊框的ROI包括以下幾項：2d Bbox, 3d box 中心投影, confidence score 和對應特征向量。

其他跟蹤部分就不重點提了，下圖是一些結果展示：

下圖解釋了2-D邊框中心和3-D邊框中心的不同：

Orthographic Feature Transform for Monocular 3D Object Detection，11，2018

本文提出一個orthographic feature transform（OFT）用于解決2-D圖像推理物體3-D邊框的問題，原理如下圖：

在一個深度學習框架下，該模塊可以把圖像特征圖映射到正交鳥瞰圖，如下圖所示，輸入到一個top down network進行推理。

結果就不討論了，細節在論文里。

Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018

這是去年CVPR‘18的論文，下面是算法結構: 采用兩步法，加了一個估計深度圖的模型，結果送入RPN模塊，比較奢侈的做法，后面還將視差圖轉換成點云，進入detection模塊。

這是他們展示的結果：

看來大家對單目估計深度圖/視差圖很有信心。

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018

微軟的一篇論文，下圖是算法框圖：提出instance depth estimation (IDE)，不是圖像的深度圖，可以直接估計物體3-D邊框的深度，還是采用ROIalign取代ROIpool；包括4個模塊，即2d detection(棕色), instance depth estimation(綠色), 3d location estimation(藍色) 和 local corner regression(黃色)。

這是估計Instance depth的模型結構：

這個示意圖告訴我們3-D邊框的圖像定位關系：

Instance depth的概念的解釋如下圖，的確是比較節儉的做法：

一些結果展示：

Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019

Face++和UCLA的最新論文，算法框圖見下圖：該方法不光用了深度估計，還借用了路面假設作為約束；另外，采用morphable wireframe model，不過為避免landmark敏感，對3-D邊框做了模糊表示；除此之外，還有一個模塊叫3D-2D consistency。

這是3D-2D consistency的框圖介紹：包括幾個部分 2D Bounding box，2D Landmark，3D Orientation 和 scale hypotheses。

感覺還是比較奢侈的做法。

CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018

從2-D邊框和消失點產生3-D cuboid proposals，隨后在單目視覺SLAM框架中優化，如下圖：

這是產生Proposals的方法：根據可視的面數目將Cuboids分成3類

下面是SLAM框架：在ORB SLAM基礎上改進，加入物體信息。

特征點的相關性處理方法采用物體點為先，景物點為后，如圖：綠色點是map上的，其他顏色的點屬于物體。

一些結果展示：

BoxCars: Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance，CVPR，2016

3D 物體邊框是從監控視頻（比車載視頻容易些）的2-D邊框得到的，如圖所示：利用了輪廓信息和姿態信息。

其實它的方法是把3-D邊框各個面拆開，如圖：然后輸入到CNN模型推理3-D信息。

這個CNN模型用來估計沿著消失點的方向：

結果是這樣的：

Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis)，2017

一個博士論文。采用FCN模型訓練得到2-D和3-D邊框，如圖：定義3-D邊框的3個方向，即front-bottom, left-bottom, front-left。

3D邊框定義如下：8個角點，6個面。

也是路面假設，這是得到3-D邊框的關鍵，下面是圖像逆投影公式：

根據逆投影和路面假設，可以先得到3-D邊框在路面的位置。下圖是3-D邊框投影到路面的效果：平行四邊形，然后被推理出實際3D邊框底部的正方形。

加上估計的物體高度，就得到3-D邊框。首先，先估算路面，算法如下：

利用前面提到的，bottom-left line 作為frontal plane 的法向量，然后用front-bottom-left 的點計算front plane；找到frontal plane 和逆投影的交點即得到頂點位置，這樣高度就得到了。

一些結果展示：包括頂視圖

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image，CVPR，2017

MANTA是Many-Tasks的意思。完全通過CNN模型估計多個信息，如圖展示的結果：檢測, 部件定位, 可視性和3D尺寸大小。

車輛模型的定義：wireframe模型比較復雜，不過能推理出遮擋的部件。

定義的車輛模版如圖：這是一個半自動的標注工程。

MANTA的系統框圖：CNN模型，region proposal network為先，之后修正兩次，分別是proposal改進和2-D邊框估計，最后NMS優化和3-D邊框估計。

Monocular 3D Object Detection for Autonomous Driving，CVPR，2016

比較有開拓性的CNN模型做3-D檢測的工作。如圖介紹系統如何產生3-D邊框的proposal：仍然有路面假設，有各種信息，包括分割，2D邊框，上下文，形狀，位置等等。

采用的CNN模型結構對3-D邊框的proposal打分：

打分的公式是：包括什么提到的各種信息term

結果展示：

Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes，CVPR，2015

NEC Lab早些的工作，給出的系統框圖如下：將SFM和檢測結合起來。

3-D定位物體是有假設路面的前提，首先看坐標系的定義如下圖：

而2-D邊框的底部可以通過路面假設反投到3-D空間：

下圖是物體的SFM部分：

整個定位輸出如圖這樣：其中右下角頂視圖有激光雷達ground truth顯示為紅色。

Are Cars Just 3D Boxes? – Jointly Estimating the 3D Shape of Multiple Objects，CVPR，2014

也比較舊的論文，下圖展示該系統通過shape modeling得到更精確的3-D定位：

根據路面假設和occlusion mask的3-D景物模型：

產生Scene particles，然后推理最后的deformable shapes，如圖算法：

一些結果如圖：

Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes，CVPR，2012

更早的論文，系統示意圖如下：有路面假設的景物模型，有遮擋推理模型，有跟蹤，有分割；HMM做跟蹤算法，MCMC方法做推理。

下圖是路面假設下的車載坐標系和世界坐標系的關系：

這里介紹的是車載攝像頭的旋轉：

目標距離的估計類似Mobileye，如圖：

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

攝像頭

攝像頭

+關注

關注
60

文章
4851

瀏覽量
95890
自動駕駛

自動駕駛

+關注

關注
784

文章
13856

瀏覽量
166590
深度學習

深度學習

+關注

關注
73

文章
5507

瀏覽量
121272

原文標題：自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法一覽

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關注！文章轉載請注明出處。

FPGA在自動駕駛領域有哪些應用？

是FPGA在自動駕駛領域的主要應用：一、感知算法加速圖像處理：自動駕駛中需要通過攝像頭獲取并識別道路信息和行駛環境，這涉及到大量的圖像處理任務。FPGA在處理圖像上的運算速度快，可

發表于 07-29 17:09

自動駕駛真的會來嗎？

高速路段，其無法自動識別停車等路標。所以只有當圖像識別、判斷，信息的分析、學習，得到深入發展，才可能真正解決自動駕駛面臨的難題?！　×硗庠谟布用?，圖像采集也是難關。無論是各類攝像頭還是傳感器，其都是一

發表于 07-21 09:00

單目攝像頭和FPGA的ADAS產品原型系統

`1月5日-8日拉斯維加斯消費電子展（CES）上，地平線機器人（以下簡稱“地平線”）將與英特爾聯合展示一款基于單目攝像頭和FPGA的ADAS產品原型系統。車輛檢測結果該原型由英特爾和地

發表于 01-06 18:09

淺析自動駕駛發展趨勢，激光雷達是未來？

，將毫米波雷達、攝像頭、激光雷達等傳感器數據融合的技術，對于保證車輛對周邊環境的全局定位和理解是至關重要的，且為Level 3-Level 5級自動駕駛方案的實現提供了必要的技術儲備。在環境感知

發表于 09-06 11:36

ADAS視覺傳感技術，為朝向自動駕駛趨勢發展做好準備

來監測道路以及危險狀況，甚至有時輔助駕駛者來自動剎車，從而避免撞車。因此，自動緊急剎車系統在新汽車中日益普及。駕駛者監控是汽車技術中的最新應

發表于 06-02 08:00

為何自動駕駛需要5G？

嗎？由于易受雨、雪、霧、強光等環境影響，攝像頭能始終準確識別指示牌和紅綠燈嗎？再舉一個例子。當自動駕駛在高速路上以130公里/小時行駛時，攝像機/雷達融合無法安全地檢測到前方超過120

發表于 06-08 07:00

自動駕駛這些年經歷了什么？

自動駕駛汽車通過攝像頭、雷達和激光雷達等傳感器來感知世界。類似雷達，激光雷達，使用不可見的光脈沖來繪制周圍區域的高精度3D地圖。攝像頭、雷達和激光雷達三者是相輔相成的關系。

發表于 08-04 07:27

請問攝像頭、雷達和LIDAR哪個更適合自動駕駛汽車？

攝像頭、雷達和LIDAR，自動駕駛汽車選擇誰？

發表于 11-23 12:32

本田ADAS采用博世單目攝像頭，大幅增強行人檢測能力

本田通過轉用博世單目攝像頭，大大地提升了汽車白天檢測行人的能力，此功能正是高級駕駛員輔助系統的主要功能之一。

發表于 07-09 18:34 ?9005次閱讀

StradVision發布最新自動駕駛攝像頭技術

日前，軟件供應商StradVision發布了高級自動駕駛攝像頭技術。公司透露，他們已經開發完成了基于攝像頭的SVNet軟件，這個軟件可以運行在自動駕駛汽車的芯片組上，從而使

發表于 07-31 14:47 ?1297次閱讀

人臉識別中雙目、單目、3D結構光攝像頭的區別

邁迪杰科技提供的rk3288人臉識別模組可支持雙目攝像頭和3D結構光攝像頭，在客戶咨詢中經常有被問到雙目的為什么會比單目的成本高，區別在哪里，他們的適用于哪些場景呢? 在此就為大家詳細

發表于 06-18 14:38 ?3w次閱讀

Mobileye公布最新自動駕駛方案

自動駕駛用攝像頭，包括前向6個，后向1個。與EyeQ4最大不同之處在于三目攝像頭被雙目取代了，三目攝像頭

發表于 10-12 11:40 ?4039次閱讀

人臉識別中雙目、單目、3D結構光攝像頭之間的區別

聯智通達提供的rk3288人臉識別模組可支持雙目攝像頭和3D結構光攝像頭，在客戶咨詢中經常有被問到雙目的為什么會比單目的成本高，區別在哪里，他們的適用于哪些場景呢? 在此，聯智通達技術

發表于 02-26 14:32 ?1.1w次閱讀

激光雷達、單目攝像頭、雙目攝像頭原理和優缺點

激光雷達、單目攝像頭、雙目攝像頭原理和優缺點激光雷達是目前定位選擇的主流傳感器，帶自主導航的室內掃地機的商用產品，一般都會配備激光雷達。在自動駕駛

發表于 03-26 15:58 ?1.5w次閱讀

自動駕駛-毫米波雷達與攝像頭.zip

自動駕駛-毫米波雷達與攝像頭

發表于 01-13 09:07 ?10次下載

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法

評論