深度解析自動駕駛中的BEV和SLAM技術

Birds-Eyes-View（BEV）：鳥瞰圖，這個詞本身沒什么特別意義，但在自動駕駛（Autonomous Driving，簡稱AD）領域逐漸普及后變成了這個行業內的一種術語。

Simultaneous Localization and Mapping（SLAM）：并發定位與地圖測繪，相對于BEV的另外一種感知技術。

Perception：感知，SLAM和BEV在AD領域里都是協助控制系統了解車輛周圍狀況的感知技術：知道自己在哪，有哪些障礙物，障礙物在自己的什么方位，距離多遠，哪些障礙物是靜態的那些是移動的，等等相關信息，便于隨后做出駕駛決策。

SLAM VS BEV：SLAM主要通過各種傳感器掃描周圍空間的物體結構，以3維數據來描述這些信息。BEV同樣通過傳感器掃描獲知周邊狀況，主要以2維數據來描述這些信息。從應用范圍來講，目前SLAM更為廣闊，在AD火起來之前主要應用在VR/AR等領域，BEV主要集中在AD行業里。從技術實現來看，SLAM偏向于傳統數學工具，包括各種幾何/概率論/圖論/群論相關的軟件包，而BEV基本上清一色的基于深度神經網絡DNN。兩者最好不要對立著看，很多情況下可以互補。

以下將側重于BEV的基礎介紹。

SLAM和BEV最基礎和核心的傳感器就是相機（Camera），所以兩者在計算過程中有大量的算力都被消耗在了圖像中信息提取/識別和變換計算。SLAM傾向于識別圖像中的特征（Feature）點，屬于特征信息里的低級信息，通過計算這些特征點在不同圖像幀上的位置來獲取場景結構以及相機自身的位姿（Position and Pose）。而BEV傾向于識別車輛/道路/行人/障礙物等等高級特征信息，這些是卷積網CNN和Transformer擅長的。

相機有兩個最基礎的數據：內參(Instrinsics)和外參(Extrinsics)，內參主要描述的是相機的CCD/CMOS感光片尺寸/分辨率以及光學鏡頭的系數，外參主要描述的是相機在世界坐標系下的擺放位置和朝向角度。

其中內參的常見矩陣是：

其中fx和fy分別表示光學鏡頭的橫向/縱向焦距長度（Focus），正常情況下焦距是不分橫縱向的，但因為CCD/CMOS感光片上的像素單元不夠正，如果這個像素是絕對的正方形，那么fx = fy，實際上很難做到，有微小的差異，導致光線經過鏡頭投射到感光片上后，橫縱坐標在單位距離上出現不等距的問題，所以相機模塊的廠家會測量這個差異并給出fx和fy來，當然開發者也可以利用標定(calibration）過程來測量這兩個值。

圖1

圖2

另外，在傳統的光學領域里，fx和fy的默認單位是毫米:mm，但在這個領域默認單位是像素：Pixel，導致很多有攝影經驗的人看到fx和fy的值都挺納悶，特別大，動不動就是大幾千，這數值都遠超業余天文望遠鏡了。為什么這里用像素？我們試著通過內參計算一下相機的FOV（Field of View，視場大小，通常以角度為單位）就明白了：

圖3

這里fy是縱向焦距，h是照片高度。因為h的單位是像素，所以fy也必須是像素，這樣才好便于計算機處理，所以fx和fy的單位就統一成了像素。其實都不用到計算機這步，CCD/CMOS感光片一般是要集成另外一塊芯片ISP(Image Signal Processor)的，這塊芯片內部就要把感光數據轉成數字化的圖片，這里就可以用像素單位了。

內參除了這個矩陣外還有一套畸變（Distortion）系數K，這個東西不詳細說了，正常的鏡頭成像后都是居中位置的變形小，四周變形大，一般通過標定(Calibration）獲得這個參數后，對照片做反畸變處理，恢復出一個相對“正常”的照片。SLAM算法里很強調這個反畸變的重要性，因為特征點在照片上的絕對位置直接關系到了定位和建圖的準確性，而大部分的BEV代碼里看不到這個反畸變處理，一方面是BEV注重物體級別的高級特征，像素級別的輕微偏移影響不大，另一方面是很多BEV項目都是為了寫論文，采用了類似nuScenes/Argoverse這類訓練數據，這些數據的畸變比較小而已，一旦你在自己的項目里用了奇怪的鏡頭還是老老實實得做反畸變預處理。

圖4

外參就簡單多了，一個偏移（Transform）系數加一個旋轉（Rotation）系數。

3維空間里表述旋轉的計算方式常見的有2種：矩陣(Matrix)和四元數（Quaternion），為了防止矩陣方式存在萬向節死鎖（Gimbal Lock）問題，通常采用四元數來計算旋轉。但在AD領域里很少這么干，因為相機是固定在車子上，只有垂直于地面的軸（一般是Z軸）才會發生360度的旋轉，根本無法引發萬向節問題，總不至于用戶堅持在翻車的階段仍舊保持自動駕駛這個詭異的需求。所以BEV的代碼里通常就是矩陣形式，SLAM因為還會用在AR和其它領域，相機不是相對固定的，所以會采用四元數。另外，AD領域里不考慮透視現象，所以外參都是仿射矩陣(Affine Matrix），這點和CG領域的3維渲染是不同的。

另外，一般文章里介紹內參時還會考慮旋轉偏差，這是由于CCD/CMOS感光片在工廠里被機器給裝歪了，但AD領域一般不會考慮它，誤差太小，而相機安裝在車輛上時本身外參就有很大的相對旋轉，不如一并算了，最后交由DNN學習過濾掉，而AR領域里的SLAM更是要主動計算外參，這點毛毛雨就不考慮了。

內外參了解之后，下一個基礎的重點就是坐標系。AD的坐標系有好幾個，不事先理清楚就直接看代碼有點暈。

世界坐標系（World Coordination），這個是真實世界空間里，車輛的位置和方位角，通常粗略的位置是由GNSS（Global Navigation Satellite System)衛星定位系統獲取，GNSS包括了美國GPS/中國BDS/歐洲Galileo/毛子GLONASS/日本QZSS/印度IRNSS，各有千秋，定位精度一言難盡，一般標稱的精度都是指：車輛在空曠地區，上面有好幾顆定位衛星罩著你，車輛靜止，定位設備天線粗壯，無其它信號源干擾的情況下的測試結果。如果你處在城市內，四周高樓林立，各種無線電干擾源，衛星相對你時隱時現，車速還不慢，這種情況下給你偏個幾十米都是對的起你了。為此有兩種常見解決方案：差分基站糾偏和地圖通行大數據糾偏。這能給你造成一種錯覺：衛星定位還是蠻準的。不管怎么弄，最后得到的坐標位置是經緯度，但跟常規GIS（Geographic Information System）相比，AD的經緯度不是球面坐標系，而是展開成2維地圖的坐標系，所以最終在系統內的坐標系也是有區別的，比如google會把WGS84的經緯度換算成它自家地圖的矩形切片編碼，Uber提出過一種六邊形切片的H3坐標編碼，百度則是在火星坐標的基礎上疊加了一個BD09的矩形切片坐標，等等諸如此類。這些都是絕對坐標位置，而通過類似SLAM技術掃描的高精度地圖還會在這個基礎上引入一些相對坐標。不管怎么樣，最后在代碼里看到的只剩下XY了。但這些系統都不能獲取車輛朝向（地理正北為0度，地理正東為90度，依此類推，這仍舊是在2維地圖上表示方式），所以AD里的車輛角度都是指“軌跡朝向”，用當前位置坐標減去上一時刻的坐標獲得一個指向性的矢量。當然在高精度地圖的加持下，是可以通過SLAM技術算出車輛的瞬時方位角。在缺失GNSS定位的時候，比如過隧道，需要用車輛的IMU（Inertial Measurement Unit）這類芯片做慣性導航補充，它們提供的數值是一個相對的坐標偏移，但隨著時間的推移累積誤差大，所以長時間沒有GNSS信號的時候，IMU表示也沒辦法。

BEV訓練數據集的世界坐標系（nuScenes World Coordination，其它訓練集就不特別說明了），這個跟GNSS的絕對坐標系就不同了：

圖5

這是一個nuScenes地圖，它的世界坐標系是圖片坐標系，原點在圖片左下角，單位是米，因此在使用訓練數據集時，是不用考慮經緯度的。數據集中會根據時間序列給出車輛的瞬時位置，也就是在這個圖片上的XY。

Ego坐標系（Ego Coordination），在BEV里，這個Ego是特指車輛本身，它是用來描述攝像機/激光雷達（Lidar，light detection and ranging）/毫米波雷達（一般代碼里就簡稱為Radar）/IMU在車身上的安裝位置（單位默認都是米）和朝向角度，坐標原點一般是車身中間，朝向如圖：

圖6

所以車頭正放的相機默認都是Yaw（Z軸）為0度，外參（Extrinsics Matrix）主要就是描述這個坐標系的。

相機坐標系（Camera Coordination），切記，這個不是照片坐標系，坐標原點在CCD/CMOS感光片的中央，單位是像素，內參（Intrinsics Matrix）主要就是描述這個坐標系的。

照片坐標系（Image Coordination），坐標原點在圖片的左上角，單位是像素，橫縱坐標軸一般不寫成XY，而是uv。

圖7

左中右三套坐標系分別為：Ego Coordination, Camera Coordination, Image Coordination。

所以，當在BEV中做LSS（Lift,Splat,Shoot)時，需要把照片中的像素位置轉換到世界坐標系時，要經歷：

Image_to_Camera, Camera_to_Ego, Ego_to_World，用矩陣表示：

Position_in_World = Inv_World_to_Ego * Inv_Ego_to_Camera * Inv_Camera_to_Image * (Position_in_Image)

其中Inv_表示矩陣的逆。實際代碼里，Camera_to_Image通常就是Intrinsics參數矩陣，Ego_to_Camera就是Extrinsics參數矩陣。

這里要注意的一點是：fx,fy,它們實際上是這樣計算得到的：

Fx和Fy分別是橫向/縱向的鏡頭焦距，但單位是米，Dx和Dy分別是一個像素有幾米寬幾米高，得出fx和fy的單位就是像素。當使用（Ego_to_Camera * Camera_to_Image）矩陣乘上Ego空間的坐標，會以像素為單位投影到照片空間，當使用（Inv_Ego_to_Camera * Inv_Camera_to_Image）矩陣乘上照片空間的坐標，會以米為單位投影到Ego空間，不會有單位上的問題。

大部分的BEV是多攝像頭的，意味著要一次性把多組攝像頭拍攝的照片像素換算到Ego或者世界坐標系：

在統一的坐標系下，多角度的照片才能正確得“環繞”出周邊的景象。另外還有一些單目（Monocular）攝像頭的BEV方案，它們有的不考慮Ego坐標系，因為只有一個朝向正前方（Yaw,Pitch,Roll全部為0）的攝像頭，而且原點就是這個攝像頭本身，所以直接從相機坐標系跳到世界坐標系。

Frustum，這個東西在3維渲染領域通常叫做“視錐體”，用來表示相機的可視范圍：

圖9

紅面和綠面以及線框包圍起來的空間就是視錐體，綠面通常叫做近平面（Near Plane），紅面叫做遠平面（Far Plane），線框構成的角度叫做FOV，如果CCD/CMOS成像的高寬相同，那么近平面和遠平面就都是正方形，一個FOV就足以表示，反之，就要區分為FOVx和FOVy了，超出這個視錐體范圍的物體都不考慮進計算。圖7中由6個三角面構成了組合的可視范圍，實際上應該是6個俯視的視錐體構成，能看出視錐體之間是有交疊區域的，這些區域有利于DNN在訓練/推理中對6組數據做相互矯正，提高模型準確性，在不增加相機數量的前提下，如果想擴大這個交疊區域，就必須選擇FOV更大的相機，但FOV越大的相機一般鏡頭畸變就會越嚴重（反畸變再怎么做也只能一定程度上的矯正圖片），物體在圖片上的成像面積也越小，干擾DNN對圖片上特征的識別和提取。

BEV是個龐大的算法族，傾向于不同方向的算法選擇，粗略得看，有Tesla主導的以視覺感知流派，核心算法建立在多路攝像頭上，另外一大類是激光雷達+毫米波雷達+多路攝像頭的融合（Fusion）派，國內很多AD公司都是融合派的，Google的Waymo也是。

嚴格得講，Tesla正在從BEV（Hydranet）過渡到一種新的技術：Occupancy Network，從2維提升到3維：

圖10

無論是2維的還是3維的，都在試圖描述周遭空間的Occupany（占用）情況，只是一個用2維棋盤格來表述這種占用情況，一個是用3維的積木方式表述占用。DNN在度量這種占用時采用的是概率，比如我們直觀看到某個格子上是一輛車，而DNN給出的原始結果是：這個格子上，是車的可能性有80%，是路面的可能性為5%，是行人的可能性為3%。。。。。所以，在BEV代碼里，一般將各種可能出現的物體分了類，通常是兩大類：

不常變化的：車輛可通信區域（Driveable），路面（Road），車道（Lane），建筑（Building），植被（Foliage/Vegetation），停車區域（Parking），信號燈（Traffic Light）以及一些未分類靜態物體（Static），它們之間的關系是可以相互包容的，比如Driveable可以包含Road/Lane等等。

可變的，也就是會發生移動的物體：行人（Pedestrian），小汽車（Car），卡車（Truck），錐形交通標/安全桶（Traffic Cone）等等

這樣分類的目的是便于AD做后續的駕駛規劃（Planning，有的翻譯成決策）和控制（Control）。而BEV在感知（Perception）階段就是按照這些物體在格子上出現的概率打分，最后通過Softmax函數將概率歸一取出最大的那個可能性作為占用這個格子的物體類型。

但這有個小問題：BEV的DNN模型（Model）在訓練階段，是要指明照片中各個物體是啥？也就是要在標注數據（Labeled Data）上給各種物體打上類型標簽的：

右邊的我們權當做是標注數據吧，左邊是對應的相片，按照這個物體分類訓練出來的DNN模型，真得跑上路面，如果遭遇了訓練集里未出現的物體類型怎么辦？如果模型效果不好，比如某個姿勢奇葩的人體未被識別成行人和其它已知類型，又當如何？Occupancy Network為此改變的感知策略，不再強調分類了（不是不分類，只是重點變了），核心關注路面上是否有障礙物（Obstacle），先保證別撞上去就行了，別管它是什么類型。3維的積木方式表述這種障礙物更為貼切，有的地方借用了3維渲染（Rendering/Shading）領域的常見概念把這種3維表述叫做體素（Voxel），想象一下我的世界（MineCraft）就很簡單了。

以上是視覺流派的簡述，混合派在干嘛？它們除了相機外，還側重于激光雷達的數據，毫米波雷達由于數據品相太差逐漸退出，留守的去充當停車雷達了，也不能說它一無是處，Tesla雖然強調視覺處理，但也保留了一路朝向正前方的毫米波雷達，而且AD這個領域技術變化非常快，冷不丁哪天有新算法冒出又能把毫米波雷達的價值發揚光大一把。

激光雷達的好處是什么：可以直接測出物體的遠近，精度比視覺推測出的場景深度要高很多，一般會轉化為深度（Depth）數據或者點云（Point Cloud），這兩者配套的算法有很長的歷史了，所以AD可以直接借用，減少開發量。另外，激光雷達可以在夜間或糟糕的天氣環境下工作，相機就抓瞎了。

但這幾天出現了一種新的感知技術HADAR（Heat-Assisted Detection and Ranging），可以和相機/激光雷達/毫米波雷達并列的傳感器級別感知技術。它的特點是利用特殊的算法把常規熱成像在夜間拍攝的圖片轉化為周圍環境/物體的紋理和深度，這個東西和相機配合能解決夜間視覺感知的問題。

以前的BEV為什么不提熱成像/紅外相機，因為傳統算法有些明顯的缺陷：只能提供場景的熱量分布，形成一張灰度（Gray）圖，缺乏紋理（Texture），原始數據缺乏深度信息，推算出的深度精度差，如果僅僅通過從灰度圖上提取的輪廓（Contour）和亮度過渡（Gradient），很難精確還原場景/物體的體積信息，并且目前的2維物體識別是很依賴紋理和色彩的。這個HADAR的出現，恰好可以解決這個問題：在較暗的環境下提取場景的深度以及紋理：

圖13

左列，自上而下：

基礎的熱成像，簡稱T

用常規熱成像算法從T提取的深度

用HADAR算法從T提取的紋理圖

用HADAR算法從T提取的深度

真實場景的深度

右列，自上而下：

這個場景在白天用可見光相機拍攝的照片

通過照片推理的深度

真實場景的深度

HADAR的這個深度信息老牛逼了，對比一下激光雷達的效果就知道了：

激光雷達的掃描范圍是有限的，一般半徑100米，從上圖可以看出，沒有紋理信息，遠處的場景也沒有深度了，掃描線導致其數據是個稀疏（Sparse）結構，想要覆蓋半徑更大更稠密（Dense）就必須買更昂貴的型號，最好是停下來多掃一段時間。激光雷達模塊廠家在展示產品時，當然得給出更好看的圖了，只有AD研發人員才知道這里面有多苦。

以上都是基礎的概念，作為BEV算法的入門，必須先提到LSS（Lift,Splat,Shoot):

https://link.zhihu.com/?target=https%3A//github.com/nv-tlabs/lift-splat-shoot

老黃家的，很多文章都把它列為BEV的開山（Groundbreaking）之作。它構建了一個簡單有效的處理過程：

把相機的照片從2維數據投影成3維數據，然后像打蒼蠅一樣把它拍扁，再從上帝視角來看這個被拍扁的場景，特別符合人看地圖的直覺模式。一般看到這里會有疑惑的：都已經建立了3維的場景數據，3維不香么？干嘛還要拍扁？不是不想要3維，是沒辦法，它不是一個完善的3維數據：

圖15

看過這玩意吧，它就是LSS的本質，從正面看，能形成一張2維照片，這個照片被LSS拉伸到3維空間后就是上圖，你從BEV的視角也就是正上方向下看會是啥？什么都看不出來，所以后續要拍扁（Splat），具體過程是這樣：

先提取圖像特征和深度（Feature and Depth，LSS里是同時提取的，后面會具體解釋），深度圖類似

只能說類似，并不準確，后面也會具體說明的，這個深度信息可以構建一個偽3D模型（Point Cloud點云模式），類似圖15：

圖18

看著還行，但把這個3D模型轉到BEV俯視角下，估計親娘都認不出來了：

圖19

拍扁后結合特征Feature再做一次語義識別，形成：

圖20

這個就是喜聞樂見的BEV圖了。以上是對LSS的直觀認知，算法層面是如何實現的？

先給單個相機可拍攝的范圍構建一個立方體模樣的鐵絲籠子（高8寬22深41），祭出大殺器Blender：

圖21

這里是示意圖，不要糾結于格子的數量和尺寸。這個3D網格代表的是一路相機的視錐體（Frustum），前面貼過視錐體的形狀（圖9），這里變形成立方體，在相機空間里看這個照片和這個立體網格的關系就是：

圖22

右邊是個正對著網格立方體的相機示意圖，相片提取深度后（深度圖的實際像素尺寸是高8寬22）：

圖23

把這個深度圖按照每個像素的深度沿著紅線方向展開（Lift）后：

圖24

可以看到，部分深度像素已經超出了視錐體的范圍，因為LSS一開始就假設了這么個有限范圍的籠子，超出部分直接過濾掉。這里必須提醒一下：LSS并不是直接算出每個像素的深度，而是推理出每個像素可能處于籠子里每個格子的概率，圖24是已經通過Softmax提取出每個像素最有可能位于哪個格子，然后把它裝進對應格子的示意結果，便于理解，更準確的描述如下：

圖25

在圖25中選取深度圖的某個像素（紅色格子，事實上LSS的深度圖分辨率是很小的，默認只有8*22像素，所以這里可以用一個格子當做一個像素），它隸屬于籠子下方邊沿的一條深度格子（這條格子其實就代表相機沿著深度看向遠方的一條視線）：

圖26

圖25中的那個紅色的深度像素，沿著圖26這條視線格子的概率分布就是：

圖27

黃線的起伏表示2D深度圖像素在Lift后沿著視線3D深度的概率分布（Depth Distribution，我這是示意性得畫法，不是嚴格按照實際數據做的）。等價于LSS論文里的這張圖：

圖28

LSS中構建立方籠子的代碼位于：

class?LiftSplatShoot(nn.Module):
????def?__init__(self,?grid_conf,?data_aug_conf,?outC):
????????self.frustum?=?self.create_frustum()
????def?create_frustum(self):
????????#?D?x?H?x?W?x?3
????????frustum?=?torch.stack((xs,?ys,?ds),?-1)
????????return?nn.Parameter(frustum,?requires_grad=False)
????def?get_geometry(self,?rots,?trans,?intrins,?post_rots,?post_trans):
????????"""Determine?the?(x,y,z)?locations?(in?the?ego?frame)
????????of?the?points?in?the?point?cloud.
????????Returns?B?x?N?x?D?x?H/downsample?x?W/downsample?x?3
????????"""
????????B,?N,?_?=?trans.shape

????????#?undo?post-transformation
????????#?B?x?N?x?D?x?H?x?W?x?3
????????points?=?self.frustum?-?post_trans.view(B,?N,?1,?1,?1,?3)
????????points?=?torch.inverse(post_rots).view(B,?N,?1,?1,?1,?3,?3).matmul(points.unsqueeze(-1))

????????#?cam_to_ego
????????points?=?torch.cat((points[:,?:,?:,?:,?:,?:2]?*?points[:,?:,?:,?:,?:,?2:3],
????????????????????????????points[:,?:,?:,?:,?:,?2:3]
????????????????????????????),?5)
????????combine?=?rots.matmul(torch.inverse(intrins))
????????points?=?combine.view(B,?N,?1,?1,?1,?3,?3).matmul(points).squeeze(-1)
????????points?+=?trans.view(B,?N,?1,?1,?1,?3)

????????return?points

為了便于分析，我裁減了代碼。單個相機的frustum尺寸為：D x H x W x 3（深度D：41，高度H：8，寬度W：22），也就是創建了一個D x H x W的容器，容器的每個格子里存儲了這個格子的坐標值（X，Y，Z）。

圖29

實際上是在照片坐標系（uv）上拓展了一個深度Z構成的新坐標系。由于LSS默認是5路攝像頭，把5個Frustum送到get_geometry函數里，會輸出5路Frustum構成的一個組合籠子，其張量尺寸變為：B x N x D x H x W x 3，其中B是batch_size，默認是4組訓練數據，N是相機數量5。

get_geometry里一開始要做一個

?#?undo?post-transformation?

這玩意是干啥的？這跟訓練集有關，在深度學習里里，有一種增強現有訓練樣本的方法，一般叫做Augmentation（其實AR技術里這個A就是Augmentation，增強的意思），通過把現有的訓練數據做一些隨機的：翻轉/平移/縮放/裁減，給樣本添加一些隨機噪音（Noise）。比如，在不做樣本增強前，相機的角度是不變的，訓練后的模型只認這個角度的照片，而隨機增強后再訓練，模型可以學習出一定角度范圍變化內的適應性，也就是Robustness。

圖30

Augmentation技術也是有相關理論和方法的，這里就貼個圖不贅述了。數據增強的代碼一般都是位于DataLoader內：

class?NuscData(torch.utils.data.Dataset):
???def?sample_augmentation(self):

回到剛才的get_geometry，數據增強會給照片增加一些隨機變化，但相機本身是必須固定的，這樣才能讓DNN模型學習這些隨機變化的規律并去適應它們。所以將5路Frustum的安置到車身坐標系時候要先去掉（undo）這些隨機變化。

然后通過：

#?cam_to_ego
????????points?=?torch.cat((points[:,?:,?:,?:,?:,?:2]?*?points[:,?:,?:,?:,?:,?2:3],
????????????????????????????points[:,?:,?:,?:,?:,?2:3]
????????????????????????????),?5)
????????combine?=?rots.matmul(torch.inverse(intrins))
????????points?=?combine.view(B,?N,?1,?1,?1,?3,?3).matmul(points).squeeze(-1)
????????points?+=?trans.view(B,?N,?1,?1,?1,?3)

將各路Frustum從相機坐標系轉入車輛自身坐標系，注意這里的intrins是相機內參，rots和trans是相機外參，這些都是nuScenes訓練集提供的，這里只有intrincs用了逆矩陣，而外參沒有，因為nuScenes是先把每個相機放在車身原點，然后按照各路相機的位姿先做偏移trans再做旋轉rots，這里就不用做逆運算了。如果換個數據集或者自己架設相機采集數據，要搞清楚這些變換矩陣的定義和計算順序。

四視圖大概就是這個樣子：

圖31

LSS中推理深度和相片特征的模塊位于：

class?CamEncode(nn.Module):
????def?__init__(self,?D,?C,?downsample):
????????super(CamEncode,?self).__init__()
????????self.D?=?D
????????self.C?=?C

????????self.trunk?=?EfficientNet.from_pretrained("efficientnet-b0")

????????self.up1?=?Up(320+112,?512)
????????self.depthnet?=?nn.Conv2d(512,?self.D?+?self.C,?kernel_size=1,?padding=0)

trunk用于同時推理原始的深度和圖片特征，depthnet用于將trunk輸出的原始數據解釋成LSS所需的信息，depthnet雖是卷積網但卷積核（Kernel）尺寸只有1個像素，功能接近一個全連接網FC（Full Connected)，FC日常的工作是：分類或者擬合，對圖片特征而言，它這里類似分類，對深度特征而言，它這里類似擬合一個深度概率分布。EfficientNet是一種優化過的ResNet，就當做一個高級的卷積網（CNN）看吧。對于這個卷積網而言，圖片特征和深度特征在邏輯上沒有區別，兩者都位于trunk上的同一個維度，只是區分了channel而已。

這就引出了另外一個話題：從單張2D圖片上是如何推理/提取深度特征的。這類問題一般叫做：Monocular Depth Estimation，單目深度估計。一般這類系統內部分兩個階段：粗加工（Coarse Prediction）和精加工（Refine Prediction），粗加工對整個畫面做一個場景級別的簡單深度推測，精加工是在這個基礎上識別更細小的物體并推測出更精細的深度。這類似畫家先用簡筆畫出場景輪廓，然后再細致勾勒局部畫面。

除了用卷積網來解決這類深度估計問題，還有用圖卷積網（GCN）和Transformer來做的，還有依賴測距設備（RangeFinder）輔助的DNN模型，這個話題先不展開了，龐雜程度不亞于BEV本身。

那么LSS這里僅僅采用了一個trunk就搞定深度特征是不是太兒戲了，事實上確實如此。LSS估計出的深度準頭和分辨率極差，參看BEVDepth項目里對LSS深度問題的各種測試報告：

https://link.zhihu.com/?target=https%3A//github.com/Megvii-BaseDetection/BEVDepth

BEVDepth的測試里發現：如果把LSS深度估計部分的參數換成一個隨機數，并且不參與學習過程（Back Propagation），其BEV的總體測試效果只有很小幅度的降低。但必須要說明，Lift的機制本身是很強的，這個突破性的方法本身沒問題，只是深度估計這個環節可以再加強。

LSS的訓練過程還有另外一個問題：相片上大約有1半的數據對訓練的貢獻度為0，其實這個問題是大部分BEV算法都存在的：

右邊的標注數據實際上只描述了照片紅線以下的區域，紅線上半部都浪費了，你要問LSS里的模型對上半部都計算了些什么，我也不知道，因為沒有標注數據可以對應上，而大部分的BEV都是這么訓練的，所以這是一個普遍現象。訓練時，BEV都會選擇一個固定面積范圍的周遭標注數據，而照片一般會拍攝到更遠的景物，這兩者在范圍上天生就是不匹配的，另一方面部分訓練集只關注路面標注，缺乏建筑，因為眼下BEV主要解決的是駕駛問題，不關心建筑/植被。

這也是為什么圖17哪里的深度圖和LSS內部真實的深度圖是不一致的，真實深度圖只有接近路面這部分才有有效數據：

圖33

所以整個BEV的DNN模型勢必有部分算力被浪費了。目前沒看到任何論文關于這方面的研究。

接著繼續深入LSS的Lift-Splat計算過程：

def?get_depth_feat(self,?x):
????????x?=?self.get_eff_depth(x)
????????#?Depth
????????x?=?self.depthnet(x)

????????depth?=?self.get_depth_dist(x[:,?:self.D])
????????new_x?=?depth.unsqueeze(1)?*?x[:,?self.D:(self.D?+?self.C)].unsqueeze(2)

????????return?depth,?new_x????
???def?get_voxels(self,?x,?rots,?trans,?intrins,?post_rots,?post_trans):
????????geom?=?self.get_geometry(rots,?trans,?intrins,?post_rots,?post_trans)
????????x?=?self.get_cam_feats(x)

????????x?=?self.voxel_pooling(geom,?x)

????????return?x

這里的new_x是把深度概率分布直接乘上了圖片紋理特征，為了便于直觀理解，我們假設圖片特征有3個channel：c1,c2,c3，深度只有3格：d1,d2,d3。我們從圖片上取某個像素，那么它們分別代表的意義是：c1:這個像素點有70%的可能性是車子，c2：有20%的可能性是路，c3：有10%的可能性是信號燈, d1：這個像素有80%的可能是在深度1，d2：有15%的可能性是在深度2，d3：有%5的可能性是在深度3上。如果把它們相乘的到：

那么這個像素最大的概率是：位于深度1的一輛車子。這也就是LSS里：

公式的意義，注意它這里把圖像特征叫做c（Context）, a_d的意義是深度沿視線格子的概率分布，d是深度。new_x就是這個計算結果。前面說過，由于圖像特征和深度都是通過trunk訓練出來的，它們位于同一維度，只是占用channel不同，深度占用了前self.D（41）個channel，Context占用了后面self.C（64）個channel。

由于new_x是分別按照每路相機的Frustum單獨計算的，而5個Frustum有重疊區域，須要做作數據融合，所以在voxel_pooling里計算好格子的索引和對應的空間位置，通過這個對應關系，把new_x的內容一一裝入指定索引的格子。

LSS在voxel_pooling的計算力引入了cumsum這個機制，雖然有很多文章在解釋它，但這里不建議花太多功夫，它只是一個計算上的小技巧，對整個LSS是錦上添花的事，不是必要的。

編輯:黃飛

閱讀全文

CMOS(233059) CMOS(233059)
控制系統(108283) 控制系統(108283)
SLAM(31569) SLAM(31569)
激光雷達(186106) 激光雷達(186106)
自動駕駛(162871) 自動駕駛(162871)

2017a自動駕駛

安裝MATLAB2017A后發現找不到自動駕駛工具箱是什么原因

2017-06-07 12:37:23

2020中國上海國際自動駕駛技術展覽會

2020中國上海國際自動駕駛技術展覽會2020 ChinaShanghaiInternational Autopilot Technology Exhibition時間：2020年4月15-17日地

2019-12-08 15:01:03

2020年自動駕駛汽車成熟度指數分析

本文來源于畢馬威發布的第三版《2020年自動駕駛汽車成熟度指數》，該報告旨在評估各個國家對自動駕駛汽車部署的準備情況。此次選取30個國家和地區，通過政策和立法、技術和創新、基礎設施和消費者接受度四個

2021-01-22 06:01:51

3天造出自動駕駛汽車的百度Apollo，背后竟有50多個后臺

還放眼全球，在首批合作伙伴陣容中，海外企業及機構占比近30%。　　百度公司副總裁鄔學斌在Apollo生態合作伙伴聯盟啟動儀式上指出，自動駕駛普及面臨產業結構變革、技術本身及配套法規準則等

2017-07-07 18:28:50

5g與自動駕駛有什么關系

`　　誰來闡述一下5g與自動駕駛有什么關系？`

2019-11-22 16:54:31

SLAM技術的應用及發展現狀

）、無人機、自動駕駛等都有應用，大疆有位工程師甚至說過“所有關于無人機的夢想都建立在SLAM之上”，可見SLAM技術的關鍵性。工業用途主要是集中在AGV領域，隨著制造業以及電商倉儲領域對柔性化搬運的需求不斷

2018-12-06 10:25:32

SLAM技術目前主要應用在哪些領域

）作為工具，獲取地圖數據，并構建地圖，規避路程中遇到的障礙物，實現路徑規劃。跟SLAM技術在機器人領域的應用類似，只是相比較于SLAM在機器人中的應用，無人駕駛的雷達要求和成本要明顯高于機器人。　　無人機

2020-12-01 14:26:37

自動駕駛技術的實現

k隨著汽車電子的日益復雜化以及汽車電子電氣架構(EEA)的升級，人們對于聯網智能汽車的需求也在逐步上升，大量先進技術往汽車上應用，如高級駕駛輔助系統(ADAS)、自動駕駛等，這些新技術也對車載網絡

2021-09-03 08:31:28

自動駕駛AI芯片現狀分析

自動駕駛AI芯片到位了么？

2020-12-04 06:13:55

自動駕駛OS市場的現狀及未來精選資料推薦

隨著電動車的EE架構從分布式向集中式演進、自動駕駛等級從L2向L2+、NOA/NOP乃至L4演進，系統對自動駕駛OS（操作系統）的要求也越來越高。并且，由于事關生命安全，自動駕駛OS對實時性及可靠性

2021-07-27 07:48:59

自動駕駛為什么需要5G

什么叫自動駕駛？

2020-07-31 06:53:59

自動駕駛安全保駕護航的三個關鍵技術

自動駕駛車輛外部環境的三種關鍵技術：雷達、激光雷達和高性能 IMU。微波雷達雷達目前大量用在高級駕駛員輔助系統中，例如碰撞預警和緩沖剎車、盲點檢測、車道變換輔助等，然而高性能雷達技術對傳統的微波信號鏈技術

2018-10-30 11:51:34

自動駕駛汽車中傳感器的分析

特斯拉在五月份發生的自動駕駛事故，和最近在Defcon上演示的如何干擾傳感器，都充分說明了傳感器在自動駕駛中的重要性：環境感知是自動駕駛實現的基礎，如果不能正確地感知周圍環境，那么接下來的認知、決策與控制，都是空中樓臺。　　

2020-05-14 07:34:45

自動駕駛汽車時代：天線測量與模擬比任何時候都來得關鍵

`自動駕駛汽車和互聯汽車的出現對無線連接測試領域提出了更高要求，尤其是汽車產業正在推行的汽車到萬物（V2X）技術。這項前沿技術將允許車輛之間實現互通，且掌握周邊真實的路況，從而確保最佳的行車安全

2019-01-08 10:53:26

自動駕駛汽車的處理能力怎么樣？

作在未來20 - 30年中，自動駕駛汽車（AV）將改變我們的駕駛習慣、運輸行業并更廣泛地影響社會。我們不僅能夠將汽車召喚到我們的家門口并在使用后將其送走，自動駕駛汽車還將挑戰個人擁有汽車的想法，并

2019-08-07 07:13:15

自動駕駛汽車的定位技術

差異。按傳感器來分，SLAM主要分為激光、視覺兩大類。自動駕駛通過定位技術準確感知自身在全局環境中的相對位置，將自身視作一個質點并與環境有機結合起來。按定位技術原理不同可分為三類。第一類，基于信號的定位

2019-05-09 04:41:09

自動駕駛的到來

的Telematics收發芯片，非常適合V2V及V2X等相關應用中。　　相比于傳統的底盤、發動機等傳統汽車技術，自動駕駛更多的技術集中在電子領域，而且核心技術并沒有被跨國車廠或Tier1所壟斷。并且

2017-06-08 15:25:32

自動駕駛真的會來嗎？

級別的完全可自動駕駛車輛技術，最終目的是在駕駛過程中完全不需要司機的干擾、參與甚至存在。　　此前，在接受新浪科技采訪時，百度無人車項目負責人王勁也強調過自動駕駛等級概念的不同。這位百度高級副總裁認為把諸多

2016-07-21 09:00:38

自動駕駛系統要完成哪些計算機視覺任務？

Geiger 的研究主要集中在用于自動駕駛系統的三維視覺理解、分割、重建、材質與動作估計等方面。他主導了自動駕駛領域著名數據集 KITTI 及多項自動駕駛計算機視覺任務的基準體系建設，KITTI 是目前最大的用于自動駕駛的計算機視覺公開數據集。

2020-07-30 06:49:20

自動駕駛系統設計及應用的相關資料分享

作者：余貴珍、周彬、王陽、周亦威、白宇目錄第一章 自動駕駛系統概述1.1 自動駕駛系統架構1.1.1 自動駕駛系統的三個層級1.1.2 自動駕駛系統的基本技術架構1.2 自動駕駛技術國內外發展1.3

2021-08-30 08:36:23

自動駕駛線控底盤VCU功能介紹

滿足自動駕駛遠程遙控的線控底盤整車控制器VCU1 自動駕駛線控底盤VCU功能介紹滿足自動駕駛及遙控駕駛的線控底盤整車控制器VCU作為新能源及自動駕駛電動汽車的核心主控制單元，通過硬線或CAN等方式

2021-09-07 06:30:56

自動駕駛行業報告

專業的自動駕駛行業報告-國金證券

2020-09-02 17:26:45

自動駕駛車的人車交互接口設計方案

隨著高精度傳感、自動化、人工智能等技術的飛速發展，預計到2021年市場上會出現第一批完全沒有方向盤等駕駛控制器的自動駕駛量產車。當汽車可以自主地完成駕駛任務時，汽車的內飾和交互設計將具有更多想象空間

2020-07-30 07:57:43

自動駕駛車輛中AI面臨的挑戰

自動駕駛車輛中采用的AI算法自動駕駛車輛中AI面臨的挑戰

2021-02-22 06:39:55

ADAS到自動駕駛還有多長的路要走

ADAS到自動駕駛還有多長的路要走？

2020-12-10 07:03:08

ADAS視覺傳感技術，為朝向自動駕駛趨勢發展做好準備

ADAS系統變得更先進，它將為朝向自動駕駛趨勢發展做好準備。借助結合V2V和V2I的連接，自動駕駛是汽車技術發展過程中的下一個里程碑。許多產業專家預測，自動駕駛將從2025年開始在大眾市場應用中成為現實

2020-06-02 08:00:00

AI/自動駕駛領域的巔峰會議—國際AI自動駕駛高峰論壇

已經滲透到了社會生活的方方面面。人工智能在自動駕駛領域將對整個汽車出行領域產生顛覆性變革。汽車的人工智能技術和數據后端的最新突破使自動駕駛成為可能。深度學習、高級數字助理和動態電子視野方面的新科技

2017-09-13 13:59:54

LG電子布局機器人和自動駕駛領域

LG電子（LG Electronics）宣布，在其年底進行業務重組期間，將成立兩個新部門，機器人和自動駕駛汽車部門，兩部門都由該公司首席執行官直接管理。據羿戓信息所了解，該家韓國科技巨頭表示，成立

2018-12-03 22:14:00

LabVIEW開發自動駕駛的雙目測距系統

LabVIEW開發自動駕駛的雙目測距系統隨著車輛駕駛技術的不斷發展，自動駕駛技術正日益成為現實。從L2級別的輔助駕駛技術到L3級別的受條件約束的自動駕駛技術，車輛安全性和智能化水平正在不斷提升

2023-12-19 18:02:07

UWB主動定位系統在自動駕駛中的應用實踐

，確保車輛自動駕駛安全。但即使我們的技術可以實現真正意義上的自動駕駛，目前來看成本還是非常高的。若干車企宣布了2020-2021年左右實現L3自動駕駛車輛量產計劃，從目前來看，整套自動駕駛系統最便宜也要

2018-12-14 17:30:15

UWB定位可以用在自動駕駛嗎

的技術可以實現真正意義上的自動駕駛，目前來看成本還是非常高的。若干車企宣布了2020-2021年左右實現L3自動駕駛車輛量產計劃，從目前來看，整套自動駕駛系統最便宜也要3萬美元以上，相當于一輛中級車

2020-11-18 14:15:16

UWB高精度定位在自動駕駛中的應用前景

自動駕駛的實現高度依賴環境感知、控制執行、高精度定位、路徑規劃等方面的核心技術。其中通過環境感知，實時準確地識別出車輛行駛路徑周邊對其安全行駛可能存在隱患的物體，為車輛的控制執行提供可靠信息源；通過

2020-10-26 16:41:56

[科普] 谷歌自動駕駛汽車發展簡史，都來了解下吧！

改裝了6輛豐田普銳斯和一輛奧迪TT，并在加州山景城對它們進行測試。谷歌聘請技術出色的駕駛員坐在司機座位上，準備隨時接管汽車控制權，即使7年后的今天，谷歌仍然為測試的自動駕駛汽車配有駕駛員。　　谷歌

2016-10-25 11:08:31

【KV260視覺入門套件試用體驗】八、VITis AI自動駕駛多任務執行MultiTask V3

是一種模型，旨在同時執行自動駕駛場景中的不同任務，同時實現優異的性能和效率。這些任務包括對象檢測、分割、車道檢測、可行駛區域分割和深度估算，這些都是自動駕駛感知模塊的重要組成部分。三、代碼實現

2023-09-26 16:43:01

【PYNQ-Z2試用體驗】基于PYNQ的神經網絡自動駕駛小車 - 項目規劃

小車運動的控制信號，實現小車自動駕駛。在初步實現方案中，為了快速實現整體功能，使用軟件神經網絡作為控制器，使用單片機作為底盤電機的控制器。在進一步的實現中，所有數據處理和底盤控制全部由Zynq FPGA

2019-03-02 23:10:52

【mBot申請】自動駕駛車

申請理由：很喜歡硬件功能完善的機器人，這款機器人上面的多種傳感器及器件均用過，超聲波傳感器和巡線傳感器還未接觸過，想了解下這種傳感器的靈敏度和精度，而且近年來自動駕駛汽車興起，還希望借此做一款

2015-11-30 15:30:17

【威雅利汽車】蘋果最新專利曝光，要把VR和AR帶進自動駕駛汽車

最新曝光的這一個最為引人注目。蘋果在專利中描述了一套為自動駕駛汽車設計的VR系統，它可以大幅改變汽車的內飾和車內環境，為乘坐者帶來更多樂趣。圖1展示乘客佩戴VR頭顯觀看，而圖2展示的是通過AR技術把

2018-04-24 17:05:48

【話題】特斯拉首起自動駕駛致命車禍，自動駕駛的冬天來了？

自動駕駛技術已經有足夠積累，雖然還不完美無缺，但是可以投入商用，科技都是在使用中完善的，不能一遭被蛇咬，十年怕井繩，難道發生一次空難之后，以后飛機就停飛啦？技術流朋友，更加關注問題本身，有什么技術手段可以解決此類問題？對于這個問題，公說公有理婆說婆有理，元芳，你怎么看? `

2016-07-05 11:14:19

中國自動駕駛行業前景看好，國產技術迅速發展

的落地競賽中，“共享模式”將帶來更大的想象空間。其一，從商業最基礎的邏輯——成本收益出發，自動駕駛與共享汽車的彼此選擇，可謂各取所需：對于自動駕駛公司來說，至少在現階段，這項技術的成本較高，與共享出行

2019-04-03 05:36:06

中標自動駕駛教育大項目，獲海外批量訂單 | PIX秘笈分享精選資料分享

今年4月底，PIX 接到北京某學校建立“分布式控制新能源車智能底盤實驗室”的需求，同時需要配套自動駕駛技術方案、遠程駕駛以及教學內容，經過多方技術評估審核和投標流程，PIX 超級底盤在“分布式驅動

2021-08-30 08:15:45

為什么視覺系統對自動駕駛至關重要看了就知道

為什么視覺系統對自動駕駛至關重要？

2020-12-29 06:43:48

為何自動駕駛需要5G？

決策一旦出現交通事故，重則導致人身傷亡，因此，自動駕駛對技術安全的要求相當苛刻，需實現接近100%的安全性。簡而言之，自動駕駛就是通過傳感器收集全面的環境信息，再對信息融合處理，并作出接近100%安全性

2020-06-08 07:00:00

從ADAS到自動駕駛還有多長的路要走

從ADAS到自動駕駛還有多長的路要走看了就知道

2021-01-28 06:57:58

傳感技術助推，下一步是自動駕駛？

傳感器技術增添了哪些助力？作為汽車領域的業界翹楚，博世又將如何助推自動駕駛技術走向商用？　　物聯網為汽車MEMS傳感器帶來重大利好　　回溯傳感器的發展歷史，從上世紀80年代~90年代在汽車電子中應用是

2014-08-18 10:04:20

關于自動駕駛的一些理論

自動駕駛導論

2020-04-22 10:09:25

即插即用的自動駕駛LiDAR感知算法盒子 RS-Box

，即可快速、無縫地將激光雷達感知模塊嵌入到自己的無人駕駛方案中，真正實現“一鍵獲得自動駕駛激光雷達環境感知能力”。RS-BoxLiDAR感知算法專業硬件平臺RS-Box 由嵌入式硬件平臺、獨立操作系統

2017-12-15 14:20:48

因為「不夠安全」，我們就必須拒絕自動駕駛汽車上路？

自己已經準備好上路了，并逐步增加產品中的自動駕駛技術的應用。而嘗試新技術，前期必然可能會增加事故的傷亡率。然而特斯拉CEO埃隆穆斯克認為，如果僅僅是為了避免輿論壓力或者害怕被卷進官司中而放棄使用這些

2017-04-08 11:17:59

地圖如何幫助自動駕駛汽車實現溝通

地圖如何幫助自動駕駛汽車實現溝通？

2021-02-26 07:47:18

基于視覺的slam自動駕駛

基于視覺的slam自動駕駛，這是我們測試的視頻《基于slam算法的智能機器人》調研分析報告項目背景分析機器人曾經是科幻電影中的形象，可目前已經漸漸走入我們的生活。機器人技術以包含機械、電子、自動

2021-08-09 09:37:34

如何從安全的角度看自動駕駛

從安全的角度看自動駕駛

2021-01-25 06:42:46

如何保證自動駕駛的安全？

自動駕駛技術為人們勾勒出了一副美好的未來出行的畫面：坐上沒有方向盤的汽車，一覺睡到公司門口；甚至我們可能不再擁有一輛汽車，需要出門時共享自動駕駛汽車會自己到來，送到目的地時會自行離開……不過自動駕駛

2020-10-22 07:45:38

如何打造自動駕駛「自行車」的呢

自行車什么時候能實現「自己行走」呢？自行車屬于欠驅動系統，如果不進行控制就無法實現穩定站立最近，B站野生技術協會野生鋼鐵俠、「華為天才少年計劃」入選者、AI算法工程師稚暉君發布了一個「自動駕駛

2021-08-26 09:23:20

如何讓自動駕駛更加安全？

自動駕駛、完全自動駕駛。第四級別是汽車駕駛自動化、智能化程度最高級別，也就是通常所說的無人駕駛。現實中，部分自動駕駛技術和輔助駕駛技術已經應用，利用一系列的傳感器和攝像頭，來實現前后車距測量、自動泊車

2019-05-13 00:26:37

無人駕駛與自動駕駛的差別性

來無人駕駛汽車進入商業應用場合后，完全可以根據實際需要進行重構，例如，谷歌在新的試驗車型中取消了方向盤、剎車。核心技術有重要差別：輔助駕駛、自動駕駛的核心技術是自動控制技術，而無人駕駛汽車的核心技術

2017-09-28 16:50:52

汽車自動駕駛技術

請問各位老鳥我是新手汽車自動駕駛技術是怎么回事，是用什么板子開發的需要應用哪些技術和知識。提問題提得不是很好請各位見諒

2016-04-14 20:44:03

汽車自動駕駛產業鏈深度研究報告：自動駕駛駛向何方精選資料分享

（報告出品方/作者：國金證券，翟煒）報告綜述產業鏈與市場空間：當前我國自動駕駛正處于 L2 向 L3 級別轉化的階段，預計 2025 年 L2.5 級別自動駕駛車輛滲透率為 50%，2030 年

2021-08-27 07:21:36

淺析自動駕駛發展趨勢，激光雷達是未來？

的一部分。鑒于目前激光雷達的高成本，攝像頭配合高精度地圖是另一種較低成本的技術路線。除了與高精度地圖配合為自動駕駛提供定位服務，攝像頭還可以在地圖采集過程中作為低成本且數據傳輸量小（攝像頭捕捉的是小尺寸

2017-09-06 11:36:58

留給特斯拉的時間不多了通用自動駕駛版Bolt實現量產技術生產

，他們首批搭載新一代自動駕駛技術的130輛測試版雪佛蘭電動汽車Bolt今天從密歇根州的Orion工廠正式下線，這也是首款采用量產工藝打造的、標明具備自動駕駛技術的汽車。?　　最新下線的130輛自動駕駛

2017-06-14 18:34:08

硅谷組建團隊、L3產品落地，想法多多的騰訊自動駕駛

。值得一提的是，在自動駕駛領域騰訊已經實現了L3產品落地。在此前11月1日騰訊全球合作伙伴大會上，自動駕駛作為其獨立產品首次出現在公眾視野中，當天，騰訊方面還發布了模擬仿真平臺、高精度地圖和數據云服務平臺等三大技術。因此在人才更為豐富的硅谷設立研發中心，也意味著其或將在自動駕駛領域有著更多的規劃。`

2018-11-13 11:33:14

神經網絡解決方案讓自動駕駛成為現實

輔助及自適應巡航控制等系統的配套使用也讓未來的全自動駕駛車輛成為現實。如今，車輛的很多系統使用的都是機器視覺。機器視覺采用傳統信號處理技術來檢測識別物體。對于正熱衷于進一步提高拓展 ADAS 功能的汽車

2017-12-21 17:11:34

福特銳界概念車搭載了全新的自動駕駛技術

福特在本屆洛杉磯車展上推出了福特銳界概念車。據悉，這款車中搭載了全新的自動駕駛技術，其中包括福特前不久剛發布的全自動泊車技術。 IIHS公司提供的數據表明，2007-2012年間，全球SUV銷量增長了45%。目前，福特銳界在美國市場上仍是該細分市場的領跑者，市場份額達到23%。

2020-04-22 06:51:58

細說關于自動駕駛那些事兒

輔助系統系統）用到的技術重迭。自駕車如何看見世界為什么要這么多種傳感器？優缺點互補目前多數車商在量產車中配備的“自動駕駛”功能，包含特斯拉、Volvo、Mercedes－Benz、奧迪等，事實上就是搭載

2017-05-15 17:49:20

網聯化自動駕駛的含義及發展方向

了3GPP R16 5G-V2X在自動駕駛業務方面帶來的技術優化，并對現階段通信技術中存在的問題進行了分析和展望。與此同時，闡述了通信技術在網聯自動駕駛領域的重要作用，期望加深輔助駕駛、智慧交通等產業

2021-01-12 15:42:00

聯網安全接受度成自動駕駛的關鍵

隨著時代的演進與汽車工業技術、機器視覺系統、人工智能和傳感器相關技術上不斷創新與進步，無人自動駕駛汽車已不是一件遙不可及的夢想，Google與國際車廠相繼針對自動駕駛技術致力研究開發，進一步讓

2020-08-26 06:45:07

視覺系統對自動駕駛的重要性

為什么視覺系統對自動駕駛至關重要？

2021-01-25 07:51:32

詳細說明多項自動駕駛底層軟件技術

1、自動駕駛系統設計的那些底層軟件開發中的重點解讀　　眾所周知，隨著自動駕駛和智能網聯技術的飛速發展，傳統的汽車開放系統架構CP Autosar已經無法滿足日益復雜的汽車電子系統的功能需求。尤其底層

2022-11-09 16:09:04

請問樹莓派如何利用Tensorflow實現小車的自動駕駛？

基于樹莓派的人工智能自動駕駛小車

2020-11-25 07:22:30

談一談自動駕駛的激光雷達

激光雷達是如何產生的？激光雷達在自動駕駛領域有什么作用？

2021-06-17 07:31:54

谷歌的自動駕駛汽車是醬紫實現的嗎？

看到新聞報道說谷歌自動駕駛汽車已經行駛近30萬公里了，非常的強大~~上次參加了重慶新能源汽車峰會，對會上富士通半導體宣講的一款全景視頻汽車實時監控技術平臺似乎看到了自動駕駛的影子（利用MB86R11

2011-06-14 16:15:27

車聯網對自動駕駛的影響

車聯網與智能駕駛車聯網和自動駕駛密切相關，很大程度上可以理解為是對自動駕駛高階版本的增強和補充，通過車與車、車與人、車與交通基礎設施、車與網絡的互聯互通，讓對環境已經具備感知能力的自動駕駛汽車，再

2019-03-19 06:20:10

轉發:聊聊邊緣計算在自動駕駛中的應用場景

。據麥肯錫預測，2030年售出的新車中，自動駕駛汽車的比例將達到15%。其實早在20世紀80年代，在美國國防部先進研究項目局的支持下，自動駕駛技術的研究熱潮就已經掀起。1984 年，卡耐基梅隆大學研發

2020-07-21 14:12:56

邊緣計算在自動駕駛汽車的應用

有時更快的數據處理是一種奢侈——有時它生死攸關。例如，自動駕駛汽車本質上是一臺裝有輪子的高性能計算機，它通過大量的傳感器來收集數據。為了使得這些車輛能夠安全可靠地運行，它們需要立即對周圍的環境做出

2021-07-12 08:07:05

邁向自動駕駛和電動汽車之路研討會

中，David和Pall探討了傳感器融合、人工智能和互聯及安全等關鍵技術可能如何促成自動駕駛汽車（AV）和電動汽車（EV）的未來的形成，和其他可能出現的趨勢。在整個演講中，兩位發言者談到了自動駕駛汽車

2018-10-25 09:01:17

這些自動駕駛傳感器，你了解多少？

從傳感器技術發展本身來說，要在接下來十年里保證自動駕駛車安全地上路，硬件性能與背后的軟件算法，以及不同傳感器之間的數據融合，都是需要提升的地方。

2020-05-18 06:11:57

高級安全駕駛員輔助系統助力自動駕駛

作者：Hannes Estl要實現汽車自動駕駛，需要消除很多法律、社會和結構障礙。盡管幾乎我們所有人都在科幻小說或電影中見識過“自動駕駛”汽車，但真要相信機器或車載電腦能在各種條件下帶著我們四處游蕩

2018-09-14 11:03:54

蘋果AI在自動駕駛技術中的最新動態

自從蘋果公布自動駕駛項目以來，它的每一個進展都是受人關注。近日，蘋果AI高管談機器學習在其自動駕駛項目中的最新進展，其中有一項名為 SLAM 的技術才是重點。

2017-12-11 11:16:44

482

自動駕駛行業深度投資者對自動駕駛行業的呼吁

在 Uber 無人車撞死行人后，美國公眾輿論對自動駕駛的質疑聲達到頂點。以下是自動駕駛行業深度投資者、投資了 Uber、谷歌 Waymo 和特斯拉的 Jason Calacanis 寫的自動駕駛行業呼吁。

2018-04-20 16:57:10

3551

探討深度學習在自動駕駛中的應用

深度強化學習的理論、自動駕駛技術的現狀以及問題、深度強化學習在自動駕駛技術當中的應用及基于深度強化學習的禮讓自動駕駛研究。

2018-08-18 10:19:57

4854

如何基于深度神經網絡設計一個端到端的自動駕駛模型？

如何基于深度神經網絡設計一個端到端的自動駕駛模型？如何設計一個基于增強學習的自動駕駛決策系統？

2019-04-29 16:44:05

4404

自動駕駛中的傳感器技術解析

在自動駕駛技術的研發中，選擇以激光雷達還是攝像頭為主要傳感器是首要解決的問題，它們代表著兩套完全不同的系統——激光SLAM（Simultaneous Localization And Mapping）和視覺SLAM。

2019-10-12 15:08:24

2369

深度學習技術與自動駕駛設計的結合

在過去的十年里，自動駕駛汽車技術取得了越來越快的進步，主要得益于深度學習和人工智能領域的進步。作者就自動駕駛中使用的深度學習技術的現狀以及基于人工智能的自驅動結構、卷積和遞歸神經網絡、深度強化

2019-10-28 16:07:19

1831

基于BEV(Birds Eye View)的自動駕駛方案

BEV下的自動駕駛技術發展很可能就是端到端的自動駕駛框架的契機。 SelfD里作者利用BEV視角統一了大量行車視頻的數據尺度，并進行了規劃和決策模塊的模型學習。

2022-12-15 14:49:09

1315

自動駕駛中的SLAM

和自動駕駛等。近幾年來，在汽車制造商的參與下，對智能汽車的關注進一步推動了SLAM的研究工作。全球導航衛星系統（GlobalNavigation Satellite System，GNSS

2023-06-02 14:25:22

CVPR上的新頂流：BEV自動駕駛感知新范式

BEV自動駕駛感知好比一個從高處統觀全局的“上帝視角”，將三維環境信息投影到二維平面，以俯視視角展示環境中的物體和地形。在路徑規劃、障礙物檢測、自動駕駛決策等方面，BEV感知都展現出了其獨特的優勢。

2023-08-23 14:51:07

698

利用Transformer BEV解決自動駕駛Corner Case的技術原理

BEV是一種將三維環境信息投影到二維平面的方法，以俯視視角展示環境中的物體和地形。在自動駕駛領域，BEV 可以幫助系統更好地理解周圍環境，提高感知和決策的準確性。在環境感知階段，BEV 可以將激光雷達、雷達和相機等多模態數據融合在同一平面上。

2023-10-11 16:16:03

367

自動駕駛技術從SLAM+DL到BEV+Transfomrer的進化歷程

自動駕駛技術在20世紀初的概念和實驗主要集中在車輛自動化和遙控方面。到了20世紀80年代和90年代，隨著計算機技術和人工智能的發展，自動駕駛技術開始取得顯著進展。這一時期，一些大學和研究機構開始開發原型車輛，能夠在特定條件下實現自動駕駛。

2023-11-29 10:50:51

286

自動駕駛領域中，什么是BEV？什么是Occupancy？

BEV是Bird's Eye View 的縮寫，意為鳥瞰視圖。在自動駕駛領域，BEV 是指從車輛上方俯瞰的場景視圖。

2024-01-13 09:41:46

1314

BEV和Occupancy自動駕駛的作用

BEV是Bird's Eye View 的縮寫，意為鳥瞰視圖。在自動駕駛領域，BEV 是指從車輛上方俯瞰的場景視圖。BEV 圖像可以提供車輛周圍環境的完整視圖，包括車輛前方、后方、兩側和頂部。

2024-01-17 12:33:58

372

已全部加載完成

搜索歷史

深度解析自動駕駛中的BEV和SLAM技術

評論