2023 年 10 月 27 日,蟄伏了 3 年之久的極越 01 正式上市,相比于已經(jīng)曝光到幾乎明牌的整車,我更對(duì)極越 01 所搭載的這套輔助駕駛系統(tǒng)更感興趣。 主要有兩個(gè)點(diǎn):
Apollo 高階自動(dòng)駕駛能力全面賦能
單挑特斯拉,中國(guó)唯一的量產(chǎn)純視覺方案
這兩個(gè)點(diǎn)提取一個(gè)關(guān)鍵詞最終都落在了「純視覺」上,如果長(zhǎng)期研究輔助駕駛技術(shù)的對(duì)純視覺輔助駕駛方案都不陌生,這是目前僅有特斯拉一家量產(chǎn)應(yīng)用上車的智駕方案。
在 2023 年新能源汽車行業(yè)如此內(nèi)卷的態(tài)勢(shì)下,極越 01 作為一個(gè)新選手要用什么姿態(tài)來奪得大眾的目光?
顯然智駕是一個(gè)比較好的選擇,不管是華為、蔚來、理想、小鵬都明確了自家要在智能化這條道上比拼到底,而這中間最核心的部分當(dāng)屬智駕。
智駕比拼是一個(gè)確定性的答案,可是在國(guó)內(nèi)沒有一家說要完全切換到純視覺,當(dāng)然除了極越。
這是一個(gè)很有趣的現(xiàn)象,一方面是國(guó)內(nèi)各家不敢切換還是不想切換;另一方面純視覺究竟有什么魔力,讓特斯拉和其他廠商分歧如此之大。
對(duì)于中國(guó)路況,其他主機(jī)廠給出的答案是要用激光雷達(dá)解決多復(fù)雜場(chǎng)景,實(shí)現(xiàn)安全容易,而極越的選擇是用「純視覺」挑戰(zhàn)技術(shù)極限。
01
先了解整車
極越 01 目前推出兩個(gè)版本:
極越 01 MAX
CLTC 續(xù)航 550km
后驅(qū)電機(jī)最大功率 200 kW
標(biāo)配高通 8295、2 顆 Orin X?等支持城市輔助駕駛的智駕硬件
售價(jià) 24.99 萬元(1.9 萬上市權(quán)益包后 23.09 萬)
選裝 100 度電池包,續(xù)航可達(dá)?720km
極越 01 MAX Performance
標(biāo)配 100 度電池包,CLTC 續(xù)航 660km
四驅(qū)雙電機(jī)?200kW + 200kW
標(biāo)配高通 8295、2 顆 Orin X?等支持城市輔助駕駛的智駕硬件
標(biāo)配可升降尾翼
售價(jià) 33.99 萬元(1.9 萬元上市權(quán)益包后 32.09 萬元)
從實(shí)際體驗(yàn)來看,作為一個(gè)新品牌,新產(chǎn)品極越 01 的完成度是不錯(cuò)的,以智能化為整體差異化的方式雖然很難,但路徑選擇道也合理,整車設(shè)計(jì)并沒有出現(xiàn)過于嘩眾取寵的點(diǎn)。
可是極越 01 最大的難點(diǎn)在于,一上市就遇到了汽車行業(yè)史無前例的價(jià)格戰(zhàn),特別是整車的優(yōu)惠權(quán)益讓很多潛在用戶看不懂的情況下,24.99 萬的起售價(jià)顯得并不是很有沖擊力。
但真的如此嗎?
先說一個(gè)現(xiàn)象:「極越 01 整體優(yōu)惠后的價(jià)格其實(shí)非常有誠(chéng)意,但是極越對(duì)于權(quán)益的策略制定卻非常混亂,這個(gè)混亂導(dǎo)致很多真實(shí)的潛在用戶根本看不懂。」
一個(gè)一個(gè)說:
一,現(xiàn)金優(yōu)惠
這個(gè)優(yōu)惠是實(shí)打?qū)嵉默F(xiàn)金權(quán)益,是直接抵扣在車價(jià)里面的,這里面包含兩個(gè)部分:
1.9 萬元上市權(quán)益金:9000 元盲訂膨脹金 + 5000 元大定立減金 + 5000 元邀請(qǐng)獎(jiǎng)勵(lì)(4000 元京東卡加上 10000 積分);
1.5 萬元選裝基金:如果選擇收費(fèi)選裝項(xiàng)目可以立減 1.5 萬元。
也就是,1.9 萬元和 1.5 萬元疊加使用后,可綜合優(yōu)惠 3.4 萬元。
二,整車權(quán)益
在 11 月 30 日之前的定購的用戶,均可享受三個(gè)非常劃算的權(quán)益:
終身整車及三電質(zhì)保、道路救援:價(jià)值 8000 元
直流家充樁或 2 年免費(fèi)充電:價(jià)值 7500 元
ROBO Drive MAX 6 個(gè)月免費(fèi)訂閱:價(jià)值 5880 元
也就是說,購買極越 01 MAX 550km 版疊加完權(quán)益后只需要 23.59 萬元,同時(shí)還能免費(fèi)拿一套舒享套裝。
但智駕權(quán)益里面有一個(gè)小細(xì)節(jié),按照目前的權(quán)益策略是買斷 1.99 萬元、訂閱 980 元/月,但如果你用選裝基金買斷智駕系統(tǒng)的話只需要 4900 元買斷。
但你需要注意一個(gè)細(xì)節(jié),如果你用 1.5 萬元選裝基金去抵扣智駕買斷,那么你也會(huì)失去舒享套裝。
總結(jié)則是,舒享套裝和智駕系統(tǒng)你只能白嫖一個(gè)。
講完整車,下面智駕才是極越 01 的核心。
02
智駕最終要回歸到硬件的合理性上
硬件堆疊并不能保證最終的體驗(yàn)
在講極越 01 的純視覺方案之前,先說一個(gè)背景:
我們都知道市面上將智駕分為「純視覺」和「激光雷達(dá)融合」方案兩種,可是對(duì)于這兩種方案區(qū)別性的解釋,往往只歸結(jié)在有無激光雷達(dá)硬件這一個(gè)維度上。
顯然,這么理解對(duì)于輔助駕駛的解釋即不明確也不立體。
我們先理解輔助駕駛系統(tǒng)包含的核心兩個(gè)能力,很好理解:一個(gè)是硬件,包含計(jì)算平臺(tái)、感知傳感器、定位等;另一個(gè)則是算法,一個(gè)系統(tǒng)運(yùn)行的基本神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
純視覺和激光雷達(dá)方案,除了字面意思理解到的感知傳感器的區(qū)別,還有就是算法對(duì)于攝像頭和激光雷達(dá)數(shù)據(jù)處理的方式。
簡(jiǎn)單說就是,即使使用了激光雷達(dá),但激光雷達(dá)數(shù)據(jù)的融合方式也決定了系統(tǒng)整個(gè)能力的表現(xiàn),有些廠商的方案是視覺數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)是分別處理的,融合過程在各自輸出結(jié)果的層面上完成,也就是自動(dòng)駕駛領(lǐng)域常說的?「后融合」。
這樣做可以盡可能地保證兩個(gè)系統(tǒng)之間的獨(dú)立性,并為彼此提供安全冗余。
但后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò),無法充分利用兩個(gè)異構(gòu)傳感器之間數(shù)據(jù)的互補(bǔ)性,來學(xué)習(xí)最有價(jià)值的特征。
這也是異構(gòu)感知傳感器系統(tǒng),為什么大部分都存在「時(shí)間上的感知不連續(xù)、空間上的感知碎片化」的問題。」
我回想起 2021 年,車企爭(zhēng)相宣布擺脫供應(yīng)商方案,選擇自動(dòng)駕駛「全棧自研」,彼時(shí)輔助駕駛賽道還是 Mobileye 的天下,大部分車企的輔助駕駛方案都來自于 MobilEye 的能力,乃至于國(guó)內(nèi)第一個(gè)高速導(dǎo)航輔助駕駛量產(chǎn)方案蔚來 NOP 也是基于 MobilEye 視覺方案進(jìn)行的二次開發(fā)。
從供應(yīng)商切換到自研意味著一切從零開始,但是要很快追平原有方案的體驗(yàn)。
但是新產(chǎn)品的上市,只留給了車企們兩年的時(shí)間,而 Mobileye 成立于 1999 年,2008 年就提供了 Eye Q1 芯片,目前出貨量已經(jīng)超過一億片。
到了 2020 年 Eye Q4 已經(jīng)是全球出貨量最大的智駕芯片,Mobileye 的 L2 方案幾乎拿下來國(guó)內(nèi)外大部分頂級(jí)廠商,蔚來、理想、寶馬等等。
這種競(jìng)爭(zhēng)并不公平。
好在我們有一條清晰的捷徑?「激光雷達(dá)」,它可以提供珍貴的距離真值,給出了相對(duì)直接的世界描述,給開發(fā)提供了極大便利。
也正因如此,一切就顯得水到渠成,眾多車企開始比拼激光雷達(dá)的數(shù)目。鋪天蓋地的宣傳下「硬件性能不等于最終體驗(yàn)」這件事卻被有意忽略了。
硬件只是基礎(chǔ),算法的能力決定了系統(tǒng)的上限。
到 2023 年,消費(fèi)者開始發(fā)現(xiàn),即使攝像頭和激光雷達(dá)遍布全車,更高階的輔助駕駛功能并沒有如期而至。
車企的算法能力沒有因?yàn)橛布亩询B而得到質(zhì)的飛躍,而特斯拉依然靠著幾乎普通的感知硬件,用純視覺始終保持在輔助駕駛第一陣營(yíng)。
純視覺通往高階輔助駕駛的最優(yōu)解?
人靠視覺就能開車,那么視覺就能完成輔助駕駛。這是馬斯克的第一性原理,特斯拉死磕純視覺的理由。
那么技術(shù)上是怎么實(shí)現(xiàn)的?
我們?cè)诼飞峡吹揭惠v車能夠知道,這可能是一個(gè)障礙物,同時(shí)我們也可以大概估計(jì)這輛車離我們有多遠(yuǎn)。
純視覺算法也是如此。
本質(zhì)上是通過對(duì)圖像信息的特征進(jìn)行廣泛的訓(xùn)練,讓神經(jīng)網(wǎng)絡(luò)獲得視覺估計(jì)距離的能力。?
經(jīng)過大量數(shù)據(jù)訓(xùn)練的算法,能夠得到前方障礙物的類型,同時(shí)得到一個(gè)位置估計(jì),提供給下游規(guī)劃控制算法。
當(dāng)然,這里最重要的是:「精確的真值標(biāo)注」和「大量的數(shù)據(jù)」。
這不是一件簡(jiǎn)單的事情。
需要用數(shù)據(jù)壓榨算法的能力,在弱硬件上得到足夠好的性能,逐漸逼近算法的上限。
03
純視覺算法的上限在哪?
純視覺估計(jì)距離具備足夠的數(shù)學(xué)理論基礎(chǔ)
這里舉一個(gè)例子,雙目測(cè)距,假設(shè)我們有一個(gè)點(diǎn) P,但是我們用不同的攝像頭去拍攝這個(gè)點(diǎn),那么這個(gè)點(diǎn)會(huì)分別在左邊和右邊的圖片上分別形成一個(gè)點(diǎn)。
如果我們對(duì)這兩個(gè)點(diǎn)的位置尋找得足夠準(zhǔn)確的話,根據(jù)圖片上這兩個(gè)點(diǎn) p_l,p_r 的位置差別,我們可以按照相似三角形的原理,計(jì)算出 P 點(diǎn)在世界中的位置。
當(dāng)然,這里有許多局限,在圖片上的點(diǎn)進(jìn)行搜索時(shí),我們并不總能如愿找到精確兩個(gè)點(diǎn)對(duì),所以傳統(tǒng)雙目測(cè)距會(huì)有一定的局限性。
但是,這種數(shù)學(xué)原理也告訴我們,視覺算法的上限是足夠高的。
本質(zhì)原理即:多個(gè)攝像頭之間的視覺特征互相驗(yàn)證,能夠獲得相對(duì)精確的距離信息。
實(shí)際上目前主流的 BEV 的網(wǎng)絡(luò),某種程度上也可以看作將視覺特征投影到 BEV 俯視圖下,各視角的特征進(jìn)行互相自動(dòng)驗(yàn)證,最終得到一個(gè)相對(duì)精確的結(jié)果的。
但即使業(yè)界認(rèn)為視覺的上限很高,但執(zhí)行量產(chǎn)的動(dòng)作卻是一個(gè)地獄級(jí)別的難度,那么純視覺難度在何處?
「純視覺」企業(yè)工程師的噩夢(mèng)
從傳統(tǒng)雙目視覺的角度看,我們無法如愿找到精確的兩個(gè)點(diǎn)對(duì),而從深度學(xué)習(xí)的角度看,我們無法保證神經(jīng)網(wǎng)絡(luò)內(nèi)部的多個(gè)攝像頭的視覺互相驗(yàn)證時(shí)正確的。
算法一直都在不斷演進(jìn),例如 BEV 視角去進(jìn)行自動(dòng)駕駛感知,Transformer 結(jié)構(gòu)也獲得了很多關(guān)注。
但是在特斯拉驗(yàn)證可行之前,沒有人這么做量產(chǎn)。
因?yàn)樾枰罅康臄?shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,來逐步提升距離估計(jì)的精確。
特斯拉用強(qiáng)大的工程能力完成數(shù)據(jù)閉環(huán),示范這件事情可行。回想起 2021 年看特斯拉 AI Day 那個(gè)夜晚,行業(yè)驚呼特斯拉的工程能力之強(qiáng),也驚呼純視覺的上限竟然如此高。
那么需要怎么做?
為了保證輔助駕駛的可靠性,工程師需要一個(gè)對(duì)周圍障礙物估計(jì)的網(wǎng)絡(luò),這樣就車輛能夠看到周圍交通參與者,并且能夠?qū)λ鼈冞M(jìn)行及時(shí)的反應(yīng)。
這就是 BEV 動(dòng)態(tài)網(wǎng)絡(luò),本質(zhì)上俯視圖,將所有的攝像頭信息都投影到這個(gè)俯視圖上,由于每個(gè)攝像頭之間有互相的信息補(bǔ)齊,這樣對(duì)遮擋的物體也能夠較好的識(shí)別,并且當(dāng)引入時(shí)序信息。
也就是說,將這一個(gè)時(shí)間段前面的信息也融合進(jìn)來也能夠多一些信息進(jìn)行推理,這樣會(huì)給 PNC 帶來更好的障礙物軌跡預(yù)測(cè)結(jié)果,進(jìn)而帶來更安全且順滑的體驗(yàn)。
視頻截圖是基于極越 01 前段時(shí)間在上海市區(qū),基于 BEV Transformer 的純視覺架構(gòu)跑出來的效果,展現(xiàn)出的足夠高的精度和足夠遠(yuǎn)的感知距離,可以證明極越的純視覺方案已經(jīng)有比較高的完成度。
但是這還不夠。
除了障礙物,系統(tǒng)還需要車道線和道路拓?fù)浣Y(jié)構(gòu)的識(shí)別,同樣的,將周圍的攝像頭轉(zhuǎn)換到BEV 空間下,將周圍的地圖繪制出來,這就是常說的實(shí)時(shí)繪制地圖。
這些部分完成之后,最難的部分來了。
這些本質(zhì)上到目前所感知到的障礙物還是白名單物體,并且還是物體級(jí)的識(shí)別。當(dāng)在城市中駕駛時(shí),很多物體需要被更精確的描述,而且很多物體在并不在常見的白名單中。
這里出現(xiàn)了一個(gè)新的詞:白名單。
其實(shí)你就簡(jiǎn)單理解成,這個(gè)時(shí)候系統(tǒng)所感知到的障礙物都是通過標(biāo)準(zhǔn)完成的,工程師將感知到的數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn),形成一個(gè)可用數(shù)據(jù)包然后通過云端和實(shí)時(shí)感知進(jìn)行數(shù)據(jù)比對(duì),這樣系統(tǒng)在駕駛開啟時(shí)所感知到的物體都是經(jīng)過標(biāo)注后的。
但這有個(gè)問題,即使今天自動(dòng)標(biāo)注也已經(jīng)逐步量產(chǎn),但在真實(shí)物理世界里所出現(xiàn)的障礙物也不能被窮盡,同時(shí)數(shù)據(jù)標(biāo)注的精度不夠高,也不能描述具體物體的 3D 信息。
一句話總結(jié)則是:白名單里的物體都是工程師標(biāo)注后系統(tǒng)已知的物體。
那系統(tǒng)不知道的物體呢?
這里就需要一個(gè)「占用網(wǎng)絡(luò)」。
簡(jiǎn)單來說就是,純視覺將世界感知分為無數(shù)個(gè)網(wǎng)格體,每個(gè)網(wǎng)格體里面代表被占據(jù)的概率。
在極越 01 上市之前,極越官方釋放了一個(gè)基于 OCC 占用網(wǎng)絡(luò)的視頻 demo,可以看到視頻里包含的感知內(nèi)容:一個(gè)常規(guī)的周圍環(huán)境實(shí)時(shí)顯示;另一個(gè)通用占用網(wǎng)絡(luò)。
這便是極越的輔助駕駛方案:動(dòng)態(tài) BEV + 靜態(tài) BEV + 占用網(wǎng)絡(luò)。
這條路與特斯拉基本一致,不同的是極越的攝像頭是 800 萬像素,而特斯拉的攝像頭是 200 萬。對(duì)于相對(duì)較遠(yuǎn)的物體,極越這套硬件可以分配到更多的像素理論上限會(huì)更高。
BEV 動(dòng)態(tài)識(shí)別網(wǎng)絡(luò) + BEV 靜態(tài)網(wǎng)絡(luò)做地圖構(gòu)建,這是相對(duì)常規(guī)的內(nèi)容,頭部的幾家也基本上完成了 BEV 的量產(chǎn)。
為什么占用網(wǎng)絡(luò)上車才能證明純視覺最終能走通?
占用網(wǎng)絡(luò)將世界感知為相對(duì)比較小的占用空間,每個(gè)空間里面有被占據(jù)的概率。相較于常規(guī)的畫一個(gè) 3D 或者 2D 框來描述某一個(gè)具體的物體,占用網(wǎng)格的描述更加細(xì)膩。
例如一個(gè)兩節(jié)的大公交車,常規(guī)的描述是一個(gè) 3D 長(zhǎng)寬高, 但是當(dāng)這輛公交正在進(jìn)行轉(zhuǎn)向的時(shí)候描述就顯得不夠精確了。
如果將這輛公交車分割成很多塊,這樣即使運(yùn)動(dòng)起來,描述也足夠精準(zhǔn)。
極越這里也展現(xiàn)了不是畫一個(gè) 2D 框,顯示這個(gè)是一輛車,而是顯示這是一些被占據(jù)的空間。
這樣更加精細(xì)地描述了感知世界之后,邏輯就可以變成:
如果道路上沒有被占據(jù)就是可行駛空間,這就完全跳脫出原來識(shí)別是一個(gè)具體物體(人,車,錐桶等),然后再考慮能不能開的邏輯,而是有障礙物影響就需要做繞行或者新的路徑規(guī)劃。
這就規(guī)避了窮舉道路上所有目標(biāo)的問題。
為什么純視覺占用網(wǎng)絡(luò)不像 BEV 一樣,提出之后被大量跟進(jìn),到目前國(guó)內(nèi)也只有極越宣布今年 12 月上車?
因?yàn)槎叩募夹g(shù)迭代路線已經(jīng)出現(xiàn)了顯著的分歧,大部分高度重視激光雷達(dá)的算法方案,都在研究如何將激光雷達(dá)的真值更好地使用。
激光雷達(dá)可以相對(duì)天然得到一個(gè)占用網(wǎng)格結(jié)果,尤其是在前視部分。
比如華為提出的 GOD,從某種意義就是 Lidar 點(diǎn)云作為基礎(chǔ),得出的占用網(wǎng)絡(luò)結(jié)果,通過 3D 點(diǎn)獲得 3D 占用網(wǎng)絡(luò),再通過視覺進(jìn)行一定的融合表現(xiàn)也很好。
相較于 Lidar 直接獲得真值,純視覺這條路要靠多攝像頭直接推導(dǎo)出距離信息,這中間的難度極大。
但是純視覺這條路得出占用網(wǎng)絡(luò)(Occupancy Grid 3D)并不是終局。
之后還會(huì)有:
「Occupancy Flow 」:就是對(duì)占用網(wǎng)絡(luò)運(yùn)動(dòng)狀態(tài)相關(guān)的估計(jì),這個(gè)格子的自身運(yùn)動(dòng)狀態(tài)是什么。例如視頻里第二張圖中的紅色圈出的部分,估計(jì)出非剛體的不同部分的運(yùn)動(dòng)狀態(tài),藍(lán)色運(yùn)動(dòng),紅色靜止;
Occupancy prediction:對(duì)占據(jù)網(wǎng)格預(yù)測(cè)相關(guān)的估計(jì),這個(gè)格子下一步怎么走
也就是說,以前目標(biāo)級(jí)別的任務(wù),在更細(xì)粒度上的占用網(wǎng)格上都可以做一遍,占據(jù)網(wǎng)絡(luò)對(duì)周圍世界的理解,不是目標(biāo)級(jí)別的感知可以比擬的。
寫在最后
極越選了一條非常難并且不一樣的路,在選擇的過程中一定會(huì)伴隨著質(zhì)疑,但是極越還是勇敢地站出來。
當(dāng)視覺能力足夠強(qiáng)時(shí),足夠完成城區(qū)高階輔助駕駛。
若無必要,勿增實(shí)體,這是互聯(lián)網(wǎng)產(chǎn)品圈非常流行的一句話。
極越方案里的純視覺選擇就是這么出現(xiàn)的,不看硬件,只關(guān)注體驗(yàn)。
純視覺的核心是:
構(gòu)建以視覺為中心的輔助駕駛系統(tǒng),不被其他的傳感器分掉研發(fā)精力,并且構(gòu)建出一個(gè)非常精簡(jiǎn)的數(shù)據(jù)閉環(huán)系統(tǒng),在之后的方案迭代中能夠保證數(shù)據(jù)的高度可復(fù)用性。
也期待極越使用純視覺完成端到端的方案構(gòu)建。
這條路很難,但是選擇最難的這條路,或許是通向未來的最正確的一條路。
編輯:黃飛
?
評(píng)論
查看更多