谷歌一直稱自己用實(shí)際路測和虛擬測試相結(jié)合的方式來訓(xùn)練自動駕駛系統(tǒng)。到底兩者如何融合?在其中又遇到了哪些困難?應(yīng)該如何解決?
前幾日,繼Uber之后,Waymo的無人駕駛測試車也撞了。幸運(yùn)的是,只受輕傷。5月4日,在亞利桑那州錢德勒市,有人駕駛車輛由于某種原因跨過中間線撞向?qū)ο蛐旭偟腤aymo測試車,導(dǎo)致雙方車輛受損,無人駕駛安全員受輕傷。警方認(rèn)為,Waymo車輛和安全員無須承擔(dān)責(zé)任。
看上去,該市警方已經(jīng)適應(yīng)了無人駕駛車輛是責(zé)任主體之一的現(xiàn)狀。盡管無責(zé),也讓公眾認(rèn)識到,在某些情形下,無人駕駛車輛對其他車輛不可預(yù)測行為的反應(yīng),并不比人類做得更好。在近乎對撞的過程中,Waymo沒有采取令人驚嘆的規(guī)避動作(也許保持車道更明智),但毫無反應(yīng)就有點(diǎn)令人失望,無人駕駛測試車甚至沒有采取剎車等慣常措施。
Waymo將在內(nèi)部徹查無人系統(tǒng)的訓(xùn)練日志,但他們不會蠢到試圖搞懂車輛在“想”什么。他們只會從結(jié)果逆推,發(fā)現(xiàn)訓(xùn)練系統(tǒng)中尚未完善、甚至尚未涉足的部分。
如何訓(xùn)練一個“黑盒子”
這導(dǎo)致了谷歌“城堡”計(jì)劃曝光。谷歌一直宣稱自己用實(shí)際路測和虛擬測試相結(jié)合的方式來訓(xùn)練自動駕駛系統(tǒng)。兩者如何融合,谷歌一直秘而不宣。
新的事故表明,谷歌仍然領(lǐng)先,但不再獨(dú)一無二。
無人系統(tǒng)制造出來,就像剛出生的嬰兒一樣,擁有用于感知外界環(huán)境的“感官”(攝像頭、毫米波雷達(dá)、激光雷達(dá)),也擁有高速大腦(計(jì)算單元、圖像處理單元),但“大腦”功能尚在分化中,需要教它識別環(huán)境中一切可能出現(xiàn)的人和物體。也可以教它一些基本的對策,但實(shí)際中它如何決策,研究人員并不知曉。對于人類來說,AI決策機(jī)制是一個“黑盒子”。這是很多人對此憂心忡忡的原因。
教無人系統(tǒng)分辨道路和其他可能遇到的一切,是訓(xùn)練的第一步。就像教嬰兒看圖識物一樣。因?yàn)閳D像的信息太豐富,難以建模,深度學(xué)習(xí)似乎能發(fā)揮特殊優(yōu)勢。人類基于數(shù)百萬年的進(jìn)化,往往只須直覺就可以在復(fù)雜局面中找到解決路徑,AI正在學(xué)習(xí)這一點(diǎn),只不過遵循另一套規(guī)則。
深度學(xué)習(xí)既可以用于感知,也可以用于決策。比如的AlphaGo的走子網(wǎng)絡(luò),就是一套DNN訓(xùn)練系統(tǒng)。用最簡單的話說,就是根據(jù)當(dāng)前狀態(tài)做出決策。它的設(shè)計(jì)者和訓(xùn)練師不是要教它決策(事實(shí)上人類不知道系統(tǒng)將如何決策),而是教它一些基本知識。
在這個階段,識別環(huán)境是核心任務(wù)。物體、什么地方可以行駛(不能開上路肩和花壇)、合法行駛路徑等。
首先,在一大批車的圖像中提取基本特征,比如車的正面和側(cè)面大致的幾何形狀,令系統(tǒng)分辨出車的左側(cè)和右側(cè)(用不同特征標(biāo)記)。
有了連續(xù)多幀的圖像,根據(jù)其間的連續(xù)變化,可以分辨車的行駛方向。并可以辨識出遠(yuǎn)處視野中很小的車輛,比任何人類都看得遠(yuǎn)、看得清楚。如何評估它們對自身的影響,將放在后面訓(xùn)練。
其次,傳統(tǒng)圖像中,路肩和馬路本身顏色難以區(qū)分、立體視覺也很難辨別(畢竟高程差太?。?。人類是如何輕易識別的?靠陰影。區(qū)區(qū)10厘米的路肩,將形成一條連續(xù)暗色的窄帶區(qū)域。系統(tǒng)你學(xué)會了嗎?
用連續(xù)窄帶陰影(斷開的個別路段,正好可以做高危提醒信號),結(jié)合道線識別,勾勒出可行駛區(qū)域。
看上去很完美,可是有時候沒有道線、或者由于天氣道線難以識別。這種情況下,人類是如何駕駛的?斷續(xù)的樹木、街邊的排水明渠、兩側(cè)走動的行人,都可以成為判斷依據(jù)。而系統(tǒng)需要從大量的視頻中(實(shí)際上是多幀圖像)提取出人類策略,并加以優(yōu)化。
Waymo期待自己的AI系統(tǒng)和明智的人類駕駛員一樣,采取幾乎相同的步驟,但比任何人類反應(yīng)更迅捷、處置更果斷。但在5月4日的車禍中,這一點(diǎn)沒有得到體現(xiàn),究竟是哪里出了問題?
訓(xùn)練系統(tǒng)的局限
這表明,大量的虛擬環(huán)境訓(xùn)練,至少有一部分沒有被用于實(shí)際場景中。也就是說,融合出了問題。
當(dāng)無人系統(tǒng)具備的了辨識能力之后,它需要面對兩類場景:一類是真實(shí)世界,另一類是數(shù)字世界。從前者取得“實(shí)操”經(jīng)驗(yàn)后,在后者里面變換各種條件(比如將障礙物移動位置、讓行人的行為更加不可預(yù)測),不斷磨練應(yīng)對策略,直到最優(yōu)。
谷歌的專家承認(rèn),模擬不靠譜的人類行為極為困難。即便簡單的十字路口,無人系統(tǒng)也對不遵循信號的行人和摩托車感到困惑。經(jīng)歷了一連串的剎車之后,無數(shù)車輛試圖從旁邊擠入,導(dǎo)致局面更混亂。
在數(shù)字化訓(xùn)練系統(tǒng)中,Waymo再次簡化了路況。譬如兩條同向高速車道、只涉及兩輛車。A車搭載無人系統(tǒng),B車將作為阻礙出現(xiàn)。
當(dāng)A車以90公里的速度在內(nèi)側(cè)道路直行,右側(cè)B車猛然超車并到A車前方,并且緊接著剎車。A車能否迅速、平穩(wěn)地剎車,同時還要給后面車輛留出足夠的剎車時間?
B以各種方式、從不同角度阻擋A車,對于A車剎車過程的測試重復(fù)上百次。訓(xùn)練系統(tǒng)記錄下來無人系統(tǒng)的表現(xiàn),并對其中失敗的情形進(jìn)行分析,優(yōu)化后者的處置動作。
然后局面被設(shè)置得更復(fù)雜:城市多條車道,遇到在車道上后退車輛、路上突然出現(xiàn)滾動的籃球或者從隔離帶上突然躥出行人,考查無人系統(tǒng)將如何應(yīng)對。
當(dāng)然,程序中無法窮盡所有輸入條件。程序員們希望無人系統(tǒng)在數(shù)萬種情景中提煉出方法,以便在其他情景中也能做出理智決策。
5月4日的車禍,對于當(dāng)前的Waymo測試車來說,可能屬于“超綱”情形。面對對向車輛猛沖過來,人類的問題在于沒有足夠的觀察、決策時間,以至于慌了手腳。
但無人系統(tǒng)不是這樣,在毫秒級的傳感器數(shù)據(jù)解算下,CPU準(zhǔn)確地獲知了周圍所有車輛的即時位置,斜沖過來的車輛瞬時速度和加速度,預(yù)測了此后數(shù)秒內(nèi)對方的連續(xù)位置。并算出如果不采取緊急制動+變換方向,1.5秒后將發(fā)生危及車內(nèi)人員的劇烈碰撞。
是什么促使Waymo車輛做出不予理會的決定呢?是右側(cè)車道沒有機(jī)動空間,還是預(yù)測變換方向后無法保持車輛的穩(wěn)定,抑或是急劇剎車也無法改變碰撞的結(jié)果,反而會因路面摩擦的不平衡使車輛側(cè)翻、從而導(dǎo)致更嚴(yán)重的后果?我們無法獲知決策過程,Waymo工程師們讀取數(shù)據(jù)可能解決一部分困惑。如果他們的結(jié)論和無人車當(dāng)時的決策一樣——什么都不做更有利,那么就毫無問題。
問題在于,這樣的結(jié)論超出了人類的認(rèn)知。面對危機(jī)我們總要做點(diǎn)什么,我們迅速提高腎上腺素水平、瞳孔放大、肌肉繃緊,血壓上升,以迎接挑戰(zhàn)。
將AI決策與人類比較,可能是不合適的。這反過來促使人們思考基于人類經(jīng)驗(yàn)的訓(xùn)練系統(tǒng)有效性。
虛擬世界可能設(shè)置得太簡單了
Waymo的專家們吹噓他們是唯一一個采用“加速訓(xùn)練系統(tǒng)”的公司,實(shí)際上,福特、優(yōu)步和通用也都在硅谷建立了類似的訓(xùn)練系統(tǒng)。Waymo只不過是開始得最早的一個。當(dāng)然,他們?nèi)〉玫臄?shù)據(jù)也是最多的。
虛擬世界的訓(xùn)練,在24小時內(nèi)可能跑出上千萬公里。每一分鐘都能模擬出10年前兩周的工作量。有專家提出模擬和真實(shí)公路測試的比例應(yīng)該是100:1。同時,模擬部分應(yīng)該把無聊的地方切斷,專注于有趣的部分(盡可能的復(fù)雜場景),達(dá)到加速訓(xùn)練的目的。
有人認(rèn)為,一旦無人系統(tǒng)在虛擬城市中的數(shù)量達(dá)到數(shù)百萬個,其群體行為模式,已經(jīng)非常接近真實(shí)的超級城市日常。而在其背后,必須部署足夠的實(shí)際車輛和傳感器,建立公路數(shù)據(jù)庫。完全依靠虛擬場景訓(xùn)練出來的無人系統(tǒng),可能面對真實(shí)路況時表現(xiàn)“不大一樣”。
這提示了人們,虛擬城市的模型過于簡單,會不會導(dǎo)致無人車無法駕馭大城市的復(fù)雜局面。
不過,錢德勒市是旅游勝地,實(shí)際上人口只有幾十萬。而且通常陽光充足、對傳感器正常工作有正面作用。環(huán)境影響似乎可以排除。
讓我們回到開始。訓(xùn)練雖然開始時借鑒了人類司機(jī)應(yīng)對的場景,但最終人工智能可能會采取不同的策略。隨著無人系統(tǒng)對人類行為理解的深入,促使它形成自己的駕駛風(fēng)格。令人吃驚的是,無人系統(tǒng)面對另一個無人系統(tǒng)時采取的策略,與它面對人類駕駛車輛時不一樣。而我們還沒有想過城市里完全充斥著無人駕駛車輛的情形。
這意味著,無人系統(tǒng)統(tǒng)治整個城市的時候,可能自發(fā)形成全新的交通準(zhǔn)則。更高效、更默契。人類在汽車時代所積累并奉為圭臬的準(zhǔn)則,很可能被替代。車禍揭示了有人和無人車輛混行可能造成的混亂,但也讓我們更期待全新的無人駕駛交通。到那時,無人系統(tǒng)的工作可能更簡單。
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105472 -
無人駕駛
+關(guān)注
關(guān)注
98文章
4067瀏覽量
120567 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13838瀏覽量
166529
原文標(biāo)題:如何訓(xùn)練無人駕駛系統(tǒng)?
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論