自動駕駛的軌跡預(yù)測必須不斷推理路上智能體的隨機運動并遵守場景約束。現(xiàn)有方法通常依賴于一階段軌跡預(yù)測模型,該模型根據(jù)觀察到的軌跡結(jié)合融合的場景信息來確定未來軌跡。然而,他們經(jīng)常與復(fù)雜的場景約束作斗爭,例如在十字路口遇到的約束。為此,論文提出了一種稱為LAformer的新方法。它使用時間上稠密的車道感知估計模塊僅選擇HD地圖中最有潛力的車道段,從而有效且連續(xù)地將運動動態(tài)與場景信息對齊,通過過濾掉不相關(guān)的車道段減少后續(xù)基于注意力的解碼器的表示要求。此外,與一階段預(yù)測模型不同,LAformer 利用第一階段的預(yù)測作為錨點軌跡,并添加第二階段運動細化模塊,以進一步探索整個時間范圍內(nèi)的時間一致性。在Argoverse1和nuScenes上進行的大量實驗表明,LAformer在多模態(tài)軌跡預(yù)測方面取得了出色的性能。
介紹
準確的軌跡預(yù)測對于在涉及與各種道路智能體交互的各種交通場景中實現(xiàn)自動駕駛至關(guān)重要。由于智能體的隨機行為及其相互影響,加上環(huán)境場景上下文的變化,軌跡預(yù)測仍然是一項極具挑戰(zhàn)性的任務(wù)。因此,這項任務(wù)需要有效地學(xué)習(xí)智能體的運動動力和與其他智能體的交互,以及仔細考慮場景約束。
已經(jīng)開發(fā)了許多數(shù)據(jù)驅(qū)動的方法來解決軌跡預(yù)測問題,從順序軌跡中提取運動信息和光柵化地圖數(shù)據(jù)中提取場景上下文信息,然后將它們在潛在空間中進行融合作為多模態(tài)解碼器的輸入,如Trajectron++ [39]、CoverNet [34] 和AgentFormer [47]等工作所述。然而,這些方法未能在后續(xù)解碼模塊的早期階段利用空間和時間信息。此外,柵格化地圖需要大量的感受野過濾器和計算成本來感知場景上下文,在復(fù)雜的交叉路口,這可能無法提供準確的道路結(jié)構(gòu)特征,特別是對于車輛軌跡預(yù)測。因此,解碼器可能會生成不符合場景的軌跡預(yù)測。為了緩解這個問題,VectorNet [10] 建議將軌跡和高清 (HD) 地圖數(shù)據(jù)統(tǒng)一為一致的矢量化形式。這種矢量化使基于高清地圖的軌跡和車道段能夠用相同的編碼器輕松處理和融合。
已經(jīng)有很多探索車道段的嘗試,包括深度特征融合,例如 [20, 48] 和啟發(fā)式搜索,例如 [9]. 論文進一步將主流方法分類為空間和時間密集的方法。當(dāng)前的大多數(shù)方法都屬于前一種方法,它估計稠密概率目標(biāo)候選 [50、15]、端點 [43、11、12] 的分段建議點或投影到給定場景的整個序列編碼 [9]。論文認為這些方法不是最優(yōu)的,因為如果在初始步驟中預(yù)測準確,則可能會出現(xiàn)復(fù)合預(yù)測錯誤。相比之下,時間稠密的方法試圖估計運動狀態(tài)在每個時間步與車道位置對齊的可能性。因此,如果運動狀態(tài)和車道段隨著時間的推移而偏離,解碼器就有更好的機會調(diào)整其預(yù)測。然而,這并非微不足道,因為估計模塊需要考慮車道段的可變性和運動狀態(tài)的不確定性。此外,當(dāng)自車輛處于具有多個平行車道的交叉路口時,或者當(dāng)自車輛進行車道變換或轉(zhuǎn)彎時,僅基于距離度量 [12] 的對齊是不夠的。然而,在探索時間稠密方法上并沒有太多研究,也沒有太多關(guān)注有選擇地將地圖信息提供給解碼器以促進解碼過程。
為此,論文提出了一種時間密集的方法,稱為LAformer。LAformer的本質(zhì)如圖1所示。它利用車道感知估計模塊在每個時間步僅選擇前k個高潛力車道段,從而有效且連續(xù)地將運動動態(tài)與場景信息對齊。具體來說,論文采用基于注意力的編碼器,稱為全局交互圖 (GIG),從統(tǒng)一的矢量化軌跡和高清地圖中提取時空特征。不同于 [43、11、12、9] 等空間稠密方法,論文使用從 GIG 模塊提取的車道信息和目標(biāo)智能體的運動(包括速度和方向信息)訓(xùn)練二元分類器,以在整個預(yù)測時間范圍內(nèi)進行逐步車道選擇。然后,論文引入拉普拉斯混合密度網(wǎng)絡(luò) (MDN) 來生成僅與選定的車道段對齊的符合場景的多模態(tài)軌跡預(yù)測。通過這種方式,過濾掉不相關(guān)的車道段以減少解碼過程的表示要求。
此外,為了進一步利用整個時間范圍內(nèi)的時間一致性,論文引入了一個運動細化模塊。LAformer 利用第一階段的預(yù)測作為錨點軌跡,這與使用預(yù)定義錨點的基于錨點的軌跡預(yù)測方法不同 [3, 41]。然后第二階段運動細化模塊將觀察到的和預(yù)測的軌跡作為輸入以進一步減少預(yù)測偏移,這與第一階段不同。盡管這種改進模塊的策略在計算機視覺任務(wù)中并不是特別新鮮,但據(jù)論文所知,本文是第一個有效地將其應(yīng)用于改進軌跡預(yù)測的。
本文的主要貢獻總結(jié)如下:
本文提出了一種新的時間密集車道感知選擇方法,以在每個預(yù)測時間步識別前k個高可能性車道段,這與以前的空間稠密方法不同。這種選擇方法有助于車道條件下解碼器進行軌跡預(yù)測。
論文利用第一階段的預(yù)測軌跡作為錨點軌跡,并引入第二階段的運動細化模塊,該模塊同時考慮觀察到的和預(yù)測的軌跡。細化模塊進一步探索過去和未來時間范圍內(nèi)的時間一致性。
論文證明了LAformer 在兩個基準數(shù)據(jù)集上的有效性,即Argoverse1 [4]和nuScenes [2] 它在兩個基準測試中都取得了出色的性能,并在多模態(tài)運動預(yù)測任務(wù)中表現(xiàn)出卓越的泛化性能。
相關(guān)工作
智能體之間交互建模
智能體相互連接以實現(xiàn)社交聯(lián)系和避免碰撞 [33, 17]。大多數(shù)深度學(xué)習(xí)模型,例如 [1, 24, 16, 38, 39, 47],使用智能體的隱藏狀態(tài)來聚合交互操作信息。最流行的聚合策略包括池化 [1、7、10]、使用圖卷積網(wǎng)絡(luò) (GCN) [44] 的消息傳遞 [49、46、48],以及注意力機制 [47、26、5]。為了根據(jù)周圍智能體的相對位置和屬性區(qū)分周圍智能體的影響,論文建議在這項工作中使用注意機制進行交互建模。
預(yù)測多模態(tài)軌跡
在自動駕駛軌跡預(yù)測的背景下,預(yù)測不同的多模態(tài)軌跡比單一模態(tài)軌跡更有利于應(yīng)對智能體的不確定行為和場景約束。生成模型,例如生成對抗網(wǎng)絡(luò) (GAN) [14]、變分自動編碼器 (VAE) [23] 和條件 VAE [22] 以及流 [35],使用基于采樣的方法生成多個預(yù)測 [16, 24, 36, 6]。然而,它們并沒有提供對每種模態(tài)可能性的直接估計。雖然高斯混合密度網(wǎng)絡(luò) (MDN) 可以提供概率密度函數(shù)來學(xué)習(xí)模態(tài)分布,但與生成模型類似,當(dāng)只有一個真值軌跡用于監(jiān)督學(xué)習(xí)時,它們經(jīng)常遇到所謂的模態(tài)崩潰問題 [37]。為了緩解模態(tài)崩潰問題,本文探索了拉普拉斯 MDN 與贏者通吃策略的使用 [28、52、9]。此外,為了增加模態(tài)多樣性,一些方法會生成過多的預(yù)測并采用集成技術(shù)(例如聚類或非最大抑制)將預(yù)測減少為有限數(shù)量的模態(tài) [41、43]。然而,這種集成過程對于實時自動駕駛汽車來說是耗時且不切實際的 [52]。因此,本文不采用這種技術(shù)。
提取場景上下文信息
為了預(yù)測符合場景的軌跡,必須考慮場景上下文。卷積神經(jīng)網(wǎng)絡(luò) (CNN) 通常用于從鳥瞰圖像中提取場景上下文,例如具有一般上下文的RGB圖像 [24、38] 和具有不同場景類別的語義圖 [34、39、47]。然而,CNN 難以捕獲細粒度的場景信息,例如車道幾何形狀和交通規(guī)則。此外,柵格化數(shù)據(jù)的稀疏信息導(dǎo)致計算效率較低,需要強大的融合模塊來為預(yù)測模塊對齊異構(gòu)運動和場景信息。為了應(yīng)對這些挑戰(zhàn),可以使用統(tǒng)一的矢量化方案 [10] 來對齊高清地圖中的軌跡和車道。由點、折線和多邊形表示的軌跡和場景上下文都被編碼在一個具有坐標(biāo)信息和各種智能體或車道屬性的統(tǒng)一向量中 [25、15、52、5、31、9、43]。論文的場景感知軌跡預(yù)測方法采用了這種數(shù)據(jù)表示。
已經(jīng)提出了幾種方法利用基于車道的場景信息來指導(dǎo)預(yù)測過程。基于建議的模型[7, 40]對智能體的操作進行分類,然后相應(yīng)地預(yù)測后續(xù)軌跡。基于目標(biāo)的模型預(yù)測位于合理車道中的可行目標(biāo)[36、50、15、11、12],然后生成完整的軌跡。其他方法使用一組對應(yīng)于軌跡分布模態(tài)的固定的錨來回歸預(yù)測的多模態(tài)軌跡 [3, 41]。或者,[51] 提出了一種方法,將智能體當(dāng)前位置的歷史軌跡集合視為先驗信息,以縮小潛在未來軌跡的搜索空間。論文將這些方法歸類為基于空間稠密車道的方法,因為它們專注于生成候選目標(biāo)或空間上完整軌跡的概率分布。然而,這些方法沒有充分探索時間信息來解釋運動的不確定性和場景隨時間的變化。此外,預(yù)測模塊必須隱式地過濾掉不相關(guān)的場景信息,這在復(fù)雜的場景約束(例如十字路口處的場景)中可能具有挑戰(zhàn)性。
與這些方法相比,論文提出了一個時間稠密的車道感知模塊來學(xué)習(xí)智能體的運動模型和潛在車道段之間的對齊。論文不是簡單地結(jié)合運動編碼和車道編碼并允許解碼器隱式學(xué)習(xí)它們的關(guān)系[32],而是顯式估計智能體在每個時間步將采用的車道的可能性。然后,論文只選擇最有可能的車道信息來平衡車道段的可變性和運動模型的不確定性。
3 方法
3.1 問題描述
遵循主流工作,例如 [10, 15, 43, 52, 9],論文假設(shè)路上智能體檢測和跟蹤,以及感知環(huán)境,在 2D 坐標(biāo)系中提供高質(zhì)量的軌跡和高清地圖數(shù)據(jù)。即對于智能體,獲得給定時間范圍內(nèi)的 x 和 y 位置,以及環(huán)境高精地圖 C。下游任務(wù)是通過使用 HD 地圖和給定場景中所有智能體的觀測軌跡(包括目標(biāo)智能體的軌跡)預(yù)測后續(xù)軌跡。
兩個智能體的過去軌跡和車道中心線都表示為向量。更具體地說,對于智能體i,它的歷史軌跡表示為過去時間步長的稀疏軌跡向量的有序序列。每個軌跡向量定義為,其中分別表示起點和終點,對應(yīng)智能體i的屬性特征,例如時間戳和對象類型(即自動駕駛車輛、目標(biāo)智能體等)。此外,車道中心線被進一步分割成預(yù)定義的段以捕獲細粒度的車道信息,以便精確地建模智能體的意圖。與軌跡向量類似,一條車道中心線段表示為,其中 N 表示總向量長度。每個車道向量添加以表示起點的前置。車道矢量端到端連接以獲得高清地圖的結(jié)構(gòu)特征。
此外,為了確保輸入特征相對于智能體位置的不變性,所有向量的坐標(biāo)都被歸一化為以目標(biāo)智能體最后觀察到的位置為中心。
圖 2 展示了LAformer的總體框架,它將矢量化軌跡和高精地圖車道段作為目標(biāo)智能體的輸入以輸出多模態(tài)軌跡。下面詳細解釋LAformer的每個模塊。
3.2 智能體運動和場景編碼
論文設(shè)計了一個基于注意力的全局交互圖 (GIG) 來編碼智能體運動和場景信息。具體而言,論文使用多層感知器 (MLP) 和門控循環(huán)單元 (GRU) 層以順序方式處理軌跡向量和車道向量。在給定的場景中,這些層的輸出編碼表示為和。為了融合這些編碼,論文設(shè)計了一個對進行操作的對稱交叉力注意機制,如下所示:
之后,GIG 進一步進行自注意力和跳過連接來學(xué)習(xí)智能體之間的交互。
3.3 時間稠密的車道感知估計
論文提出了一個時間上稠密的車道感知概率估計模塊,該模塊使用注意力將目標(biāo)智能體引導(dǎo)到對其未來軌跡最有影響力的車道段。具體來說,論文在每個未來時間步t對齊目標(biāo)智能體的運動和車道信息。為了實現(xiàn)這一點,論文使用車道評分頭和注意力機制來預(yù)測車道概率。K,V向量是智能體運動編碼的線性變換,Q向量是車道編碼的線性變換。然后將這些向量輸入到縮放的點積注意力塊,輸出第j個車道在t的預(yù)測得分如下:
為了平衡車道段的可變性和運動的不確定性,論文選擇前k個最高得分的車道段作為候選車道段。然后論文在未來的時間步長上連接候選車道段和相關(guān)分數(shù)以獲得C。接下來,使用交叉注意力以將目標(biāo)智能體的過去軌跡編碼投影為查詢向量,將候選車道編碼 C 投影為鍵和值向量。輸出是與車道信息對齊的更新運動信息,表示為。這種交叉注意力進一步探索了空間和時間維度上的場景信息。車道評分模型使用二值交叉熵損失來優(yōu)化概率估計。對于最接近軌跡真實位置的車道段,真值設(shè)置為1,對于所有其他車道,設(shè)置為 0。值得一提的是,真值車道段不需要額外標(biāo)記,可以使用距離度量(例如歐氏距離)輕松識別。
3.4 多模態(tài)條件解碼器
本節(jié)介紹一種拉普拉斯混合密度網(wǎng)絡(luò) (MDN) 解碼器,該解碼器以目標(biāo)智能體的過去軌跡和與候選車道信息 對齊的更新運動信息的編碼為條件。為了進一步保持多模態(tài)的多樣性,論文從多元正態(tài)分布中采樣一個潛在向量z,它作為添加到預(yù)測編碼中的附加條件。解碼器預(yù)測一組軌跡。論文使用一個MLP來預(yù)測 ,一個 GRU 來恢復(fù)預(yù)測的時間維度,以及兩個并排的MLP來預(yù)測μ和b。
論文通過最小化回歸損失和分類損失來訓(xùn)練拉普拉斯 MDN 解碼器。回歸損失是使用 Winner-Takes-All 策略 [28, 52, 9] 計算的,定義為:
交叉熵損失用于優(yōu)化模態(tài)分類,定義為:
論文采用軟位移誤差[52],作為論文的目標(biāo)概率。第一階段運動預(yù)測的總損失由下式給出:
3.5 運動優(yōu)化
引入第二階段運動細化以進一步探索預(yù)測更準確的未來軌跡的時間一致性。目標(biāo)是減少真值軌跡和預(yù)測軌跡之間的偏移。在這個階段,論文使用完整的軌跡 為輸入,使用與第一階段類似的時間編碼器來提取運動編碼 。然后由雙層MLP構(gòu)建的回歸頭將兩個階段的所有運動編碼作為輸入,并預(yù)測真值和預(yù)測軌跡之間的偏移量。論文使用損失優(yōu)化偏移量。
在這里,論文采用贏者通吃的策略來優(yōu)化偏移和角度損失,類似于第一階段。第二階段的總損失可以表示為:
4 實驗
4.1 實驗設(shè)置
數(shù)據(jù)集:所提出的方法是在兩個具有挑戰(zhàn)性且廣泛使用的自動駕駛基準上開發(fā)和評估的:nuScenes [2] 和 Argoverse1[4]。這些基準提供了各種類型道路智能體的軌跡以及給定場景的高清地圖。在nuScenes中,目標(biāo)智能體隨后的六秒軌跡是根據(jù)其和相鄰智能體最多兩秒的軌跡預(yù)測的,軌跡采樣率為 2Hz。在Argoverse1中,目標(biāo)智能體的后續(xù)三秒軌跡是根據(jù)其和鄰近智能體在最初兩秒內(nèi)的軌跡預(yù)測的,軌跡采樣率為10 Hz。為確保公平比較,兩個基準測試的官方數(shù)據(jù)分區(qū)和在線測試服務(wù)器分別用于訓(xùn)練和測試設(shè)置。
評估準則:論文采用標(biāo)準評估指標(biāo)來衡量預(yù)測性能,包括和,分別表示預(yù)測K模態(tài)最后一步的誤差和每一步的平均值。此處報告了K模態(tài)的最小誤差。ADE和FDE均以米為單位。此外,未命中率衡量最后一步誤差大于2.0 m的場景的百分比。對于多模態(tài)軌跡預(yù)測,K在nuScenes中設(shè)置為5和10,在Argoverse1中設(shè)置為6。對于所有評估指標(biāo),越低越好。
實現(xiàn)細節(jié):LAformer中所有特征向量的隱藏維度設(shè)置為128。只有目標(biāo)智能體50 m(曼哈頓距離)內(nèi)的車道段被采樣為場景上下文。公式中的 λ1 (9)設(shè)置為10。等式中的λ2、λ3(12)分別設(shè)置為5和 2。論文使用兩階段訓(xùn)練方案。在第一階段,除了運動細化模塊之外的所有模塊都使用Adam優(yōu)化器 [21] 進行訓(xùn)練。在第二階段,所有模塊一起訓(xùn)練。LAFormer 在 8xRTX3090 卡上接受了每個階段約8小時的訓(xùn)練。
4.2 定量結(jié)果與比較
表1和表2分別顯示了在Argoverse 1驗證和在線測試集以及nuScenes在線測試集上獲得的結(jié)果。根據(jù)官方發(fā)布的論文,排行榜結(jié)果(在線測試)更新至2023-02-20。
在Argoverse 1基準測試中,LAformer在ADE和FDE上以明顯優(yōu)勢在驗證集上實現(xiàn)了最先進的性能。它還在測試集上取得了優(yōu)異的成績,與亞軍方法 HiVT 不相上下。
在nuScenes基準測試中,LAformer取得了具有競爭力的性能,在ADE方面僅略遜于新發(fā)布的 FRM [32]。FRM 引入關(guān)系推理來幫助理解未來自我與其他智能體之間的交互,而LAformer則依賴注意力機制來學(xué)習(xí)智能體之間的交互,并更側(cè)重于場景約束。這種方法上的差異可能會導(dǎo)致性能差異。然而,LAformer 以明顯的優(yōu)勢優(yōu)于其他基于車道的模型,例如 LaneGCN [25、51] 和 PGP [9],表明論文的車道感知估計比其他基于距離或啟發(fā)式車道搜索更有效。
此外,與在兩個基準測試中測試的模型(用?標(biāo)記)相比,即THOMAS [11]、GO HOME [12]、LaneGCN [25]由本地行為數(shù)據(jù) LBA[51]增強,以及FRM, LAformer 在基準測試中明顯表現(xiàn)出更普遍的表現(xiàn)。這表明,即使Argoverse 1和nuScenes中提供的軌跡包括不同城市的位置和駕駛方向,所提出的時間稠密車道感知估計模塊有效地將場景約束與運動模型對齊。支持該模塊功能的進一步證據(jù)可以在表中列出的以下消融研究中找到。
?
4.3 消融實驗
考慮到數(shù)據(jù)規(guī)模和真值的可用性,論文對具有39,472個序列的Argoverse 1驗證集進行了消融研究。基線模型預(yù)測未來軌跡僅以目標(biāo)及其鄰近智能體的觀測軌跡為條件,第二個細化模塊(S2)和車道感知估計模塊被移除。LAformer (Spa.)僅估計目標(biāo)位置與車道信息對齊的可能性,類似于空間密集模型。相比之下,LAformer (Tem.)估計每個時間步的位置與時間稠密車道信息對齊的可能性。LAformer(完整)是完整的建議模型。
從表3可以看出,Baseline的性能遠不如其他模型。Baseline對比 Baseline+S2和LAformer (Tem.) 對比LAformer (Full)證明了S2的性能增益,例如,3%的FDE。LAformer (Spa.)與 LAformer (Tem.)的比較表明,論文的時間稠密方法比空間稠密方法更有效,將ADE降低約 4%,將FDE降低約 8%。此外,論文進行了一項消融研究,以分析第二階段中角度和偏移損失的有效性。如表4所示,通過使用兩種損失有助于將預(yù)測精度(使用ADE和FDE度量)提高約2%。
論文還消融了添加到多模態(tài)條件解碼器輸入的潛在變量z。它是從維度設(shè)置為2的多元正態(tài)分布中采樣的。但是,如表5所示,論文發(fā)現(xiàn)插入z只會帶來細微性能提升(小于0.5厘米)。
4.4 超參數(shù)的敏感性分析
top-k 車道段的數(shù)量和損失的權(quán)重是 LAformer 的關(guān)鍵超參數(shù)。為了驗證它們的影響,論文通過在表6和表7中下劃線指示的實驗設(shè)置范圍內(nèi)改變它們的值來進行實驗。
如表6左側(cè)所示,車道段的數(shù)量從1增加到4,性能開始隨著k的增加有所提升,直到k=3,但在那之后,它開始下降。在第二階段,k=2提供了比3更好的結(jié)果。使用較大的k增加了包含不相關(guān)的車道段的概率,而相對較小的k使解碼器能夠?qū)W⒂谧钕嚓P(guān)的車道段。
論文還改變了等式(9)中的損失權(quán)重 λ1和等式(12)中的λ2,λ3,如表7所示,論文僅觀察到細微性能差異,例如在1厘米內(nèi)波動。
4.5 計算性能
如表 8 所示,LAformer 具有2,645K參數(shù),類似于HiVT-128,但大于LTP和DenseTNT。對于平均有 12個智能體的場景,它的推理時間約為115 ms,與HiVT相比,這不是主要優(yōu)勢。但這種推理速度與 LTP 相當(dāng),比DenseTNT和 GP更快,使LAformer在10 Hz時接近實時。
4.6 定性結(jié)果
圖3顯示了LAFormer與Argoverse 1驗證集上的亞軍模型相比的定性結(jié)果。為了確保公平比較,論文使用公開訓(xùn)練的 HiVT [52] 模型來復(fù)制他們論文中報告的結(jié)果。由于 DenseTNT [15] 不提供經(jīng)過訓(xùn)練的模型,論文從頭開始通過優(yōu)化(DenseTNT w/100ms opt.)重新訓(xùn)練離線模型,以實現(xiàn)與他們論文中報告的性能相似的性能。所有模型在十字路口的各種交通場景中為目標(biāo)主體生成合理的多模態(tài)預(yù)測,例如右轉(zhuǎn) 1 和左轉(zhuǎn)2、4,或加速直行3。但是,LAformer 在右轉(zhuǎn)場景1和加速場景 中生成更準確的預(yù)測,而其他模型傾向于預(yù)測減速或轉(zhuǎn)彎模式。此外,當(dāng)時間稠密的車道感知模塊被停用時(w/o D vs. w/o S2),LAformer 在橫向方向上生成的預(yù)測較少。然而,最右列顯示的具有第二階段細化模塊的完整模型保持了良好的預(yù)測多樣性和準確性。
?
圖4顯示了LAformer在nuScenes上的更多定性結(jié)果 它不僅可以在直行行駛中生成準確的預(yù)測,而且可以在復(fù)雜的交叉路口生成準確的預(yù)測,例如繼續(xù)向前行駛、左轉(zhuǎn)或右轉(zhuǎn)。與車道段對齊的多模態(tài)預(yù)測意味著智能體在交叉路口的運動不確定。
5 結(jié)論
該論文介紹了LAformer,這是一種基于端到端注意力的軌跡預(yù)測模型,它將觀察到的軌跡和高清地圖作為輸入并輸出一組多模態(tài)預(yù)測軌跡。基于Transformer 的時間稠密車道感知模塊和第二階段運動細化模塊用于提高預(yù)測準確性。LAformer在Argoverse 1和nuScenes運動預(yù)測基準測試中都優(yōu)于其他模型,展示了卓越的泛化性能。此外,廣泛的消融和敏感性研究驗證了車道感知和運動優(yōu)化模塊的性能。
編輯:黃飛
?
評論
查看更多