結合互補的傳感器模式對于為自動駕駛 (AD) 等安全關鍵型機器人應用提供強大的感知至關重要。最近用于 AD 的最先進的相機-激光雷達融合方法依賴于單目深度估計,與直接使用來自激光雷達的深度信息相比,這是一項眾所周知的困難任務。
在這里,作者發現這種方法沒有像預期的那樣利用深度,并且表明簡單地改進深度估計不會導致對象檢測性能的改進,并且令人驚訝的是,完全刪除深度估計不會降低對象檢測性能。這表明,在相機-激光雷達融合過程中,依賴單目深度可能是不必要的架構瓶頸。
在這項工作中,作者引入了一種新穎的融合方法,該方法完全繞過單目深度估計,而是使用簡單的注意力機制在鳥瞰網格中選擇和融合相機和激光雷達特征。
作者表明,作者的模型可以根據激光雷達功能的可用性來調整其對相機功能的使用,并且與依賴單目深度估計的基線相比,它在 nuScenes 數據集上產生更好的 3D 對象檢測。
01? 介紹
高效、有效地集成來自不同模式的信息在自動駕駛等安全關鍵型應用中尤其重要,其中不同的傳感器模式是互補的,將它們充分組合對于保證安全至關重要。例如,相機可以捕獲遠距離物體的豐富語義信息,而激光雷達提供極其準確的深度信息,但在遠距離處卻稀疏。因此,許多現代自動駕駛平臺都擁有大量不同的傳感器,必須將這些傳感器組合在一起,才能提供對周圍場景的準確可靠的感知,并允許這些車輛在現實世界中安全部署。
多模態傳感器融合——學習來自多個傳感器的場景的統一表示——為這個問題提供了一個可行的解決方案。然而,訓練此類多模態模型可能具有挑戰性,尤其是當模態與相機(RGB 圖像)和激光雷達(3D 點云)不同時。例如,眾所周知,不同的模態以不同的速率過度擬合和泛化[53],并且聯合訓練所有模態可能導致較弱模態的利用不足,甚至在某些情況下與單模態模型相比結果較差[37]。
在自動駕駛的背景下,許多最新的相機-激光雷達融合方法[14,28,33]都是基于Lift-Splat (LS)范式[38]1。在這種方法中,相機特征在與激光雷達特征融合之前使用單目深度投影在鳥瞰圖(BEV)或自上而下的空間中。因此,BEV 中相機特征的位置高度依賴于單目深度預測的質量,并且有人認為其準確性至關重要 [14, 28]。在這項工作中,作者重新考慮這些主張,并表明這些模型內的單目深度預測質量很差,無法解釋它們的成功。特別是,作者提出的結果表明,當單目深度預測被激光雷達點云的直接深度估計取代或完全刪除時,基于 Lift-Splat 的方法表現同樣出色。這讓作者認為,在融合相機和激光雷達功能時依賴單目深度是一個不必要的架構瓶頸,并且 Lift-Splat 可以被更有效的投影機制取代。
作者引入了一種名為“Lift-Attend-Splat”的相機-激光雷達融合新穎方法,該方法完全繞過單目深度估計,而是使用簡單的變壓器選擇并融合 BEV 中的相機和激光雷達功能。作者提供的證據表明,與基于單眼深度估計的方法相比,作者的方法顯示出更好的相機利用率,并且它提高了對象檢測性能。作者的貢獻如下:
· 作者表明,基于Lift-Splat 范式的相機-激光雷達融合方法沒有按預期利用深度。特別是,作者表明,如果完全刪除單目深度預測,它們的性能相同或更好。
· 作者引入了一種新穎的相機-激光雷達融合方法,該方法使用簡單的注意力機制將相機和激光雷達功能融合到BEV 中。作者證明,與基于 Lift-Splat 范例的模型相比,它可以提高相機利用率并改進 3D 對象檢測。
02? 相關工作
用于自動駕駛的 3D 物體檢測 對于 3D 物體檢測,大多數基準測試以使用激光雷達點云的方法為主,因為與僅使用攝像頭或雷達的方法相比,激光雷達點云的高度精確的距離測量可以更好地放置 3D 物體。用于點云分類的深度學習方法在 [40, 41] 的開創性工作中首創,早期工作已將類似的想法應用于 3D 對象檢測 [42, 45]。最近的一系列方法基于 3D 空間的直接體素化 [59, 65] 或將激光雷達表示沿 z 方向壓縮為“柱子”[22, 60]。這些方法非常成功,并且是許多后續工作的基礎[15,19,62]。3D 物體檢測的任務也可以僅通過多個攝像機來解決。早期的工作大多基于各種兩階段方法[4,20,42,54],而最近的方法直接利用單目深度估計[3,21,43]。當沒有激光雷達時,這項任務很困難,因為必須僅使用圖像來估計 3D 信息,這是一個具有挑戰性的問題。然而,最近的工作通過借鑒激光雷達檢測管道 [7,11,16] 的想法,通過改進位置嵌入 [31] 和 3D 查詢 [18],以及利用時間聚合 [12,25,30,32, 52, 67] 或 2D 語義分割 [64]表現出了令人印象深刻的性能。
相機-激光雷達融合 可以通過聯合利用相機和激光雷達(如果可用)來提高感知質量。最近的融合方法可以大致分為三類:點裝飾方法、利用特定于任務的對象查詢和架構的方法以及基于投影的方法。點裝飾方法使用語義分割數據 [49, 57]、相機特征 [51] 來增強激光雷達點云,甚至使用圖像平面中的對象檢測來創建新的 3D 點 [63]。此類方法相對容易實現,但其缺點是需要激光雷達點來融合相機功能。TransFusion [1] 是利用激光雷達點云生成的特定于任務的對象查詢的方法的最新示例。最終檢測是直接進行的,無需將相機特征顯式投影到 BEV 空間中。融合也可以在模型的早期進行,例如在 3D 體素 [5, 6] 或激光雷達特征 [23] 的級別,或者通過在相機和激光雷達骨干網之間共享信息 [17, 26, 39]。最后,基于投影的方法將相機特征投影為 3D,然后將其與激光雷達融合(見下文)。
基于投影的方法 作者特別感興趣的是基于將相機特征投影為 3D 的相機-激光雷達融合方法。最近最先進的方法 [14,28,33] 在 nuScenes 排行榜 [2] 中名列前茅,它利用了 [38] 中提出的想法,并使用單目深度估計在 3D 中投影相機特征。[14] 表明,通過在單目深度估計之前將來自地面真實激光雷達深度圖的特征包含到相機流中,可以顯著提高 [28, 33] 的性能。另一種方法是使用激光雷達點和相機特征之間的已知對應關系將相機特征直接投影到 BEV 空間中 [8,23,55]。然而,激光雷達點云的稀疏性可能會限制投影哪些相機特征,如[33]中所述。最后,當激光雷達不存在時,可以使用變壓器學習在沒有明確深度的情況下在 BEV 中投影相機特征,如 [25, 44] 所示。在這里,作者將這一工作擴展到相機-激光雷達融合的情況,并利用交叉注意力來生成要與激光雷達融合的相機特征的密集 BEV 網格。
03? Lift-Splat中的單目深度預測
最近基于 Lift-Splat 范式的相機-激光雷達融合方法 [28, 33] 通過使用單目深度估計將相機特征投影到 BEV 空間中,學習 BEV 網格形式的統一表示:
其中是從相機特征獲得的上下文向量,是預定深度箱上的歸一化分布,Splat 表示將每個點向下投影到平面的操作,詳細信息請參見[28,33,38]。然后使用串聯 [33] 或門控注意力 [28] 將生成的特征圖與激光雷達特征合并。在這種范式中,單目深度預測被表述為分類問題,并從下游任務間接學習,無需明確的深度監督。
Lift-Splat 深度預測普遍較差 作者分析了 BEVFusion 預測深度的質量,通過使用絕對相對 (Abs. Rel.) 和均方根誤差 (RMSE) 將其與激光雷達深度圖進行定性和定量比較 [9, 24]。如圖 1 所示的示例所示,深度預測不能準確反映場景的結構,并且與激光雷達深度圖明顯不同,這表明單目深度沒有像[33]中預期的那樣得到利用。
改進深度預測并不能提高檢測性能 作者接下來研究改進深度預測質量是否能提高物體檢測性能。為此,作者重新訓練了 [33] 中的模型,損失如下:
其中是原始3D對象檢測損失,是使用激光雷達深度作為目標的深度估計的簡單交叉熵損失。通過改變超參數,作者可以控制深度預測的質量并探索它如何影響檢測性能。在圖 1 中,作者看到,雖然深度監督確實可以在視覺上和定量上產生更準確的深度圖,但隨著深度監督權重的增加,使用平均精度 (mAP) 測量的檢測性能會從基線下降。這表明該方法無法利用更準確的深度預測。自從對多任務損失方程進行訓練以來在高值時可能會降低目標檢測性能,作者還嘗試了另外兩種變體:(i) 單獨預訓練深度監督模塊和 (ii) 直接使用激光雷達點云來完全繞過深度監督模塊。預訓練可以帶來更準確的深度預測,但會降低相對于基線的檢測性能,而直接使用激光雷達不會改變相對于基線的檢測性能,即使所有深度指標都接近于零。
完全刪除深度預測不會影響目標檢測性能 上述結果使作者假設基于 Lift-Splat 投影的相機激光雷達融合方法沒有利用精確的單目深度。為了測試這一點,作者完全刪除單目深度預測并將投影(1)替換為:
其中作者用 1 表示與形狀相同的張量,所有條目等于 1。這將相機特征均勻地投影到所有深度。引人注目的是,作者在圖 1(右)中看到,去除單目深度估計不會導致目標檢測性能下降,這表明準確的深度估計并不是該方法的關鍵組成部分。作者假設,當激光雷達特征可用時,單目深度的重要性會大大降低,因為激光雷達是更精確的深度信息源,并且該模型能夠輕松抑制投射在錯誤位置的相機特征。這表明依賴單目深度估計可能是不必要的架構瓶頸,并導致相機的利用率不足。
04? 無需單目深度估計的相機-激光雷達融合方法
在本節中,作者提出了一種相機-激光雷達融合方法,該方法完全繞過單目深度估計,而是使用簡單的變壓器在鳥瞰圖中融合相機和激光雷達特征[48]。然而,由于大量的相機和激光雷達特征以及注意力的二次性質,將 Transformer 架構簡單地應用于相機-激光雷達融合問題是很困難的。如[44]所示,在 BEV 中投影相機特征時,可以使用問題的幾何形狀來極大地限制注意力的范圍,因為相機特征應該只對沿其相應光線的位置做出貢獻。作者將這一想法應用于相機-激光雷達融合的情況,并引入了一種簡單的融合方法,該方法利用相機平面中的列與激光雷達 BEV 網格中的極射線之間的交叉注意力。交叉注意力不是預測單眼深度,而是學習哪些相機特征是激光雷達特征沿其光線提供的最顯著的給定上下文。
除了 BEV 中相機特征的投影之外,作者的模型與基于 Lift-Splat 范式 [14,28,33] 的方法具有相似的整體架構,如圖 2 左側所示。它由以下模塊組成:相機和激光雷達主干,獨立為每種模態生成特征;投影和融合模塊,將相機特征嵌入到 BEV 中并將其與激光雷達融合;最后是檢測頭。在考慮對象檢測時,模型的最終輸出是場景中對象的屬性,表示為具有位置、尺寸、方向、速度和分類信息的 3D 邊界框。接下來,作者詳細解釋投影和融合模塊的架構。
投影地平線 對于每個攝像機,作者考慮穿過圖像中心的水平線以及與其 3D 投影相對應的平面。作者將該平面稱為相機的投影地平線。它可以很容易地使用齊次坐標來描述為點集,其中存在使得:
其中是3×4相機投影矩陣(內在和外在),是圖像的高度。請注意,該平面通常不平行于 BEV 網格,其相對方向由相機的外部參數定義。作者在投影地平線上定義一個規則網格,該網格與圖像平面中特征的二維網格對齊,方法是從水平線與圖像平面中特征列邊緣的交點追蹤出光線,然后分離這些光線進入一組預先確定的深度箱(類似于[28])。該網格上的特征可以用矩陣表示,其中每一行對應于相機特征圖中的特定列。投影地平線的幾何形狀如圖 2 所示(左插圖)。
投影地平線和 BEV 網格之間的對應關系 通過沿 3D 空間中的 z 方向投影投影地平線上的點和 BEV 平面上的點,作者可以輕松定義它們之間的對應關系。由于相機通常相對于地面傾斜,因此這種對應關系取決于每個相機的外部參數。作者通過在投影地平線的下投影單元中心位置對 BEV 網格進行雙線性采樣,將激光雷達特征從 BEV 網格傳輸到相機的投影地平線。作者將這個過程稱為“提升”,并將其表示為相機 i 的投影地平線的 Lifti。類似地,通過在 BEV 網格的投影單元中心位置對投影地平線進行雙線性采樣,可以在相反的方向上將特征從投影地平線轉移到 BEV 網格。作者將此操作表示為 Splati ,類似于 [28, 33, 38].
Lift-Attend-Splat 作者的投影模塊如圖 2(右)所示,可以分為三個簡單的步驟:(i)作者首先將 BEV 激光雷達特征提升到相機的投影地平線上,產生“提升”激光雷達特征,(ii) 然后,作者使用簡單的變換器編碼器-解碼器讓“提升的”激光雷達特征關注相應列中的相機特征,在投影地平線上產生融合特征,最后(iii) 作者將這些特征重新投射到 BEV 網格上以產生。在參與步驟中,每列中的相機特征由變換器編碼器 E 進行編碼,并作為鍵和值傳遞給變換器解碼器,變換器解碼器使用平截頭體激光雷達特征作為查詢。這三個步驟的結果可以寫為:
其中,和將 BEV 特征投影到攝像機的投影地平線上(反之亦然),如上所述。最后,作者應用一個簡單的融合模塊,將不同相機的投影特征相加,將它們與激光雷達特征連接起來,并應用卷積塊以獲得 BEV 中的最終特征。這種簡單的架構允許將相機特征從圖像平面投影到 BEV 網格上,而無需單目深度估計。作者使用一組柱截頭體變壓器權重,這些權重在所有柱截頭體對和相機之間共享。為了簡單起見,作者在這里使用單個變壓器編碼器和解碼器,但表明增加此類塊的數量可能是有益的。
注意力與深度預測 值得討論的是作者的方法與直接預測單眼深度有何不同。當使用單目深度時,相機特征圖中的每個特征都被投影到由歸一化深度分布加權的多個位置處的 BEV 中。這種歸一化限制每個特征要么投影到單個位置,要么在多個深度上以較低強度涂抹。然而,在作者的方法中,相機和激光雷達之間的注意力是這樣的,即相同的相機功能可以完全為 BEV 網格中的多個位置做出貢獻。這是可能的,因為注意力是在鍵上標準化的,鍵對應于相機特征圖中的不同高度,而不是查詢,對應于沿光線的不同距離。此外,作者的模型在選擇投影相機功能的位置時可以訪問 BEV 中的激光雷達功能,這使其具有更大的靈活性。
05? 實驗
表1上展示了 3D 對象檢測任務的結果。與基于 Lift-Splat 投影 [28, 33] 的基線相比,作者的方法顯示了 nuScenes 數據集的驗證和測試分割方面的改進。特別是,作者在測試分組中顯示了 mAP (+1.1) 和 NDS (+0.4) 的顯著改進。由于激光雷達骨干網是凍結的并且在所有方法中都是相似的,這表明作者的模型能夠更好地利用相機功能。底部顯示了使用測試時間增強 (TTA) 和模型集成的結果。作者對鏡像和旋轉增強以及單元分辨率為 0.05m、0.075m 和 0.10m 的整體模型的組合執行 TTA。作者首先在每個單元分辨率上應用 TTA,然后使用加權框融合 (WBF) [47] 合并結果框。毫不奇怪,作者的方法在這些技術方面表現出了出色的擴展性,并且在 nuScenes 驗證集上優于 BEVFusion [33]。
作者可以根據物體與ego的距離和大小對其進行聚類,進一步分析作者模型的性能,見圖 3。作者可以看到,大部分改進都來自于距離較遠和尺寸較小的物體。在這些情況下,單眼深度估計尤其困難,這也解釋了為什么作者的模型在這些情況下表現更好。請注意,即使遠處和小物體包含的激光雷達點較少,作者的模型仍然能夠有效地利用相機特征,即使激光雷達提供的背景較弱。
作者可視化相機特征投影到 BEV 網格上的位置,并將作者的方法與 BEVFusion [33] 進行比較。對于作者的方法,作者檢查變壓器中最終交叉注意力塊的注意力圖,對所有注意力頭進行平均。對于 BEVFusion,作者使用單目深度估計來建立相機和 BEV 空間中的位置之間的對應強度。在計算 BEV 中投影相機特征的總權重時,作者僅考慮與地面實況對象相對應的像素,如圖 4a(左)所示,作者的方法將相機特征主要放置在存在地面實況邊界框的區域。這表明它可以有效地利用激光雷達點云作為上下文,以便將相機特征投影到 BEV 中的相關位置。與圖 4b 中所示的 BEVFusion 相比,特征分布在物體周圍顯得更窄且更強。這可能是因為作者的投影機制不需要沿其光線對相機特征的權重進行歸一化,從而使作者的模型能夠更靈活地將特征放置在所需位置。有趣的是,盡管作者的方法也將相機特征投影到 BEV 中的真實框之外,但這些區域中的激活強度受到融合模塊的抑制。這與作者在第 3 節中的發現是一致的。
作者消除了作者方法的一些設計選擇,并在表2上顯示了它們對目標檢測性能的影響。對于所有的消融實驗,作者使用更簡單的訓練設置,安排 10 個 epoch,批量累積而不是完整批量訓練,并且沒有相機增強。作者首先分析融合模塊的不同實現的影響:作者比較一個簡單的跳躍連接(add)、一個小的串聯和卷積層(Cat+Conv,如[33])和一個門控 sigmoid 塊[28]。作者發現它們的表現都非常相似,其中 Cat+Conv 在 mAP 方面表現稍好,這與 [28] 的發現相反。作者還減少了投影“參與”階段中變壓器解碼器塊的數量,并表明增加它們的數量確實會導致 mAP 略有改善。這表明作者的方法可以隨著計算量的增加而擴展,但作者在實驗中使用單個解碼器塊,因為它在質量和性能之間提供了良好的平衡。最后,當訓練期間增加時間特征聚合中的幀數時,作者還看到檢測分數得到了很好的提高。
審核編輯:黃飛
?
評論
查看更多