計算機視覺如何在復雜環境中進行有效感知?
近年來,計算機視覺在智能交通系統(ITS)和自動駕駛(AD)中的應用逐漸轉向深度神經網絡架構。雖然在基準數據集上的性能似乎有所改善,但在研究中還沒有充分考慮到許多現實世界中的挑戰。本文對計算機視覺在ITS和AD中的應用進行了廣泛的調研,并討論了與數據、模型和復雜城市環境相關的挑戰。數據的挑戰與訓練數據的收集和標記及其與現實世界條件的相關性、數據集固有的偏向、需要處理的大量數據以及隱私問題有關。深度學習(DL)模型對于嵌入式硬件上的實時處理來說通常過于復雜,缺乏可解釋性和可推廣性,并且難以在真實環境中進行測試。
雖然在一些文獻中提到了這些問題,但只開發了一些方法來解決這些問題。智能交通中的計算機視覺是一個非常活躍的研究領域,本文選擇并綜述了200多篇論文。圖1概述了應用程序和挑戰,以供快速參考,而表1總結了每個應用程序中使用的方法和相關挑戰。以下章節(II、III、IV)討論了數據、模型和復雜交通環境的具體挑戰。第五節解釋了應對挑戰的一些代表性應用和解決方案。第六節是這一領域研究應采取的未來方向,最后,第七節提出了一些結論性意見。
數據的挑戰
1)數據通信
數據通信雖然在大多數ITS和AV計算機視覺研究中沒有考慮,但在實際應用中至關重要。在實踐中,單個基于相機的深度學習任務通常需要在TMC的相機和云服務器之間進行數據通信。視頻數據量很大,這可能導致潛在的數據通信問題,如傳輸延遲和數據包丟失。在協作攝像機傳感環境中,不僅與服務器進行數據通信,而且在不同傳感器之間進行數據通信。因此,另外兩個問題是多傳感器校準和數據同步,協作環境中的校準旨在確定傳感器之間的透視轉換,以便能夠在給定幀合并來自多個視圖的采集數據。這項任務在多用戶環境中非常具有挑戰性,因為傳感器之間的變換矩陣隨著車輛的移動而不斷變化。在協作環境中,校準依賴于背景圖像中元素的同步,以確定靜態或移動傳感器之間的轉換。存在多個去同步源,例如時鐘之間的偏移或可變通信延遲。雖然時鐘可能是同步的,但很難確保在同一時刻觸發數據采集,這增加了合并采集數據的不確定性。同樣,不同的采樣率需要在采集或預測數據之間進行插值,這也增加了不確定性。
2)訓練數據和benchmark的質量
交通攝像頭廣泛部署在道路和車輛上,DOT和城市的TMC不斷收集網絡范圍內的交通攝像頭數據,這些數據對各種ITS應用(如事件識別和車輛檢測)都很有價值。然而,標記的訓練數據遠不如未標記的數據常見。隨著圖形逼真度和模擬物理變得越來越現實,許多應用程序缺少注釋數據集的問題正慢慢被合成數據所克服。例如,[9]中的GT 3D信息在單目3D檢測和跟蹤的訓練期間需要高精度,因此使用了視頻游戲數據。除了真實的外觀,模擬場景不需要手動標記,因為標簽已經由模擬生成,并且可以支持各種照明、視點和車輛行為。然而,如果使用合成數據,真實世界的應用仍然需要額外的學習過程,例如領域自適應。低保真度模擬數據用于訓練具有域隨機化轉移學習的真實世界目標檢測器。缺乏高質量的碰撞和接近碰撞數據通常被認為是一個實際的限制,更多的碰撞數據將更新AD中的注意力指南,使其能夠捕捉長期碰撞特征,從而提高碰撞風險評估。
3)數據偏差
盡管當前的車輛檢測算法在平衡數據集上表現良好,但當面對不平衡數據集時,它們在尾部類別上的性能會下降。在現實世界場景中,數據往往服從Zipfian分布,其中大量尾部類別的樣本很少。在長尾數據集中,少數頭部類(頻繁類)貢獻了大部分訓練樣本,而尾部類(罕見類)的代表性不足。大多數使用此類數據訓練的DL模型將長尾訓練數據的經驗風險降至最低,并且偏向于頭部類別,因為它們貢獻了大部分訓練數據。一些方法,如數據重采樣[22]和損失重加權[23],可以補償不足的類別。然而,他們需要根據類別頻率將類別劃分為幾個組。頭尾類之間的這種硬性劃分帶來了兩個問題:相鄰類別之間的訓練不一致,以及對罕見類別缺乏辨別力。
模型挑戰
1)復雜性
DL計算機視覺模型在神經網絡結構和訓練過程方面具有很高的復雜性。許多DL模型設計用于在高性能云中心或AI工作站上運行,而一個好的模型需要數周或數月的訓練,以及由GPU或Tensor處理單元(TPU)驅動的高功耗。實時應用程序通常會進行一些修改,如調整視頻大小以降低分辨率或模型量化和修剪,這可能會導致性能損失。為了滿足效率和精度要求,在許多實際應用中需要降低最先進DL方法的模型復雜性。例如,多尺度可變形注意力已與視覺vit一起用于目標檢測,以實現高性能和快速收斂,從而加快訓練和推理。
2)缺乏可解釋性
DNN在很大程度上被視為具有多個處理層的黑盒,其工作情況可以使用統計數據進行檢查,但學習到的網絡內部表示基于數百萬或數十億個參數,使得分析極其困難。這意味著,行為本質上是不可預測的,而且對決策的解釋很少,這也使得自動駕駛等關鍵用例無法進行系統驗證。普遍認為,復雜的黑盒是良好性能所必需的,這一假設受到了挑戰。最近的研究試圖使DNN更易于解釋,[41]中介紹了視覺transformer的可視化工具,可用于查看內部機制,如隱藏參數,并深入了解影響預測的輸入的特定部分。
3)可轉移性和可推廣性
對非分布數據的泛化對人類來說是自然的,但對機器來說卻具有挑戰性,因為大多數學習算法都強烈依賴于測試數據的獨立和相同分布假設訓練,而這在實踐中常常因域轉移而被違反。域泛化旨在將模型泛化到新的領域,已經提出了學習可推廣和可轉移表示的不同方法。大多數現有方法都屬于域對齊的范疇,其中的主要思想是最小化源域之間的差異,以學習域不變表示。對源域移位不變的特征也應該對任何未發現的目標域移位都是魯棒的,數據增強是一種常見的做法,用于規范機器學習模型的訓練,以避免過度擬合并提高泛化能力[45],這對于過度參數化的DNN尤為重要。神經網絡中的視覺注意力可用于突出決策中涉及的圖像區域,并進行因果過濾以找到最相關的部分[46]。[47]中通過使用圖像的隨機屏蔽版本并比較輸出預測來估計單個像素的重要性,這種方法不適用于時空方法或那些考慮復雜環境中對象之間關系的方法!
4)真實世界測試
一般來說,DL方法容易出現不規范,無論模型類型或應用如何,都會出現這種問題。在其它領域中,[48]分析了計算機視覺中的不規范性,特別是針對DL模型,如常用的ResNet-50和縮放轉移學習圖像分類模型Big transfer(BiT)[49]。研究表明,雖然基準分數隨著模型復雜度和訓練數據的增加而提高,但使用真實世界的失真進行測試會導致較差且高度變化的性能,這嚴重依賴于用于初始化訓練的隨機種子。實際系統需要在各種低成本硬件上實時處理的內存和計算方面高效[50]。一些實現高效和低成本計算的方法包括參數修剪、網絡量化、低秩因子分解和模型蒸餾。像[51]這樣的方法是有效的,能夠實時預測軌跡,但不是端到端的,因為它們假設預先存在目標跟蹤系統來估計周圍車輛的狀態。
行人和騎自行車者等弱勢道路使用者(VRU)存在一個獨特的問題,因為他們可以非常快速地改變方向和速度,并與車輛不同地與交通環境交互。在ITS中實際部署計算機視覺模型的一些主要障礙是數據源和軟件的異質性、傳感器硬件故障以及極端或異常傳感情況。此外,最近的框架(例如基于邊緣計算的框架)直接暴露了具有各種安全實現的大量異構設備的無線通信信號,為惡意行為者創造了不斷增加的潛在攻擊面。已經開發了深度學習模型來檢測這些攻擊,但實時應用和在線學習仍然是積極研究的領域。IoV面臨著基本的實際問題,這是由于移動車輛將在邊緣節點上呈現高度可變的處理要求,而每輛車也可以同時運行許多邊緣和云相關的應用程序,以及惡劣的無線通信環境。與自動駕駛汽車邊緣計算相關的其它挑戰包括協作感知、協作決策和網絡安全,攻擊者可以使用激光和明亮的紅外光干擾相機和激光雷達,改變交通標志,并通過通信信道回放攻擊,模型挑戰的可視化描述如圖3所示!
復雜的環境
1)陰影、照明、天氣
陰影、惡劣天氣、背景和前景之間的相似性、現實世界中的強烈或不足照明等情況被引用為常見問題[59],[60]。眾所周知,相機圖像的外觀受到不利天氣條件的影響,如大霧、雨夾雪、暴風雪和沙塵暴[61]。[62]中的一種實時碰撞檢測方法使用高斯混合模型進行前景提取,然后使用平均移動算法跟蹤車輛。車輛的位置、速度和加速度通過閾值函數來確定碰撞的檢測。雖然計算效率很高,但這種方法在噪聲、復雜的交通環境和天氣變化的情況下會受到嚴重影響。在惡劣的天氣條件下,相機捕捉到的車輛會出現曝光不足、模糊和部分遮擋等問題。同時,出現在交通場景中的雨滴和雪花增加了算法提取車輛目標的難度。在夜間,或在車輛朝著攝像頭行駛的隧道中,由于遠光眩光,場景可能被完全掩蓋。
2)Occlusion
遮擋是最具挑戰性的問題之一,其中由于另一個前景目標的遮擋,目標對象僅部分可用于相機或傳感器。遮擋以多種形式存在,從部分遮擋到重度遮擋。在AD中,目標對象可以被建筑物和燈柱等靜態對象遮擋,諸如移動車輛或其它道路使用者之類的動態對象可能會彼此遮擋,例如在人群中。遮擋也是物體跟蹤中的一個常見問題,因為一旦被跟蹤車輛從視野中消失并再次出現,它就被視為不同的車輛,導致跟蹤和軌跡信息不準確。
3)攝像機角度
在交通基礎設施的應用中,監控攝像機的多樣性及其視角對在有限類型的攝像機視圖上訓練的DL方法提出了挑戰。雖然[68]中的算法在計算上是有效的,并且可以在不同的照明條件和交通密度場景下工作,但較低的間距相機視圖和道路標記拐角可能會引入顯著的錯誤。[69]中的模型可以識別攝像機附近的異常,包括它們的開始和結束時間,但對于距離中的異常來說并不準確,因為車輛只占幾個像素。早期對監控視頻異常檢測的一項調查得出結論,照明、攝像機角度、異質對象和缺乏真實世界數據集是主要挑戰[67]。用于稀疏和密集交通條件的方法是不同的,并且缺乏可推廣性。在多視圖視覺場景中,匹配不同視圖中的對象是另一個主要問題,因為多視圖ITS應用程序需要處理不同相機同時捕獲的不同圖像中的數據[70]。
4)相機模糊和圖像降級
監控攝像機受天氣因素影響。水、灰塵和顆粒物質可能積聚在鏡頭上,導致圖像質量下降。強風會導致相機抖動,導致整個圖像的運動模糊。自動駕駛汽車上的前置攝像頭也面臨這一問題,因為昆蟲會砸到玻璃上,導致攝像頭視野中的盲點。具體而言,目標檢測和分割算法受到極大影響,除非在模型中做好準備,否則錯誤檢測可能會導致AD中的嚴重安全問題,并錯過監視應用中的重要事件。解決這一問題的一些方法包括使用退化圖像進行訓練、圖像恢復預處理和微調預訓練網絡以從退化圖像中學習。例如,[72]中使用了密集的Gram網絡,其提高了退化圖像中的圖像分割性能。
5)異構的城市交通條件
密集的城市交通場景充滿了復雜的視覺元素,不僅在數量上,而且在各種不同的車輛及其交互中,如圖4所示。汽車、公共汽車、自行車和行人在同一個十字路口的存在是自動導航和軌跡計算的一個重要問題。不同的尺寸、轉彎半徑、速度和駕駛員行為因這些道路使用者之間的互動而進一步復雜化。從DL的角度來看,很容易找到異構城市交通的視頻,但標記地面真相非常耗時。模擬軟件通常無法捕捉此類場景的復雜動態,尤其是在密集的城市中心出現的交通規則破壞行為。事實上,[74]中創建了一個特定的數據集來表示這些行為。[75]中創建了一個用于無管制密集交通的模擬器,該模擬器對自動駕駛感知和控制很有用,但不代表真實道路使用者的軌跡和交互。
應用
1)交通流量估算
模型和算法:交通流量變量包括交通量、密度、速度和排隊長度。用于檢測和跟蹤目標以從視頻中估計交通流量變量的算法和模型,可分為一階段和兩階段方法。在一階段方法中,根據檢測結果估計變量,并且沒有進一步的分類和位置優化,例如:1) YOLOv3+DeepSORT跟蹤器;2) YOLOv2+空間金字塔池化;3) AlexNet+光流+高斯混合模型;4) 基于無人機視頻的CNN+光流;5) 基于無人機視頻的SSD(單鏡頭檢測)。兩階段方法首先生成包含輸入圖像中所有潛在目標的區域建議,然后進行分類和位置優化,兩階段方法的例子是:1)Faster R-CNN+SORT跟蹤器[81];2) Faster R-CNN[82],[83];3) 基于無人機視頻的Faster R-CNN[84],[85]。
當前克服挑戰的方法:[86]中提出了ITS邊緣的DL方法,該方法在交通監控視頻中執行實時車輛檢測、跟蹤和計數。神經網絡通過YOLOv3對象檢測方法捕獲外觀特征,在單幀級別檢測單個車輛,該方法部署在邊緣設備上,以最小化帶寬和功耗。[61]中討論了一種在惡劣天氣條件下實現各種交通環境中準確度和檢測速度之間最佳權衡的車輛檢測和跟蹤方法。此外,還引入了一個名為DAWN的新數據集,用于在大霧、雨、雪和沙塵暴等惡劣天氣條件下進行車輛檢測和跟蹤,以減少訓練偏差。
2)交通擁堵檢測
模型和算法:基于計算機視覺的交通擁堵檢測方法也可分為單階段方法和多步驟方法。單階段方法從視頻圖像中識別車輛并直接執行交通擁堵檢測。
當前克服挑戰的方法:使用基于多個傳感器的解決方案(包括雷達、激光和傳感器融合)可以提高擁塞檢測性能,因為在現實場景中使用單個傳感器很難實現理想的性能和精度。決策算法廣泛用于處理從多個傳感器獲取的融合數據[93]。利用惡劣天氣條件數據集訓練的基于CNN的模型可以提高檢測性能[94],同時也應用了基于生成對抗網絡(GAN)的風格轉移方法[95]。這些方法有助于最大限度地減少與可推廣性相關的模型挑戰,從而提高真實世界的性能。
3)自動駕駛感知:檢測
模型和算法:輔助AD的常見檢測任務分為交通標志檢測、交通信號檢測、道路/車道檢測、行人檢測和車輛檢測。
當前克服挑戰的方法:在交通標志檢測中,現有的交通標志數據集在挑戰條件的類型和嚴重程度方面受到限制。與這些條件相對應的元數據是不可用的,由于許多條件同時發生變化,因此無法調查單個因素的影響。為了克服這一問題,[126]引入了CURE TSDReal數據集,該數據集基于與真實世界環境相對應的模擬條件。[127]中提出了一種端到端交通標志檢測框架特征聚合多路徑網絡(FAMN)。它由兩個主要結構組成,即特征聚合和多路徑網絡結構,以解決交通標志檢測中的小對象檢測和細粒度分類問題。[128]中提出了一種用于夜間車輛檢測的車輛亮點信息輔助神經網絡,其中包括兩項創新:基于車輛亮點建立車輛標簽層次結構和設計多層融合車輛亮點信息網絡。[129]中給出了夜間情況下的實時車輛檢測,其中圖像包括占據大圖像區域的閃光,并且車輛的實際形狀沒有很好地定義。通過使用全局圖像描述符和中央凹分類器網格,可以準確有效地估計車輛位置。AugGAN[95]是用于車輛檢測領域自適應的非配對圖像到圖像轉換網絡。由于更好的圖像對象保存,它在數量上超過了競爭方法,以實現更高的夜間車輛檢測精度。[130]中提出了一種逐步域自適應(SDA)檢測方法,以通過最小化跨域目標檢測任務中的差異來進一步提高CycleGAN的性能。在第一步中,訓練一個未配對的圖像到圖像翻譯器,通過將源圖像翻譯成目標域中的相似圖像來構造假目標域。在第二步中,為了進一步最小化跨域的差異,設計了一個自適應的CenterNet,以對抗性學習的方式在特征級別對齊分布。
4)自動駕駛感知:分割
模型和算法:圖像分割包含三個子任務:語義分割、實例分割和全景分割。語義分割是一項精細的預測任務,用相應的對象類標記圖像的每個像素,實例分割旨在識別和分割屬于每個對象實例的像素,而全景分割統一了語義分割和實例分割,從而為所有像素提供了類標簽和實例ID。
當前克服挑戰的方法:最近的分割方向包括弱監督語義分割[139]、[140]、領域自適應[141]、[142]、多模態數據融合[143]、[144]和實時語義分割[145]、[146]、[147]。TS Yolo[148]是一個基于CNN的模型,用于在惡劣天氣條件下使用數據增強的新樣本進行準確的交通檢測。使用復制粘貼策略進行數據擴充,并從現有交通標志實例構建了大量新樣本。基于YoloV5,MixConv還用于在單個卷積運算中混合不同的內核大小,從而可以捕獲具有不同分辨率的模式。從大的輸入圖像中檢測和分類現實生活中的小交通標志是困難的,因為它們相對于較大的目標占用較少的像素。為了解決這一問題,Dense RefineDet[149]應用了單鏡頭目標檢測框架,以保持適當的精度-速度權衡。[127]中提出了一種端到端交通標志檢測框架特征聚合多徑網絡,以解決交通標志檢測中的小對象檢測和細粒度分類問題。
5)合作感知
模型和算法:在互聯自主車輛(CAV)中,根據數據類型,可以在三個級別上執行協作感知:早期融合(原始數據)、中間融合(預處理數據)和后期融合(處理數據),其中提取和傳輸中間神經特征,其中共享檢測輸出(3D邊界盒位置、置信分數),合作感知研究如何利用相鄰連接車輛和基礎設施的視覺線索來提高整體感知性能[150]!
1) 早期融合:[151]使用原始數據級LiDAR 3D點云融合從連接車輛的不同位置和角度收集的傳感器數據,并提出了一種基于點云的3D目標檢測方法,以處理對齊點云的多樣性。DiscoNet利用知識蒸餾,通過將相應的特征約束到網絡中用于早期融合的特征來增強訓練。
2) 中間融合:F-Cooper為邊緣應用提供了一個新的框架,為自動駕駛車輛提供服務,也為3D融合檢測提供了新的策略。[154]提出了一種用于感知和預測的車對車(V2V)方法,該方法傳輸P&P神經網絡的壓縮中間表示。[155]提出了一種注意力中間融合pipelines,以更好地捕獲網絡內連接的代理之間的交互,[150]中提出了一種使用新型vit的具有車輛對一切(V2X)通信的魯棒協作感知框架。
3) 后期融合:基于Car2X的感知被建模為虛擬傳感器,以便將其集成到高級傳感器數據融合架構中。
當前克服挑戰的方法:
為了減少通信負載和開銷,提出了一種用于集體感知中消息生成規則的改進算法[157],該算法通過重組集體感知消息的傳輸和內容來提高V2X通信的可靠性。[158]提出并評估了一個統一的合作感知框架,該框架包含分散的數據關聯和融合過程,該過程可根據參與方差進行擴展。通過采用現有模型以及單個車輛車載傳感器視野的簡化算法,評估考慮了自組織V2V網絡中的通信損失和交通中的隨機車輛運動的影響。AICP在[159]中提出,這是第一個解決方案,其重點是通過在網絡和應用層進行有效過濾來優化普適合作感知系統的信息性。為了促進系統聯網,他們還使用了一個網絡協議棧,該協議棧包括專用數據結構和專門用于信息密集型應用的輕量級路由協議!
6)道路使用者行為預測
模型和算法:來自視頻的軌跡預測對于自動駕駛、交通預測和擁堵管理非常有用。該領域中較老的工作集中于同質代理,例如高速公路上的汽車或人群中的行人,而異構代理僅在稀疏場景中考慮,具有某些假設,如基于車道的駕駛。
當前克服挑戰的方法:[172]中的切換線性動態系統(SLDS)描述了易受傷害道路使用者的動態,并使用從車載立體攝像機提取的特征中提取的上下文擴展了動態貝葉斯網絡,重點關注靜態和動態線索。該方法可以實時工作,提供道路用戶軌跡的準確預測,它可以通過增加交通燈和人行橫道等環境來改善。[173]中探討了機載相機和激光雷達以及V2V通信的使用,以使用隨機森林和LSTM架構預測軌跡。YOLO用于檢測汽車并提供邊界框,而LiDAR提供位置的細微變化,V2V通信傳輸轉向角等原始值,以減少預測的不確定性和延遲。在[174]中,TRAF數據集用于靜態或移動相機的魯棒端到端實時軌跡預測。多車輛跟蹤采用Mask R-CNN和互速障礙物算法。如[74]所示,最后3秒的跟蹤用于預測接下來5秒的軌跡,具有端到端可訓練的額外優勢,不需要注釋的軌跡數據。本文還提供了TrackNPred,這是一個基于python的庫,包含不同軌跡預測方法的實現。它是許多軌跡預測方法的通用接口,可用于在真實世界密集和異構交通數據集上使用標準誤差測量度量進行性能比較。大多數用于軌跡預測的DL方法都沒有揭示潛在的獎勵函數,相反,它們只依賴于以前看到的示例,這阻礙了可推廣性并限制了其范圍。在[175]中,反向強化學習被用于找到獎勵函數,從而可以說該模型有一個具體的目標,允許其部署在任何環境中。[176]中執行基于變換器的運動預測,以在Agroverse數據集中實現最先進的多模態軌跡預測。該網絡對道路幾何形狀和車輛之間的相互作用進行建模。[177]中,通過時空圖上的圖卷積網絡預測復雜城市場景中的行人意圖,該方法考慮了等待穿越的行人與車輛運動之間的關系。雖然在多個數據集上實現了80%的準確率,但它可以提前一秒預測跨越的意圖。另一方面,將行人建模為機器人,結合SVM而不需要姿勢信息,導致更長的預測,但缺乏對上下文信息的考慮[178]。
7)交通異常檢測
模型和算法:交通監控攝像頭可用于自動檢測交通異常,如停車和排隊。[68]已使用車輛拐角等低級別圖像特征的檢測來演示隊列檢測和隊列長度估計,而無需在不同照明條件下進行對象跟蹤或背景去除。基于光流的跟蹤方法不僅可以提供隊列長度,還可以提供速度、車輛數量、等待時間和車頭時距。
當前克服挑戰的方法:異常檢測依賴于監控攝像頭,通常可以提供道路遠處的視野,但遠處的車輛僅占用幾個像素,這使得檢測變得困難。因此,[182]除了多粒度的box級跟蹤之外,還使用像素級跟蹤。關鍵思想是基于幀差的掩模提取和基于高斯混合模型的車輛軌跡跟蹤,以消除移動車輛,并結合基于幀變化的分割來消除停車區。異常融合使用具有回溯優化的box和像素級跟蹤特征來細化預測。監控攝像機容易在風中抖動,因此在使用Faster R-CNN和級聯R-CNN形式的兩階段車輛檢測之前,進行了視頻穩定預處理[183]。從監控視頻中進行異常檢測的有效實時方法將外觀和運動學習分離為兩部分[184]。首先,自動編碼器學習外觀特征,然后3D卷積層可以使用來自多個過去幀的潛在代碼來預測未來幀的特征。預測特征和實際特征之間的顯著差異表明異常,該模型可以部署在交通攝像頭附近的邊緣節點上,與像素方法相比,潛在特征似乎對照明和天氣變化具有魯棒性。為了擺脫對異常注釋數據的依賴,[185]中的無監督單類方法應用時空卷積自動編碼器來獲取潛在特征,將它們堆疊在一起,序列到序列LSTM學習時間模式。該方法在多個真實世界監控錄像數據集上表現良好,但并不比監督訓練方法更好。其優點是,它可以在正常交通數據上無限期地訓練,而沒有任何標記的異常。
8)邊緣計算
模型和算法:ITS中的計算機視覺需要高效的基礎架構來實時分析數據。如果將所有獲取的視頻流發送到單個服務器,則所需的帶寬和計算將無法提供可用的服務。例如,[193]中探討了使用視頻有用性度量進行實時自動故障檢測的邊緣計算架構。只有被認為有用的視頻才被傳輸到服務器,而監控攝像機的故障或視線受阻會被自動報告。基于邊緣云的計算可以實現DL模型,不僅用于計算機視覺任務,還用于資源分配和效率[194]。被動監控現在已經被文獻中越來越多的配備傳感器的車輛所取代,這些車輛可以協同執行感知和建圖[56]。車輛上的車載計算資源通常不夠強大,無法實時處理所有傳感器數據,而定位和地圖等應用程序可能需要大量計算。
當前克服挑戰的方法:大規模DL的一個問題是產生的大量數據無法發送到云計算機進行訓練。聯合學習[199]已經成為解決這個問題的一種方法,特別是考慮到異構數據源、帶寬和隱私問題。訓練可以在邊緣節點或邊緣服務器上執行,結果被發送到云以在共享深度學習模型中聚合[56]。聯合學習對單個邊緣節點的故障也具有魯棒性[191],[200]中通過以增量和無監督學習的形式,僅將邊緣節點的推斷數據傳輸到云,解決了帶寬、數據隱私和功率需求的問題。通常,在邊緣處理數據以減少帶寬具有匿名傳輸數據的令人愉快的副作用[201],另一種降低帶寬需求的方法是對交通流預測所需的時空特征進行頻譜聚類壓縮[192]。深度學習模型不能直接導出到移動邊緣節點,因為它們通常過于計算密集。[202]中引入了存儲和計算方面的神經網絡修剪,而[203]中討論了在硬件上實現生成的稀疏網絡,實現了效率的多個數量級提高。[204]中為移動邊緣單元開發了一個通用的輕量級CNN模型,該模型與AlexNet和VGG-16相匹配或優于它們,但只占尺寸和計算成本的一小部分。[86]部署了使用深度學習的基于邊緣計算的交通流檢測,YOLOv3與DeepSORT一起進行了訓練和修剪,以部署在邊緣設備上實現實時性能。[205]中對在低功耗邊緣計算機上部署用于物聯網應用的緊湊型DNN進行了全面審查。他們注意到,DNN應用的多樣性和數量需要一種超越傳統修剪技術的自動模型壓縮方法。
未來方向
1)數據挑戰問題解決
雖然大量數據對于訓練深度學習模型至關重要,但質量往往是訓練性能的限制因素。數據管理是一個必要的過程,以包括邊緣案例,并根據來自真實世界的代表性數據訓練模型。標記視覺數據,特別是在復雜的城市環境中,是一項由人類完成的勞動密集型任務。可以通過首先使用現有的基于相關任務的對象檢測或分割算法來自動標記數據來加快速度。然后可以進一步檢查這一點,以消除機器的錯誤,從而創建一個有用的標記數據集。還需要包括來自不同視圖的多個傳感器的數據集來訓練協作感知算法。由于硬件要求和同步問題,收集此類數據必然具有挑戰性,但可以使用與將部署的配置類似的連接車輛和儀表交叉口。像[207]這樣的數據驅動模擬器使用高保真數據集來模擬相機和激光雷達,這可以用來訓練具有在現實世界中難以捕獲的數據的DL模型[208]。這種方法在自動駕駛車輛控制的端到端強化學習中顯示了希望[209]。預計領域適應技術將進一步擴展,以利用合成數據和方便收集的數據。
轉移學習的子領域,特別是few-shot學習和zero-shot學習,將廣泛應用專家知識,以解決缺乏數據的挑戰,如ITS和AD中的角案例識別。同樣,新的無監督學習和半監督學習模型有望在現實世界計算機視覺的一般領域中應用。未來在視覺transformer可解釋性方面的工作將允許基于多個樣本的聚合度量獲得更全面的見解[41]。可解釋性研究也有望評估基于模型和無模型強化學習方法之間的差異[42]。數據分散是ITS中公認的趨勢,為了解決數據隱私、大規模數據處理和效率等問題,基于視覺任務的眾感知[210]和聯合學習[211]是ITS和AD中不可避免的未來方向。此外,與為單個任務訓練單個模型的傳統方式不同,使用通用基礎模型(例如Florence[212])學習多個下游任務是處理各種數據挑戰的一種有前途的趨勢。另一種機制是ITS中的數據處理并行性,與邊緣計算相結合,用于多任務(例如,交通監控和道路監控)學習[213]。
2)模型挑戰問題解決
深度學習模型經過訓練,直到達到良好的準確性,但真實世界的測試往往揭示出邊緣情況和復雜環境條件下的弱點。需要在線學習,以使此類模型繼續改進并適應現實場景,否則無法實際使用。如果由于缺乏對預測正確性的實時反饋而無法進行在線訓練,則必須使用人工存儲和標記的真實數據定期分析性能。這可以作為一種迭代反饋循環,其中模型不需要顯著改變,只需要根據其發現的最具挑戰性的輸入進行增量重新訓練。部分自動化這一點的一種可能方式是使用相同的輸入數據進行多個不同的冗余體系結構的預測以及置信度得分。如果輸出不一致,或者如果某個輸出的置信度分數較低,則可以手動標記該數據點并將其添加到下一次訓練迭代的訓練集中。
部署到邊緣設備的復雜深度學習模型需要通過諸如修剪之類的方法來提高效率。簡單的修剪方法可以將CNN性能提高30%以上,根據具體的架構,模型還可以被劃分為部署在獨立邊緣單元上的不同功能塊,以最小化帶寬和計算時間[215]。邊緣人工智能的一個可預見的未來階段是“邊緣的模型訓練和推理”,沒有云數據中心的參與!
近年來,人們對可解釋的人工智能進行了大量研究,尤其是在計算機視覺方面。已經使用三種可解釋的方法來處理神經網絡:基于梯度的顯著性圖、類激活映射和激發反向傳播[216]。[217]中將這些方法擴展到圖卷積網絡,指出輸入中與分類相對應的模式。[218]中給出了自我注意和共同注意transfomer網絡的可解釋性通用解決方案。雖然將這些方法應用于交通應用并不簡單,但已經做出了一些努力來理解深度時空神經網絡,該網絡處理視頻目標分割和動作識別,量化網絡中的靜態和動態信息,并深入了解模型,突出從數據集學習到的偏差[219]。為了減輕遮擋、噪聲和傳感器故障的影響,合作傳感模型開發是未來更好地感知3D的必要方向。V2X網絡和視覺transformer已用于魯棒協作感知,可支持連接的自動駕駛車輛平臺中的感知[155]。聯網的自動駕駛汽車還將托管其他深度學習模型,這些模型可以以分布式方式從新數據中學習。共識驅動的分布式感知有望利用6G V2X等未來網絡技術,從而實現低延遲模型訓練,從而實現真正的L5級自動駕駛汽車。
3)用于解決復雜的交通環境挑戰
多模態感知和合作感知是未來實用研究的必要途徑。視頻、激光雷達和音頻等不同的模式可以組合使用,以提高純粹基于視覺的方法的性能。音頻尤其適用于早期檢測行人中的異常情況,如打架或騷亂,以及擁擠十字路口的車輛,因為視覺混亂可能不會立即顯示機械故障或輕微事故等問題。協作感知將允許來自不同車輛的同一環境的多個傳感器視圖構建包含比任何單個代理都能感知到的信息更多的公共圖片,從而解決遮擋和照明問題。使用遷移學習來提高現實任務中的模型性能的趨勢越來越大。最初,基于合成數據對模型進行訓練,并使用任務特定數據進行微調,從而降低了復雜的一次性深度學習模型的可靠性,并通過對具有挑戰性的城市場景進行再訓練來提高真實世界的性能。如前所述,領域適應、zero-shot學習、few-shot學習和基礎模型是預期的轉移學習領域,可用于此目的。在嵌入式硬件上部署后,通過在擁擠且具有挑戰性的場景中進行在線學習,可以進一步改善[185]中所述的無監督方法的結果,因為存在無限量的未標記數據。在[221]中,作為異常檢測的深度學習方法的一個重要方面,討論了在復雜環境中缺乏關于誤報率上限的理論性能分析,建議未來的研究也包括這一分析。很難想象完全依賴監控攝像頭來進行強大、廣泛和經濟的交通異常檢測。[222]中的方法包括交通、網絡、人口統計、土地利用和天氣數據源,以檢測交通。這種想法可以與計算機視覺應用結合使用,以獲得更好的整體性能。
ITS中邊緣計算應用的未來方向將考慮多源數據融合和在線學習。許多因素,如看不見的車輛形狀、新的周圍環境、可變的交通密度和罕見的事件,對DL模型來說都太具有挑戰性,該新數據可用于系統的在線訓練。傳統應用程序可以使用邊緣計算和IoV/IoT框架進行擴展,從視頻中重新識別車輛正在成為遮擋的最穩健解決方案。然而,包含更多用于學習的時空信息會導致更大的內存和計算使用。使用已知特征,可以在不同時間點將一個相機視圖中的軌跡與其它視圖進行匹配。代替使用固定窗口,基于相似性和質量的自適應特征聚合可以推廣到許多多目標跟蹤任務[225]。transformer在學習異構體之間的動態交互方面特別有用,這在擁擠的城市環境中對于檢測和軌跡預測特別有用。它們還可用于檢測異常和預測潛在危險情況,如多用戶異構場景中的碰撞!
審核編輯:郭婷
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100855 -
計算機
+關注
關注
19文章
7511瀏覽量
88100 -
自動駕駛
+關注
關注
784文章
13839瀏覽量
166552
原文標題:最新綜述 | 復雜環境中的計算機視覺問題介紹及解決!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論