色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PVT++:通用的端對端預測性跟蹤框架

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-07-30 22:30 ? 次閱讀

本文提出通用的端對端預測性跟蹤框架 PVT++,旨在解決目標跟蹤的部署時的延遲問題。多種預訓練跟蹤器在 PVT++ 框架下訓練后“在線”跟蹤效果大幅提高,某些情況下甚至取得了與“離線”設定相當的效果。6d836960-2ee5-11ee-815d-dac502259ad0.png▲ PVT++

引言

單目標跟蹤(SOT)是計算機視覺領域研究已久的問題。給定視頻第一幀目標的初始位置與尺度,目標跟蹤算法需要在后續的每一幀確定初始目標的位置與尺度。將這類視覺方法部署在機器人上可以實現監測、跟隨、自定位以及避障等智能應用。大多數目標跟蹤算法的研究與評估都基于“離線”假設,具體而言,算法按照(離線)視頻的幀號逐幀處理,得出的結果與對應幀相比以進行準確率/成功率計算。

然而,這一假設在機器人部署中通常是難以滿足的,因為算法本的延遲在機器人硬件上不可忽視,當算法完成當前幀時,世界已經發生了變化,導致跟蹤器輸出的結果與實際世界的目標當前狀態不匹配。換言之,如圖二(a)所示,由于算法的延遲總存在(即使算法達到實時幀率),輸出的結果“過時”是不可避免的。

這一思想起源于 ECCV2020 “Towards Streaming Perception”。

由于機載算力受限,平臺/相機運動劇烈,我們發現這一問題在無人機跟蹤中尤為嚴重,如圖一所示,相比“離線”評估,考慮算法延遲的“在線”評估可能使得其表現大幅下降。

6d9222ca-2ee5-11ee-815d-dac502259ad0.png

▲ 圖一. “離線”評估與“在線”評估中各個跟蹤器的表現以及 PVT++ 在“在線”跟蹤中的效果。灰色圖標代表離線評估,藍色圖標代表相同方法在線評估,紅色圖標代表相同方法使用 PVT++ 轉換為預測性跟蹤器。

如圖二(b)所示,為解決這一問題,預測性跟蹤器需要提前預測世界未來的狀態,以彌補算法延遲導致的滯后性。

這一理論詳見 ECCV2020 “Towards Streaming Perception” 以及我們過往的工作 “Predictive Visual Tracking(PVT)”。

而與以往的在跟蹤器后使用卡爾曼濾波的方法不同,在本文中,我們從跟蹤器能提供的視覺特征出發,研發了端對端的預測性目標跟蹤框架(PVT++)。我們的 PVT++ 有效利用了預訓練跟蹤器可提供的視覺特征并可從數據中學習目標運動的規律,進而做出更準確的運動預測。6dd9a0f0-2ee5-11ee-815d-dac502259ad0.png

▲ 圖二.(a)常規的跟蹤器有延遲,所以結果總是滯后的。(b)預測性跟蹤提前預測世界的狀態,彌補延遲帶來的滯后性。(c)與基于卡爾曼濾波的方法不同,我們的 PVT++ 有效利用了跟蹤器自帶的視覺特征并可從數據中學習運動的規律,進而做出更準確的預測。

PVT++ 是一個通用的可學習框架,能適用不同類型的跟蹤器,如圖一所示,在某些場景下,使用 PVT++ 后甚至能取得與“離線”評估相當的“在線”結果。

貢獻

  1. 我們研發了端對端的預測性目標跟蹤框架 PVT++,該通用框架適用于不同類型的跟蹤器并能普遍帶來大幅效果提升。
  2. 為實現“從數據中發現目標運動的規律”,我們提出了相對運動因子,有效解決了 PVT++ 的泛化問題。
  3. 為引入跟蹤器已有的視覺特征實現穩定預測,我們設計了輔助分支聯合訓練機制,不僅有效利用了跟蹤器的視覺知識而且節省了計算資源。
  4. 除了 PVT++ 方法,我們還提出了能夠進一步量化跟蹤器性能的的新型評估指標e-LAE,該指標不僅實現了考慮延遲的評估,而且可以區分實時的跟蹤器。

方法介紹

為了將整個問題用嚴謹的數學公式成體系地定義出來,我們花了很多時間反復打磨 PVT++ 的方法部分敘述,然而不可避免符號偏多結構也比較復雜(被 reviewer 們多次吐槽...),讀起來有些晦澀難懂容易 lost,在此僅提供一些我 intuitive 的想法,以方便讀者能夠更快理解文章的核心思想。

6e225ad4-2ee5-11ee-815d-dac502259ad0.png

▲ 圖三.(a)PVT++ 宏觀框架與(b)e-LAE 評估指標

3.1 e-LAE 評估指標

與“離線”設定不同,“在線”跟蹤(LAE)依照算法實際部署的情況設計,具體而言,其遵循以下兩條原則:1. 運行時,方法只能處理“最新”的一幀,而非連續的每一幀。如圖三的時間軸所示,假設世界時間軸為 ,當算法處理第 幀結束時的世界時間位于 后一點(這里看圖中上方的算法時間戳 ),那么此時的“最新”幀為第二幀,算法的下一幀輸入即為第 2 幀,同理,算法的再下一輸入幀為第 5 幀,可以發現這樣第 1,3,4 幀由于算法延遲被跳過。2. 評估時,選取跟蹤器在對應幀的世界時刻能給出的“最新”的結果進行評估。如圖三所示(這里看圖中下方的算法時間戳 ),假設我們要評估第 1 幀的結果,在世界位于第 1 幀時,算法其實并沒有處理完第一幀,故而只能使用“最新”的第 幀的輸出結果進行評估。

類似的評估方式最早被提出于 ECCV2020 “Towards Streaming Perception”,在以前的研究 PVT 中,我們針對跟蹤算法做了上述調整。

然而,這樣的評估方式有一個缺陷,假設算法速度快于世界幀率(例如圖三下方的算法時間戳),無論算法有多快,評估時的算法滯后永遠是一幀。換言之,假設有兩個精度一樣的跟蹤器 A 與 B,A 的速度 > B > 世界幀率,那么這樣的評估指標得到的 A,B 的結果是一樣的,這樣以來,LAE 便無法將實時跟蹤器的速度納入評估中,無法對實時跟蹤器進行有效比較。 為此,我們設計了擴展版 LAE(e-LAE)。e-LAE 并不要求算法“立刻”給出當前幀的最新結果,而是允許一個一幀內的延遲閾值 ,評估第 幀時,只需給出 時的最新結果即可。可以想象到當 從 0 逐漸增大到 1 時,實時跟蹤器會慢慢從“在線”結果變為“離線”結果(實際結果從小變大),而跟蹤器越快(延遲越?。?,其對應的臨界 也就越小。 利用這一點,我們使用 的 精度 ?精度 曲線下面積表示結果這樣再次考慮之前的例子,A 的速度快,它便能在 較小時變為數值更大的“離線”結果,這樣的曲線下面積也就大于跟蹤器 B,e-LAE 便能成功區分兩個精度一樣速度不同的實時跟蹤器了。 基于 e-LAE,我們在機器人平臺 AGX Xavier 上進行了眾多跟蹤器詳盡的實驗,涉及 17 個跟蹤器,三個數據集,詳見原文圖五,e-LAE 可以區分一些精度接近而速度有一些差距的實時跟蹤器,如 HiFT 與 SiamAPN++(原文 Remark 2)。我們正在進一步檢查所有結果,最終確認后也會將評估的原始結果開源。

3.2 PVT++

無論算法的速度有多快,其延遲總存在,故而我們設計了端對端預測性跟蹤框架彌補延遲。如圖三(a)所示,PVT++ 的結構非常直觀簡單,跟蹤器模塊即普通的已有的(基于深度學習的)跟蹤算法,預測器接受跟蹤器輸出的歷史運動 ,跟蹤器的歷史視覺特征 ,以及預設的落后幀數 作為輸入,輸出未來幀的目標位置。

PVT++ 的結構看上去雖然簡單直觀,但使用離線數據訓練這一套框架使之協助在線無人機跟蹤并非易事,其獨道之處在于以下三點:

相對運動因子:我們發現訓練 PVT++ 會遇到一個核心問題,訓練集與測試集的域差距。試想,如果用于訓練 PVT++ 的數據來自 VID,LaSOT,GOT10k 這些目標運動尺度較小,方向速度較規律的數據集,PVT++ 自然會嘗試擬合這些運動規律而難以泛化到目標運動更復雜,尺度更大的無人機跟蹤場景。為了解決這一問題,我們將 PVT++ 的訓練目標改為學習/擬合特殊設計的相對運動因子,即原文公式(4):

6e6484fe-2ee5-11ee-815d-dac502259ad0.png

這里 可以簡單理解為過去幾幀的平均速度,在左側的公式中,我們可以先假設目標是勻速運動的,即未來幀的相對位置變化正比于未來幀的時間間隔和平均速度,此后我們的神經網絡只需要在這一假設上做出調整即為未來的真實運動。這一設計也就使得預測器需要學習的東西是“相對于勻速運動假設的偏差值”,即相對運動因子,而非絕對的運動值。

我們發現這一預測目標在大多數時候與目標的絕對運動是無關的,故而訓練出的網絡也就不易擬合訓練集中的絕對運動,有著更好的泛化性。這一設計是 PVT++ 能 work 的核心原因。預測器輸出的相對運動會用于后續設計與真值的 L1 損失作為訓練損失函數。

輕量化預測器結構:另一個問題是,預測器本身必須足夠輕量才能避免預測模塊引入額外的延遲,否則會導致整個系統失效。為此,我們設計了輕量有效的網絡架構,包含 encoder - interaction - decoder 三部分,并能兼容運動軌跡信息與視覺特征,具體如圖四,其中大多數網絡層都可以有著非常小的通道數以實現極低的延遲(詳見原文表 3)。此外,我們預測器的設計也最大程度上復用了跟蹤器能提供的視覺特征,因此節省了提取視覺特征所需要的計算資源。6e75b170-2ee5-11ee-815d-dac502259ad0.png▲ 圖四. PVT++ 中預測器的輕量化網絡架構。 如何有效利用跟蹤器已有的視覺特征:最后,為了使輕量的預測器做出穩健的預測,我們設計了一系列訓練策略使得參數量很少的預測器有效利用(較大型)預訓練跟蹤器的能提供的魯棒視覺表征。具體而言,我們發現以下兩點設計尤為重要:
  1. 輔助分支:預測器的視覺分支(圖四(b))需要當前的相對運動信息作為監督信號(圖四的虛線框部分)才能用于預測未來的運動。詳見原文 5.3 節。
  2. 聯合訓練:在訓練 PVT++ 時,跟蹤器模塊需要在早期的訓練 epoch 中以較小的學習率聯合預測器一起訓練,進而使視覺特征既適用跟蹤器做定位,又適合預測器做預測。詳見附錄 B 中的訓練設定與我們的開源代碼。

更多關于方法的細節介紹歡迎大家參考我們的原文(p.s.,我們的附錄 B 提供了一個符號表輔助閱讀...)

實驗部分

全文的實驗設計包括 e-LAE 的評估(原文圖五)與 PVT++ 的效果、分析兩部分,在這里著重介紹 PVT++ 有關的實驗。

4.1 設置

為了公平比較基線跟蹤器,PVT++ 采用與他們訓練相同的 LaSOT+GOT10k+VID 作為訓練集(均為視頻)(實際上僅用 VID 也可以取得較好效果,詳見附錄 L)。具體而言,我們直接加載了跟蹤器原作者提供的模型參數作為我們的跟蹤器模塊,再使用離線數據訓練 PVT++。 評估時我們使用了四個無人機跟蹤權威數據集 DTB70,UAVDT,UAV20 L 以及 UAV123,廣泛驗證了 PVT++ 的泛化性。

4.2 整體效果

6e820d1c-2ee5-11ee-815d-dac502259ad0.png

▲ 表一

PVT++ 的整體效果如表一所示,我們共將四個跟蹤器轉化為了預測性跟蹤器,在四個無人機跟蹤數據集中,PVT++ 能起到廣泛而顯著的效果。可以發現 PVT++ 在某些場景下能達到超過 60% 的提升,甚至與跟蹤器的離線效果相當。另外我們也發現并不是所有的情況下視覺信息都是有效可靠的,例如在 DTB70 中,僅用 PVT++ 的 motion 分支也可以起到一定的效果。

4.3 消融實驗

6eecc40e-2ee5-11ee-815d-dac502259ad0.png

這里著重展示一下消融實驗表四,如果不預測相對運動因子而是直接用絕對運動的值作為預測目標(和損失函數設計),預測器完全不 work,甚至會引入負面影響。當引入視覺特征以后,輔助分支的監督和聯合訓練都是必要的,其中聯合訓練的重要性更大。

4.4 與其他方法對比

6f48e84c-2ee5-11ee-815d-dac502259ad0.png

▲ 表五 如表五,我們嘗試了直接在跟蹤器后加入卡爾曼濾波(即沿用 ECCV2020 “streaming” 的思想)以及我們之前雙濾波(PVT)的方案,并且在審稿人的建議下設計了可學習的基線方法(具體而言,我們將卡爾曼濾波中的噪聲項作為可學習參數)。這些方法都沒有利用跟蹤器已有的視覺特征,所以綜合效果差于聯合了運動與視覺特征的 PVT++。

4.5 可視化

▲ 圖五. PVT++與卡爾曼濾波的可視化對比 在圖五中的三個序列中,我們發現卡爾曼濾波預測器很難處理目標平面內旋轉以及無人機視角變化的情況,在這些挑戰中,引入視覺信息進行目標尺度預測是尤為有效的。 另外本文也進行了更為詳盡的實驗,如屬性分析、與其他運動預測方法(如 NEXT)的對比、PVT++ 作用在最新的基于 transformer 的跟蹤器等,歡迎大家參閱我們的附錄。

局限性與討論

PVT++ 的局限性在于兩點:
  1. 預測器使用的視覺特征并不總是魯棒,我們發現在 DTB70 這類目標運動速度很快導致圖片模糊/目標出視野,但目標運動本身很規律的數據集中其實單靠運動分支就可以起到很好的效果。
  2. 訓練策略有些復雜,特別是聯合訓練時跟蹤器模塊在早期 epoch 用較小學習率微調這一些細節我們嘗試了很多次實驗才發現。

e-LAE 的局限性在于可復現性與平臺依賴性: 由于這套在線評估系統與算法的實際延遲緊密相關,而延遲又與硬件平臺的狀態有關,我們發現甚至同一型號的硬件上的同一實驗結果也會略有不同(就是說甚至同一臺 AGX 放久了好像也會稍微慢一點....)。我們已經嘗試在同一硬件上集中多次運行以盡可能降低硬件的不穩定性帶來的影響并會將原始結果開源以方便大家復現結果。另外我們也提供了一個“模擬” AGX 硬件的腳本,可以將硬件上統計的延遲時間直接使用(而不是每次都一定要在機器人硬件上運行),詳見我們的開源代碼。 預測性“在線”目標跟蹤依然是一個相當困難的研究問題,可能并不是增大數據量/模型參數量能輕易解決的,仍有著較大的提升空間?,F在視覺領域正快速涌現一批批“奇觀”,在線延遲也 potentially 有著其他的解決方案值得研究。譬如最近有一篇比較出圈的工作叫 OmniMotion,我們能不能依賴點的 correspondence,考慮從目標上每個 point 的運動規律出發,推理物體 local 到 global 的未來運動?這樣也許能實現比 PVT++ 更出彩的效果。 另外將算法延遲問題引入如今大火的一些 foundation model 研究中也是有意思的方向。譬如 SAM 和 DINOv2 的視覺特征是不是比 ImageNet pre-train 的 ResNet 更適合做視覺運動預測?如果是的話又該怎么處理這些超大規模預訓練出的視覺特征?或許可以從 TrackAnything 入手研究。


原文標題:PVT++:通用的端對端預測性跟蹤框架

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2909

    文章

    44701

    瀏覽量

    373958

原文標題:PVT++:通用的端對端預測性跟蹤框架

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    在自動泊車的應用

    與城市環境的復雜和高速公路駕駛的風險相比,停車場景的特點是低速、空間有限和高可控。這些特點為在車輛中逐步部署自動駕駛能力提供了可行的途徑。最重要的是自動泊車對時間不敏感,而自
    的頭像 發表于 12-18 11:38 ?393次閱讀
    <b class='flag-5'>端</b>到<b class='flag-5'>端</b>在自動泊車的應用

    爆火的如何加速智駕落地?

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0551,獲取本文參考報告:《智能汽車技術研究報告》pdf下載方式。 “”無疑是2024年自動駕駛行業最火熱的一個詞了!(相關
    的頭像 發表于 11-26 13:17 ?297次閱讀
    爆火的<b class='flag-5'>端</b>到<b class='flag-5'>端</b>如何加速智駕落地?

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉換為導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發現VLM可以作為一種無需任何微調或導航數據的
    的頭像 發表于 11-22 09:42 ?182次閱讀

    InfiniBand網絡解決LLM訓練瓶頸

    ChatGPT對技術的影響引發了對人工智能未來的預測,尤其是多模態技術的關注。OpenAI推出了具有突破的多模態模型GPT-4,使各個領域取得了顯著的發展。 這些AI進步是通過大規模模型訓練實現
    的頭像 發表于 10-23 11:26 ?421次閱讀
    <b class='flag-5'>端</b>到<b class='flag-5'>端</b>InfiniBand網絡解決LLM訓練瓶頸

    放大器單輸出的區別

    放大器是電子學中的一種重要設備,用于增強信號的幅度。在放大器的設計和應用中,單輸出和雙輸出是兩種常見的輸出方式。這兩種方式各有特點和應用場景。 1. 單輸出放大器 1.1 定義 單
    的頭像 發表于 10-08 16:36 ?1682次閱讀

    功放和雙的區別是什么

    功放和雙功放是兩種不同的音頻放大器設計,它們在結構、性能和應用方面都有各自的特點。以下是對這兩種功放的比較: 1. 定義與基本原理 單功放(Single-Ended Amplifier
    的頭像 發表于 10-08 16:35 ?1181次閱讀

    揭秘動態化跨框架在鴻蒙系統下的高性能解決方案

    作者:京東科技 胡大海 前言 動態化跨框架 (后文統稱“ 動態化” ) 是一個由京東金融大前端團隊全自主研發的,一份代碼,可以在 HarmonyOS、 iOS、Android、Web四運行的跨
    的頭像 發表于 10-08 13:46 ?839次閱讀
    揭秘動態化跨<b class='flag-5'>端</b><b class='flag-5'>框架</b>在鴻蒙系統下的高性能解決方案

    測試用例怎么寫

    測試方法,旨在驗證整個應用程序從前端到后端的流程是否能夠按照預期工作。它涉及多個系統組件和接口的交互,確保業務流程的完整和正確。 二、編寫測試用例的步驟 需求分析 理解業務流
    的頭像 發表于 09-20 10:29 ?484次閱讀

    電阻的電流和電壓是如何區分的

    電阻,又稱為四測量電阻或凱爾文電阻,是一種特殊的電阻器,主要用于精密測量電路中的電阻值。四電阻的電流和電壓的區分對于測量的準確
    的頭像 發表于 08-05 10:48 ?1306次閱讀

    輸入和雙輸入的區別是什么

    輸入和雙輸入是電子電路設計中的兩種不同的輸入方式。它們在電路設計、性能和應用方面存在一些關鍵的區別 單輸入 單輸入是一種常見的輸入方式,它使用單個輸入信號來驅動電路。在單
    的頭像 發表于 07-31 10:50 ?2706次閱讀

    比較器輸入和輸出的關系

    比較器是一種電子設備,用于比較兩個電壓或電流信號的大小。比較器的輸入和輸出之間的關系是其核心功能之一。 比較器的基本原理 比較器是一種模擬電路,其基本原理是將兩個輸入信號進行比較,并根據比較結果
    的頭像 發表于 07-10 10:39 ?2421次閱讀

    服務測試和客戶測試區別在哪

    主要針對服務器的軟件進行測試,包括服務器的應用程序、數據庫、中間件等。服務測試的目的是確保服務器軟件的穩定性、性能、安全和可靠
    的頭像 發表于 05-30 15:27 ?3154次閱讀

    ZETA智能?紅牛:助力國際飲料巨頭實現生產設備預測維護

    為了更好地實現設備的預測維護,紅牛在泰國等地的工廠選擇了基于ZETA智能的預測維護方案,實現其工廠設備的監測與管理,提升運營效率。
    的頭像 發表于 04-22 10:53 ?381次閱讀
    ZETA<b class='flag-5'>端</b>智能?紅牛:助力國際飲料巨頭實現生產設備<b class='flag-5'>預測</b><b class='flag-5'>性</b>維護

    理想汽車自動駕駛模型實現

    理想汽車在感知、跟蹤、預測、決策和規劃等方面都進行了模型化,最終實現了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環境中進行訓練和測試。
    發表于 04-12 12:17 ?462次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b>到<b class='flag-5'>端</b>模型實現

    模型卷入智駕圈 周光:今年上車!

    讓AI像人類司機一樣開車,今年就能做到。 ? 3月17日,在中國電動汽車百人會汽車新質生產力論壇上,元戎啟行CEO周光表示,智能駕駛模型將會成就一位“超級AI司機”,開啟物理世界通用
    發表于 03-18 11:17 ?528次閱讀
    <b class='flag-5'>端</b>到<b class='flag-5'>端</b>模型卷入智駕圈 周光:今年上車!
    主站蜘蛛池模板: 亚洲成年人影院| 欧美人与善交大片| 免费成年人在线视频| 亚洲AV精品无码成人| 苍老师刺激的120分钟| 内射少妇36P九色| 97免费观看视频| 免费果冻传媒2021在线看| 中文字幕亚洲综合小综合在线| 久久4k岛国高清一区二区| 亚洲欧美一区二区成人片| 国产亚洲精品久久无码98| 午夜影院美女| 国产精品视频国产永久视频 | OLDMAN老头456 TUBE| 嫩草欧美曰韩国产大片| AV天堂午夜精品一区| 欧美性动漫3d在线观看完整版| 99视频在线免费看| 日本福利片午夜免费观着| 国产 日韩 欧美 高清 亚洲| 同居了嫂子在线观看| 国产又湿又黄又硬又刺激视频| 亚洲欧美成人无码久久久| 久久久无码精品亚洲A片猫咪| 2021乱码精品公司| 人妻中文字幕无码系列| 国产黄大片在线视频| 亚洲视频在线免费| 麻豆国产精品AV色拍综合| www.色小姐| 亚洲AV國產国产久青草| 久久国产高清视频| 99精品影视| 无码人妻视频又大又粗欧美| 禁漫H天堂免费A漫| 69xx欧美| 无限资源好看片2019免费观看| 精品国产5g影院天天爽| 91福利国产在线观看网站| 日本一区不卡在线播放视频免费|