導讀
日前,計算機視覺和模式識別領域的三大頂級會議之一CVPR正在進行中,深蘭DeepBlueAI團隊在動作識別國際挑戰賽 (ActivityNet) 研討會上,參加了 MMAct 挑戰賽中僅設的兩個賽道——“跨模態裁剪動作識別”和“跨模態未裁剪動作時序定位”,并均以大比分領先取得第一。
冠軍方案解讀
競賽要求參賽者提出跨模態視頻動作識別/定位方法,以彌補使用 MMAct[1] 數據集的純視覺方法的缺點。此任務的目標是利用基于傳感器的,例如穿戴式傳感器數據作為特權信息,以及基于視覺的模態,其方式可以克服訓練(傳感器 + 視頻)和測試(僅視頻)階段之間模態差異所帶來的限制。用于此競賽的多模態數據包括:加速度、方向、陀螺儀、RGB 視頻和人體關鍵點。
挑戰賽促進了關于如何通過使用跨模態方法解決視覺挑戰的另一種觀點,希望擴大對視頻動作理解的研究,以進一步利用日常使用的智能設備(例如智能手機)中的傳感器。
賽題一
跨模態裁剪動作識別
Cross-Modal Trimmed Action Recognition
在此任務中,參與者使用來自MMAct 的修剪視頻以及配對的傳感器數據,在數據中包含交叉視角和交叉場景兩種類型的數據,共35個動作類別。任務允許參與者使用修剪過的傳感器數據和修剪過的視頻進行訓練,但不能同時使用交叉視角和交叉場景的數據,且僅對修剪過的視頻進行測試以進行動作識別,并采用mAP作為評價指標。
賽題難點:
不同視頻等多模態數據時序長度變化大,從幾秒到幾分鐘不等;
測試階段只提供了視頻數據。
應用場景:
視頻監控、異常行為識別
解決方案:
考慮到視頻長度較長,為了有效地捕獲視頻中的動作信息,團隊優先采用了等間隔采樣的方式對每個視頻進行采樣,然后采用隨機尺度裁剪、水平翻轉等數據增強方式進行增強。
在算法選型上,團隊優先采用了TSM[2]進行實驗,它具有高效率和高性能。具體來說,它可以達到 3D CNN 的性能,但保持 2D CNN 的復雜性。TSM 沿時間維度移動部分通道,從而促進相鄰幀之間的信息交換,它還可以插入到 2D CNN 中以實現零計算和零參數的時間建模。
作為對比,團隊同時采用了滑動窗口的形式進行幀數據采樣,并采用ir-CSN[3]進行實驗。CSN探索了通道之間交互的重要性,并達到了節省計算參數和通道之間交互的平衡,網絡具有結構精簡、計算量小、速度快、準確率好的優點,并且還有一定的正則化能力。
最后,在進行了為每個視頻采樣不同的幀數,是否添加Non-Local模塊,以及MixUp與ColorJitter數據增強的實驗之后,團隊采用TSM,以ResNet50作為Backbone, 并以等間隔采樣的方式采樣32幀,最終取得了最好的單模成績。在融合ir-CSN結果后,取得了最好的線上成績。
賽題二
跨模態未裁剪動作時序定位
Cross-Modal Untrimmed Action Temporal Localization,在這項任務中,參與者使用來自MMAct 的未修剪視頻以及配對的傳感器數據,在數據中包含交叉視角和交叉場景兩種類型的數據,共35個動作類別。參與者允許使用未修剪的配對傳感器數據和視頻進行訓練,然后在僅包含未修剪的視頻數據的測試集上進行時間動作定位,輸出未修剪視頻中識別的動作類別及其開始和結束時間,并采用AP作為評價指標。
賽題難點:
視頻時長較長,從幾分鐘到十幾分鐘不等;
測試階段只提供了視頻數據。
應用場景:
視頻監控、異常行為識別、定位
解決方案:
考慮到在測試集中只提供了視頻數據,因此團隊的實現方案主要在視頻數據上進行實驗。在時序動作定位相關的工作中,主流的方法如BSN[5]、BMN[6]等。需要經過:視頻抽幀-》提取光流-》行為識別算法進行特征提取-》時序動作定位算法進行動作定位-》行為識別算法進行動作識別等多個環節,整個方案實現流程十分繁雜。
在實現方案中為了簡化方案流程,采用AFSD[7]作為算法實現。這是一個anchor-free的時序定位框架,并且是一個end-to-end使用視頻幀作為輸入而不是特征作為輸入的算法。
為了獲得模型的輸入,團隊對每個視頻以動態幀率采樣2304幀,并進行光流計算,這樣可以保證10分鐘以上的視頻有大約3幀的采樣幀率,不至于丟失過多的視頻信息。最后再分別采用RGB數據和光流數據進行訓練,并融合兩種類型的預測結果后,取得了團隊最好成績。
編輯:jq
-
RGB
+關注
關注
4文章
798瀏覽量
58461 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45976 -
數據集
+關注
關注
4文章
1208瀏覽量
24689 -
深蘭科技
+關注
關注
1文章
55瀏覽量
5959
原文標題:賽道 | CVPR2021-MMAct挑戰賽跨模態動作識別雙冠方案解讀
文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論