亚洲国产日韩在线成人蜜芽,亚洲系列在线,中国毛片基地

Tracking Everything Everywhere All at Once.

前段時間，Meta 發布「分割一切（SAM）」AI 模型，可以為任何圖像或視頻中的任何物體生成 mask，讓計算機視覺（CV）領域研究者驚呼：「CV 不存在了」。之后，CV 領域掀起了一陣「二創」狂潮，一些工作陸續在分割的基礎上結合目標檢測、圖像生成等功能，但大部分研究是基于靜態圖像的。

現在，一項稱為「追蹤一切」的新研究為動態視頻中的運動估計提出了新方法，能夠準確、完整地追蹤物體的運動軌跡。

該研究由來自康奈爾大學、谷歌研究院和 UC 伯克利的研究者共同完成。他們聯合提出了一種完整且全局一致的運動表征 OmniMotion，并提出一種新的測試時（test-time）優化方法，對視頻中每個像素進行準確、完整的運動估計。

論文地址：https://arxiv.org/abs/2306.05422
項目主頁：https://omnimotion.github.io/

有網友在推特上轉發了這項研究，僅一天時間就收獲了 3500 + 的點贊量，研究內容大受好評。

從該研究發布的 demo 看，運動追蹤的效果非常好，例如追蹤跳躍袋鼠的運動軌跡：

蕩秋千的運動曲線：

還能交互式查看運動追蹤情況：

即使物體被遮擋也能追蹤運動軌跡，如狗在跑動的過程中被樹遮擋：

在計算機視覺領域，常用的運動估計方法有兩種：稀疏特征追蹤和密集光流。但這兩種方法各有缺點，稀疏特征追蹤不能建模所有像素的運動；密集光流無法長時間捕獲運動軌跡。

該研究提出的 OmniMotion 使用 quasi-3D 規范體積來表征視頻，并通過局部空間和規范空間之間的雙射（bijection）對每個像素進行追蹤。這種表征能夠保證全局一致性，即使在物體被遮擋的情況下也能進行運動追蹤，并對相機和物體運動的任何組合進行建模。該研究通過實驗表明所提方法大大優于現有 SOTA 方法。

方法概述

該研究將幀的集合與成對的噪聲運動估計（例如光流場）作為輸入，以形成整個視頻的完整、全局一致的運動表征。然后，該研究添加了一個優化過程，使其可以用任何幀中的任何像素查詢表征，以在整個視頻中產生平滑、準確的運動軌跡。值得注意的是，該方法可以識別畫面中的點何時被遮擋，甚至可以穿過遮擋追蹤點。

OmniMotion 表征

傳統的運動估計方法（例如成對光流），當物體被遮擋時會失去對物體的追蹤。為了在遮擋的情況下也能提供準確、一致的運動軌跡，該研究提出全局運動表征 OmniMotion。

該研究試圖在沒有顯式動態 3D 重建的情況下準確追蹤真實世界的運動。OmniMotion 表征將視頻中的場景表示為規范的 3D 體積，通過局部規范雙射（local-canonical bijection）映射成每個幀中的局部體積。局部規范雙射被參數化為神經網絡，并在不分離兩者的情況下捕獲相機和場景運動?；诖朔N方法，視頻可以被視為來自固定靜態相機局部體積的渲染結果。