本文介紹一篇CVPR 2019 Oral的工作,作者來自CMU、UC伯克利,論文提出采用無監(jiān)督學(xué)習(xí)的創(chuàng)新視頻跟蹤思路,得到了優(yōu)越的結(jié)果。
本文主要介紹CVPR2019(Oral)的工作:
Xiaolong Wang*, Allan Jabri* and Alexei A. Efros. Learning Correspondence from the Cycle-consistency of Time.
Paper:LearningCorrespondencefromtheCycle-ConsistencyofTime
Code:xiaolonw/TimeCycle
Slides(百度網(wǎng)盤):https://pan.baidu.com/s/1prNthUokiqRPELs8J4O-vQ提取碼:es86
我們這個(gè)工作主要是給 tracking 和 optical flow 提供一種新的思路。我們把兩者聯(lián)系并且統(tǒng)一起來稱為correspondenceintime。而這個(gè)工作的目標(biāo)就是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),使得它能幫助我們獲得在video中幀與幀之間的semi-densecorrespondence。
和以往的方法不一樣,我們不需要人為的數(shù)據(jù)標(biāo)注也不需要 synthetic data 進(jìn)行訓(xùn)練。這個(gè)工作采用的是無監(jiān)督學(xué)習(xí)(self-supervised /unsupervised learning),而且訓(xùn)練網(wǎng)絡(luò)的方法能被應(yīng)用到任意的 video 上面。
首先 show 一下結(jié)果,我們訓(xùn)練出來的網(wǎng)絡(luò)可以用來做以下的 human part segment tracking (沒有經(jīng)過任何用 segmentation training 和 fine-tuning)。
視頻分割跟蹤
在介紹我們的方法之前,先討論一下目前找 correspondence 的方法:
RelatedWork1:VisualTracking
Visual Tracking 能夠獲得 box-level correspondence。但是目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)做 tracking 需要標(biāo)注視頻的每一幀進(jìn)行訓(xùn)練,這樣大大限制了訓(xùn)練樣本的數(shù)量。
RelatedWork2:OpticalFlowEstimation
Optical Flow Estimation 能夠獲得 pixel-level correspondence。但通常訓(xùn)練神經(jīng)網(wǎng)絡(luò)計(jì)算 optical flow 通常需要在 synthetic dataset 上進(jìn)行,使得訓(xùn)練出來的網(wǎng)絡(luò)很難泛化到真實(shí)數(shù)據(jù)中 (generalization to real data)。而且 optical flow 對于局部的變化過于敏感,很難處理長距離或者 large motion 的視頻。
其實(shí) Visual Tracking 和 Optical Flow Estimation 之間非常相關(guān),但是似乎在近年來深度學(xué)習(xí)之后這兩個(gè)領(lǐng)域變得互相獨(dú)立。我們這篇文章希望讓大家能把兩者聯(lián)系起來思考。
本文的方法
我們這里提出的其實(shí)是介于tracking與opticalflow的中間的mid-levelcorrespondence或者說是 semi-dense correspondence。正因?yàn)槲覀兪窃?mid-level 上算 correspondence,這使得我們對 pixel 上的局部變化變得更加 robust,能在一定程度上 encode invariance,從而讓我們可以做 long-range tracking 和處理 large object displacement。
我們在 deep feature 上計(jì)算 semi-dense correspondence。如下圖,對于相鄰兩幀,我們首先抽取 deep feature (大概 30x30 resolution)。對于在 t-1 幀的一個(gè)格子,我們通過算 nearest neighbor 找到在 t 幀最相似的格子。下圖箭頭兩端代表了其中一個(gè) correspondence。
以下是我們訓(xùn)練這個(gè) deep network 的方法,這里采用的是無監(jiān)督學(xué)習(xí)(self-supervised/unsupervised learning):既是學(xué)習(xí)過程中不需要任何的人為的標(biāo)注。
如下圖所示,假設(shè)我們用這個(gè) network 進(jìn)行 tracking。在最后一幀上,我們首先隨機(jī)選一個(gè)起 bounding box,然后對這個(gè) bounding box 進(jìn)行 backward tracking(藍(lán)色箭頭),接著對在第一幀的結(jié)果進(jìn)行 forward tracking(紅色箭頭)。那么 initial box 和最后的 tracking box 之間的 error(黃色箭頭)就會(huì)作為我們訓(xùn)練 network 的 supervisory signal。我們把這個(gè) signal 稱為 Cycle-Consistency Loss。
Cycle-Consistency Loss
在訓(xùn)練的過程中,我們把 error 沿著 cycle 來傳遞(圖中用黃色虛線表達(dá)):
在訓(xùn)練過程的不同迭代次數(shù)中,cycle 產(chǎn)生如下圖的變化。可以看見隨著迭代次數(shù)的變化,tracking 也逐漸變得越來越好:
Changes of Cycles
我們的結(jié)果
我們訓(xùn)練出來的網(wǎng)絡(luò)能夠幫助我們找 correspondence,并應(yīng)用在各種的 Tracking Tasks。
我們在 VLOG 數(shù)據(jù)集 (https://github.com/xiaolonw/TimeCycle/blob/master/DATASET.md) 上面進(jìn)行 unsupervised learning。在訓(xùn)練之后的網(wǎng)絡(luò)我們可以直接應(yīng)用在以下不同的 tracking tasks,不需要在目標(biāo)數(shù)據(jù)集上做任何的 training/fine-tuning。
除了開篇提到的humanpartsegmentstracking,我們還可以完成以下tasks:
1. Tracking Object Mask
2. Tracking Pose
3. Tracking Texture
在這個(gè) task 里面,我在第一幀畫了一個(gè)彩虹 texture,然后用我們的 correspondence 可以把彩虹 texture 一直傳遞下去。
4. Optical Flow
我們還能將 correspondence visualize 出來,結(jié)果和 optical flow 類似。
總結(jié)
我們希望這個(gè)工作能將 tracking 和 optical flow 聯(lián)系起來。針對 tracking tasks, 我們能突破有限的 human annotation 的限制,提供一種新的訓(xùn)練 tracker 的思路。我們還希望能夠提供一種新的 video 里面,或者有時(shí)序關(guān)系的數(shù)據(jù)中的無監(jiān)督學(xué)習(xí)的方法。在未來可以用這種 cycle-consistency in time 來作為一種 supervisory signal 幫助其他任務(wù)。
論文地址:
https://arxiv.org/abs/1903.07593
(本文經(jīng)授權(quán)轉(zhuǎn)載自知乎,作者Xiaolong Wang,原文鏈接:https://zhuanlan.zhihu.com/p/61607755)
反應(yīng)式機(jī)器。代表性范例:深藍(lán)。能夠識別棋盤上的形勢,并做出預(yù)測,但沒有記憶。
有限記憶。能利用過去的記憶為未來決策提供幫助。代表性范例:自動(dòng)駕駛
意志理論:能夠理解影響自身決策的觀點(diǎn)、欲求和目的。目前這類AI尚不存在。
自我意識:具有自我意識的機(jī)器,能夠理解自身目前的狀態(tài),并能利用現(xiàn)有信息推測他人的感覺。目前這類AI也不存在。
AI技術(shù)應(yīng)用舉例:
自動(dòng)化機(jī)器人:對機(jī)器進(jìn)行編程,使其高質(zhì)量地完成一般由人完成的重復(fù)性任務(wù),同時(shí)具備對不同任務(wù)條件的適應(yīng)性。
機(jī)器視覺:讓計(jì)算機(jī)能夠“看見”的技術(shù),利用攝像頭捕獲并分析視覺信息,完成模-數(shù)轉(zhuǎn)換與數(shù)字信號處理。
機(jī)器學(xué)習(xí):讓計(jì)算機(jī)在未經(jīng)編程的情況下運(yùn)行。機(jī)器學(xué)習(xí)的子領(lǐng)域之一是深度學(xué)習(xí),其目標(biāo)是實(shí)現(xiàn)自動(dòng)化的預(yù)測性分析。
自然語言處理:利用計(jì)算機(jī)程序處理人類語言。垃圾郵件檢測、文本翻譯、語義分析和語音識別等都屬于該領(lǐng)域。
機(jī)器人技術(shù):機(jī)器人能夠比人類更精確、更持久地完成困難的重復(fù)性任務(wù)。
全球AI技術(shù)競爭中最具優(yōu)勢的10大企業(yè)
1、DeepMind:目前居于AI研究企業(yè)第一位
2、谷歌:旗下設(shè)谷歌大腦團(tuán)隊(duì),在每個(gè)可能的領(lǐng)域聚焦長期AI研發(fā)。
3、Facebook:主要關(guān)注語言領(lǐng)域的問題,如動(dòng)態(tài)記憶,問答系統(tǒng)開發(fā)等。
4、OpenAI:團(tuán)隊(duì)規(guī)模雖然不大,配置屬于全明星級別。
5、百度:在語音交互、自動(dòng)駕駛等領(lǐng)域表現(xiàn)出色。
6、微軟:在AI領(lǐng)域耕耘多年,目前聚焦實(shí)時(shí)翻譯。
7、蘋果:正在研發(fā)面部識別技術(shù),分析用戶面對設(shè)備上出現(xiàn)廣告的面部反應(yīng)
8、IBM:利用AI技術(shù)從照片、視頻、語音和文本中提取語義。
9、亞馬遜:目前多個(gè)部門業(yè)務(wù)向AI傾斜,比如無人商店、無人機(jī)貨物配送,以及Alexa語音助理等業(yè)務(wù)。
10、英偉達(dá):機(jī)器學(xué)習(xí)計(jì)算資源和硬件領(lǐng)域的領(lǐng)軍者。
全球10大AI國家
1、美國:每年有100億風(fēng)投資金進(jìn)入AI領(lǐng)域
2、中國:在過去5年中,中國與AI相關(guān)的專利數(shù)量上漲了190%。
3、日本:制造業(yè)部門的自動(dòng)化程度可能高達(dá)71%。
4、英國:英國政府每年資助1000位AI專業(yè)的博士
5、德國:首都柏林的AI初創(chuàng)公司數(shù)量位居世界第四。
6、法國:到2022年,法國政府對AI行業(yè)的投資將達(dá)18億美元。
7、加拿大:正在興建價(jià)值1.27億美元的AI研究設(shè)施。
8、俄羅斯:到2025年,俄羅斯30%的軍事裝備將實(shí)現(xiàn)機(jī)器人化。
9、以色列:自2014年以來,AI初創(chuàng)公司的數(shù)量增長了3倍。
10、愛沙尼亞:在處理與解決與AI相關(guān)的法律問題上走在世界前列。
AI 的未來
全面自動(dòng)化的交通:AI技術(shù)將讓未來的交通走向全面智能化和自動(dòng)化。
賽博技術(shù):AI和機(jī)器人技術(shù)將成功助我們超越認(rèn)知和身體上的極限。
代替人類從事危險(xiǎn)職業(yè):機(jī)器人和無人機(jī)將代替我們完成炸彈拆除等危險(xiǎn)任務(wù),我們不必為了完成這些任務(wù)冒上生命危險(xiǎn)。
解決氣候變化問題:有朝一日,AI可以利用大數(shù)據(jù)獲得判斷趨勢的能力,并利用這些信息解決氣候變化這樣的重大問題。
探索新的邊界:機(jī)器人可以幫我們進(jìn)一步探索太空和海洋。
預(yù)測未來:機(jī)器學(xué)習(xí)利用過去的信息預(yù)測未來,誰將開啟一段浪漫之旅?誰將面臨離婚等等。
原信息圖及更多內(nèi)容:
https://www.visualcapitalist.com/ai-revolution-infographic/
https://techjury.net/stats-about/ai/
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100747 -
視頻跟蹤
+關(guān)注
關(guān)注
0文章
2瀏覽量
6088 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24696
原文標(biāo)題:【CVPR Oral】視頻跟蹤新思路,完全無需手工標(biāo)注
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論