追蹤視頻中的對象目標是計算機視覺的基本問題,這對于動作辨識、目標對象交互或者視頻風格化等應用非常重要。然而,教機器在視覺上追蹤物體是非常有挑戰性的,因為它需要大型的、被標記的數據集進行訓練,但是這些跟蹤數據無法大規模標記。論智君昨天在六種人體姿態估計的深度學習模型和代碼總結一文中談到了對人體姿態估計的方法,感興趣的讀者可以閱讀一下。
今天,谷歌AI博客發表文章,稱他們找到了一種無需監督的目標追蹤新方法——給視頻上色。在之前的Tracking Emerges by Colorizing Videos一文中,谷歌研究者介紹了一種卷積神經網絡,它可以給灰度視頻上色,但是無法從單個參照系中復制顏色。為了達到這一目的,這次提出的的網絡學會了如何在沒有監督的情況下自動對目標物體進行視覺追蹤。重要的是,雖然模型不能直接訓練用于追蹤,但它可以跟蹤多個物體,同時在圖形變換上能保持較高的魯棒性,并且不需要任何標記過的訓練數據。以下是論智對原文的編譯。
上圖是在DAVIS 2017數據集上的追蹤預測示例。學會給視頻上色后,一種用于追蹤的機制就自動出現,不需要監督。我們在第一幀用不同顏色標出了需要識別的對象,之后模型不需要學習或監督就可以在接下來的視頻中自動延續需要上色的部分。
學習對視頻重新上色
我們假設,只在第一幀顯示出的顏色可以提供大量訓練數據,能讓機器學習在視頻中追蹤所選定的區域。顯然,有些情況下,顏色會暫時變得不連貫,比如光線突然改變,但是總體來說,顏色是穩定的。另外,大多數視頻帶有顏色,同時還有大量的自監督學習信號。我們對視頻去顏色化,在給它們上色,是因為可能多個物體的顏色都相同,但是通過上色,我們可以教機器追蹤具體的物體或區域。
為了訓練我們的系統,我們用的是Kinestics數據集中的視頻,該數據集中的視頻記錄的大多是日常活動。我們把視頻中除了第一幀之外的所有幀都轉換成了灰調,并訓練一個卷積網絡預測原本的顏色。我們希望模型學習如何追蹤區域,從而能準確地復原顏色。我們主要的關注點在于,跟蹤物體將會讓模型自動學習。
我們用DAVIS 2017數據集中的視頻說明這一過程,在模型中輸入灰度視頻和一幀帶有顏色的視頻,讓其判斷剩下視頻的顏色。模型學會從第一幀中復制顏色,即它可以不在人類監督下學會追蹤目標物體。
想從單一參照視頻中復制顏色,模型需要在內部學會如何找到正確的區域,這樣才能填充正確的顏色。這就迫使它學習一種可以用來追蹤的機制。下面是模型上色的過程:
左:第一幀上色;中:輸入視頻;右:輸出視頻
雖然網絡在訓練時沒有標準參照,我們的模型學會了以第一幀為參照對任意區域進行上色。我們可以跟蹤任一物體甚至視頻中的某個點。唯一的不同是,我們不是改變顏色,而是添加代表這一區域的標簽。
分析跟蹤器
由于模型在大量未標記的視頻上訓練,我們想掌握模型到底學到了什么。下面的動圖展現了如何用模型學習來的可視化方法將嵌入映射到三維空間中,這一過程用到了主成分分析(PCA)并將其變成RGB格式的圖像。結果顯示,在與學到的嵌入空間最近的區域似乎更對應目標物體的識別,即使變了形或改變了視角。
第一行:DAVIS 2017數據集中的視頻;第二行:上色模型內部的嵌入。相似的嵌入會在視覺表示中有相似的顏色,這說明目標識別將學習到的嵌入進行像素劃分
姿態跟蹤
我們發現,如果在開頭幀中給定幾個關鍵點,模型還可以跟蹤人類的姿態。我們展示了JHMDB數據集中的幾個結果,其中我們追蹤了人類的關節骨架。
在這個例子中,輸入的是第一幀人類的動作,接下來的動作模型會自動追蹤。即使之前沒有訓練過此種場景,模型也能追蹤到人類動作
雖然我們的模型還不足以超越監督模型,但是與最近基于光流的模型相比,它所學到的視頻分割和人類姿勢追蹤表現已經勝出了。我們的模型比光流追蹤方面更穩定,尤其在復雜的情況下,例如動態背景、快速運動和障礙物面前。想了解更多細節,請閱讀原論文。
結語
我們的工作表示,給視頻上色可以用作在無監督情況下學習追蹤視頻中的目標物體。另外,我們發現系統的失敗會導致給視頻上色時出現錯誤,這也說明,未來改善視頻的上色模型可以提高姿態追蹤系統的表現
-
谷歌
+關注
關注
27文章
6172瀏覽量
105624 -
神經網絡
+關注
關注
42文章
4773瀏覽量
100890 -
數據集
+關注
關注
4文章
1208瀏覽量
24737
原文標題:另辟蹊徑!谷歌通過給視頻上色實現無監督姿態追蹤
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論