1引言
場景圖是一種結構表示,它將圖片中的對象表示為節點,并將它們的關系表示為邊。最近,場景圖已成功應用于不同的視覺任務,例如圖像檢索[3]、目標檢測、語義分割、圖像合成[4]和高級視覺-語言任務(如圖像字幕[1]或視覺問答[2]等)。它是一種具有豐富信息量的整體場景理解方法,可以連接視覺和自然語言領域之間巨大差距的橋梁。
雖然從單個圖像生成場景圖(靜態場景圖生成)取得了很大進展,但從視頻生成場景圖(動態場景圖生成)的任務是新的且更具挑戰性。最流行的靜態場景圖生成方法是建立在對象檢測器之上的,然后推斷它們的關系類型以及它們的對象類。然而,物體在視頻序列的每一幀中不一定是一致的,任意兩個物體之間的關系可能會因為它們的運動而變化,具有動態的特點。在這種情況下,時間依賴性發揮了作用,因此,靜態場景圖生成方法不能直接應用于動態場景圖生成,這在[5]中進行了充分討論。
圖1. 場景圖分類
2 靜態場景圖
2.1 任務定義
靜態場景圖生成任務(Staticscene graph generation)目標是讓計算機自動生成一種語義化的圖結構(稱為 scenegraph,場景圖),作為圖像的表示。圖像中的目標對應 graph node,目標間的關系對應 graph edge(目標的各種屬性,如顏色,有時會在圖中表示)。 這種結構化表示方法相對于向量表示更加直觀,可以看作是小型知識圖譜,因此可以廣泛應用于知識管理、推理、檢索、推薦等。此外,該表示方法是模態無關的,自然語言、視頻、語音等數據同樣可以表示成類似結構,因此對于融合多模態信息很有潛力。
圖2.靜態場景圖生成任務圖例
2.2 數據集
Visual Genome(VG)[6]于2016年提出,是這個領域最常用的數據集,包含對超過 10W 張圖片的目標、屬性、關系、自然語言描述、視覺問答等的標注。與此任務相關的數據總結如下:
物體:表示為場景圖中節點,使用bounding box標注物體的坐標信息,包含對應的類別信息。VG包含約17000種目標。
關系:表示為場景圖中邊,包含動作關系,空間關系,從屬關系和動詞等。VG中包含約13000種關系。
屬性:可以是顏色,狀態等。Visual Genome 包含約 155000 種屬性。
2.3 方法分類
方法分類如下:
P(O,B,R | I) = P(O,B | I) * P(R| I,O,B),即先目標檢測,再進行關系預測(有一個專門研究該子任務的領域,稱為研究視覺關系識別,visual relationship detection)。最簡單的方法是下文中基于統計頻率的 baseline 方法,另外做視覺關系檢測任務的大多數工作都可以應用到這里。
P(O,B,R | I) = P(B | I) * P(R,O| I,O,B),即先定位目標,然后將一張圖片中所有的目標和關系看作一個未標記的圖結構,再分別對節點和邊進行類別預測。這種做法考慮到了一張圖片中的各元素互為上下文,為彼此分類提供輔助信息。事實上,自此類方法提出之后[7],才正式有了 scenegraph generation 這個新任務名稱(之前基本都稱為visual relationship detection)。
2.4 評價指標
最常用的評價指標是 recall@topk, 即主謂賓關系三元組
3 動態場景圖
3.1 任務定義
動態場景圖與靜態場景圖不同,動態場景圖以視頻作為輸入,輸出分為兩種情況:輸出每一幀對應的場景圖(幀級別場景圖);輸出每一段視頻對應的場景圖(片段級別場景圖)。這種結構化的表示可以表征實體之間隨時間變化的動作及狀態。
圖3.靜態/動態場景圖區別示例
3.2 幀級別
3.2.1數據集
Action Genome該數據集是Visual Genome表示的帶時間版本,然而,Visual Genome的目的是詳盡的捕捉圖中每一個區域的物體和關系,而Action Genome的目標是將動作分解,專注于對那些動作發生的視頻片段進行標注,并且只標注動作涉及的對象。Action Genome基于Charades進行標注,該數據集包含157類別動作,144個是人類-物體活動。在Charades中,有很多動作可以同時發生。共有234253個frame,476229個bounding box,35個對象類別,1715568個關系,25個關系類別。
3.2.2 方法
Spatial-temporalTransformer(STTran)[8]:一種由兩個核心模塊組成的神經網絡:一個空間編碼器,它采用輸入幀來提取空間上下文并推斷幀內的視覺關系,以及一個時間解碼器它將空間編碼器的輸出作為輸入,以捕獲幀之間的時間依賴性并推斷動態關系。此外,STTran 可以靈活地將不同長度的視頻作為輸入而無需剪輯,這對于長視頻尤為重要。
圖4.STTrans模型結構
3.2.3 主實驗結果
圖5.STTrans模型實驗結果
3.2.4 樣例測試
圖6. 樣例
3.3 片段級別
3.3.1 數據集
VidVRD提出了一個新穎的VidVRD任務,旨在探索視頻中物體之間的各種關系,它提供了一個比ImgVRD更可行的VRD任務,通過目標軌跡建議、關系預測和貪婪關系關聯來檢測視頻中的視覺關系,包含1000個帶有手動標記的視覺關系的視頻,被分解為30幀的片段,其中由15幀重疊,再進行謂詞標記。30類+(人、球、沙發、滑板、飛盤)=35類(獨立,沒有對象之間的包含關系),14個及物動詞、3個比較詞、11個空間謂詞,11個不及物動詞,能夠衍生160類謂詞。
3.3.2 方法
VidSGG提出了一個新的框架,在此框架下,將視頻場景圖重新表述為時間二分圖,其中實體和謂詞是兩類具有時隙的節點,邊表示這些節點之間的不同語義角色。
圖7.VidVRD任務示例
圖8.BIG-C模型結構
3.3.3 主實驗結果
圖9.BIG-C模型實驗結果
3.3.4 樣例測試
圖10.對話情緒識別示例
-
檢測器
+關注
關注
1文章
865瀏覽量
47718 -
Baseline
+關注
關注
0文章
3瀏覽量
6853 -
數據集
+關注
關注
4文章
1208瀏覽量
24727
原文標題:哈工大SCIR | 場景圖生成簡述
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論