【導(dǎo)讀】本文提出基于全景分割的全場(chǎng)景圖生成(panoptic scene graph generation,即PSG)任務(wù)。相比于傳統(tǒng)基于檢測(cè)框的場(chǎng)景圖生成,PSG任務(wù)要求全面地輸出圖像中的所有關(guān)系(包括物體與物體間關(guān)系,物體與背景間關(guān)系,背景與背景間關(guān)系),并用準(zhǔn)確的分割塊來(lái)定位物體。PSG任務(wù)旨在推動(dòng)計(jì)算機(jī)視覺(jué)模型對(duì)場(chǎng)景最全面的理解和感知,用全面的識(shí)別結(jié)果更好地支撐場(chǎng)景描述、視覺(jué)推理等下游任務(wù)。同時(shí)PSG數(shù)據(jù)集提供的關(guān)系標(biāo)注和全景分割也為解決當(dāng)前圖像生成領(lǐng)域?qū)﹃P(guān)系不敏感的問(wèn)題創(chuàng)造了新的機(jī)遇。
現(xiàn)在已經(jīng)2022年了,但是當(dāng)下大多數(shù)的計(jì)算機(jī)視覺(jué)任務(wù)卻仍然只關(guān)注于圖像感知。比如說(shuō),圖像分類任務(wù)只需要模型識(shí)別圖像中的物體物體類別。
雖然目標(biāo)檢測(cè),圖像分割等任務(wù)進(jìn)一步要求找到物體的位置,然而,此類任務(wù)仍然不足以說(shuō)明模型獲得了對(duì)場(chǎng)景全面深入的理解。
以下圖1為例,如果計(jì)算機(jī)視覺(jué)模型只檢測(cè)到圖片中的人、大象、柵欄、樹木等,我們通常不會(huì)認(rèn)為模型已經(jīng)理解了圖片,而該模型也無(wú)法根據(jù)理解做出更高級(jí)的決策,例如發(fā)出「禁止投喂」的警告。
事實(shí)上,在智慧城市、自動(dòng)駕駛、智能制造等許多現(xiàn)實(shí)世界的AI場(chǎng)景中,除了對(duì)場(chǎng)景中的目標(biāo)進(jìn)行定位外,我們通常還期待模型對(duì)圖像中各個(gè)主體之間的關(guān)系進(jìn)行推理和預(yù)測(cè)。
例如,在自動(dòng)駕駛應(yīng)用中,自動(dòng)車需要分析路邊的行人是在推車還是在騎自行車。根據(jù)不同的情況,相應(yīng)的后續(xù)決策可能都會(huì)有所不同。而在智能工廠場(chǎng)景中,判斷操作員是否操作安全正確也需要監(jiān)控端的模型有理解主體之間關(guān)系的能力。
大多數(shù)現(xiàn)有的方法都是手動(dòng)設(shè)置一些硬編碼的規(guī)則。這使得模型缺乏泛化性,難以適應(yīng)其他特定情況。
場(chǎng)景圖生成任務(wù)(scene graph generation,或SGG)就旨在解決如上的問(wèn)題。在對(duì)目標(biāo)物體進(jìn)行分類和定位的要求之上,SGG任務(wù)還需要模型預(yù)測(cè)對(duì)象之間的關(guān)系(見(jiàn)圖 2)。
圖2:場(chǎng)景圖生成
傳統(tǒng)場(chǎng)景圖生成任務(wù)的數(shù)據(jù)集通常具有對(duì)象的邊界框標(biāo)注,并標(biāo)注邊界框之間的關(guān)系。但是,這種設(shè)置有幾個(gè)固有的缺陷:
(1)邊界框無(wú)法準(zhǔn)確定位物體:如圖2所示,邊界框在標(biāo)注人時(shí)不可避免地會(huì)包含人周圍的物體;
(2)背景無(wú)法標(biāo)注:如圖2所示,大象身后的樹木用bounding box標(biāo)注,幾乎覆蓋了整個(gè)圖像,所以涉及到背景的關(guān)系無(wú)法準(zhǔn)確標(biāo)注,這也使得場(chǎng)景圖無(wú)法完全覆蓋圖像,無(wú)法達(dá)到全面的場(chǎng)景理解。
因此,作者提出全場(chǎng)景圖生成(PSG)任務(wù),攜同一個(gè)精細(xì)標(biāo)注的大規(guī)模PSG數(shù)據(jù)集。
圖3:全場(chǎng)景圖生成
如圖 3 所示,該任務(wù)利用全景分割來(lái)全面準(zhǔn)確地定位對(duì)象和背景,從而解決場(chǎng)景圖生成任務(wù)的固有缺點(diǎn),從而推動(dòng)該領(lǐng)域朝著全面和深入的場(chǎng)景理解邁進(jìn)。
論文信息
Paper link: https://arxiv.org/abs/2207.11247
Project Page: https://psgdataset.org/
OpenPSG Codebase: https://github.com/Jingkang50/OpenPSG
Competition Link: https://www.cvmart.net/race/10349/base
ECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/
HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG
作者提出的PSG數(shù)據(jù)集包含近五萬(wàn)張coco的圖片,并基于coco已有的全景分割標(biāo)注,標(biāo)注了分割塊之間的關(guān)系。
作者精細(xì)地定義了56種關(guān)系,包括了位置關(guān)系(over,in front of,等),常見(jiàn)的物體間關(guān)系(hanging from等),常見(jiàn)的生物動(dòng)作(walking on,standing on,等),人類行為(cooking等),交通場(chǎng)景中的關(guān)系(driving,riding等),運(yùn)動(dòng)場(chǎng)景中的關(guān)系(kicking等),以及背景間關(guān)系(enclosing等)。
作者要求標(biāo)注員能用更準(zhǔn)確的動(dòng)詞表達(dá)就絕不用更模糊的表達(dá),并且盡可能全地標(biāo)注圖中的關(guān)系。
PSG模型效果展示
任務(wù)優(yōu)勢(shì)
作者通過(guò)下圖的例子再次理解全場(chǎng)景圖生成(PSG)任務(wù)的優(yōu)勢(shì):
左圖來(lái)自于SGG任務(wù)的傳統(tǒng)數(shù)據(jù)集Visual Genome (VG-150)。可以看到基于檢測(cè)框的標(biāo)注通常不準(zhǔn)確,而檢測(cè)框覆蓋的像素也不能準(zhǔn)確定位物體,尤其是椅子,樹木之類的背景。同時(shí),基于檢測(cè)框的關(guān)系標(biāo)注通常會(huì)傾向于的標(biāo)注一些無(wú)聊的關(guān)系,如「人有頭」,「人穿著衣服」。
相比之下,右圖中提出的 PSG 任務(wù)提供了更全面(包括前景和背景的互動(dòng))、更清晰(合適的物體粒度)和更準(zhǔn)確(像素級(jí)準(zhǔn)確)的場(chǎng)景圖表示,以推動(dòng)場(chǎng)景理解領(lǐng)域的發(fā)展。
兩大類PSG模型
為了支撐提出的PSG任務(wù),作者搭建了一個(gè)開(kāi)源代碼平臺(tái)OpenPSG,其中實(shí)現(xiàn)了四個(gè)雙階段的方法和兩個(gè)單階段的方法,方便大家開(kāi)發(fā)、使用、分析。
雙階段的方法利用Panoptic-FPN在第一階段中對(duì)圖像進(jìn)行全景分割。
接下來(lái)作者提取全景分割得到的物體的特征以及每一對(duì)物體融合的關(guān)系特征,送至下一階段的關(guān)系預(yù)測(cè)階段。框架已集成復(fù)現(xiàn)了傳統(tǒng)場(chǎng)景圖生成的經(jīng)典方法IMP,VCTree,Motifs,和GPSNet。
PSGFormer是基于雙decoder DETR的單階段方法。
模型首先在a)中通過(guò)卷積神經(jīng)網(wǎng)絡(luò)backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入,同時(shí)初始化一組用以表示三元組的queries。
與DETR類似地, 在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進(jìn)行cross-attention操作。
隨后模型在c)中將解碼完成的每個(gè)query分別輸入主謂賓三元組對(duì)應(yīng)的預(yù)測(cè)模塊,最后得到對(duì)應(yīng)的三元組預(yù)測(cè)結(jié)果。
PSGFormer基于雙decode的DETR的單階段方法。
模型在a) 通過(guò)CNN提取圖片特征,加以位置編碼信息輸入編碼器,同時(shí)初始化了兩組queries分別代表物體和關(guān)系。
接著在b)步驟里,模型基于編碼器編碼的圖片信息,分別在物體解碼器和關(guān)系編碼器中通過(guò)cross-attention解碼學(xué)習(xí)物體query和關(guān)系query。
當(dāng)兩類query均學(xué)習(xí)完畢后,在c)中通過(guò)映射后匹配,得到成對(duì)的三元組query。
最后在d)中通過(guò)預(yù)測(cè)頭分別完成關(guān)于物體query和關(guān)系query的預(yù)測(cè),并根據(jù)c)中的匹配結(jié)果得到最終的三元組預(yù)測(cè)結(jié)果。
PSGTR與PSGFormer都是在DETR的基礎(chǔ)上進(jìn)行擴(kuò)展和改進(jìn)的模型,不同的地方在于PSGTR用一組query對(duì)于三元組直接建模而PSGFormer則通過(guò)兩組query分別對(duì)物體和關(guān)系建模,兩種方法各有利弊,具體可參考論文中實(shí)驗(yàn)結(jié)果。
結(jié)論分享
大部分在SGG任務(wù)上有效的方法在PSG任務(wù)上依舊有效。然而有一些利用較強(qiáng)的數(shù)據(jù)集統(tǒng)計(jì)先驗(yàn),或主謂賓中謂語(yǔ)方向先驗(yàn)的方法可能沒(méi)那么奏效。這可能是由于PSG數(shù)據(jù)集相較于傳統(tǒng)VG數(shù)據(jù)集的bias沒(méi)有那么嚴(yán)重,并且對(duì)謂語(yǔ)動(dòng)詞的定義更加清晰可學(xué)。因此,作者希望后續(xù)的方法關(guān)注視覺(jué)信息的提取和對(duì)圖片本身的理解。統(tǒng)計(jì)先驗(yàn)可能在刷數(shù)據(jù)集上有效,但不本質(zhì)。
相比于雙階段模型,單階段模型目前能達(dá)到更好的效果。這可能得益于單階段模型有關(guān)于關(guān)系的監(jiān)督信號(hào)可以直接傳遞到feature map端,使得關(guān)系信號(hào)參與了更多的模型學(xué)習(xí),有利于對(duì)關(guān)系的捕捉。但是由于本文只提出了若干基線模型,并沒(méi)有針對(duì)單階段或雙階段模型進(jìn)行調(diào)優(yōu),因此目前還不能說(shuō)單階段模型一定強(qiáng)于雙階段模型。這還希望參賽選手繼續(xù)探索。
相比于傳統(tǒng)的SGG任務(wù),PSG任務(wù)基于全景分割圖進(jìn)行關(guān)系配對(duì),要求對(duì)于每個(gè)關(guān)系中主賓物體的id 進(jìn)行確認(rèn)。相比于雙階段直接預(yù)測(cè)全景分割圖完成物體id 的劃分,單階段模型需要通過(guò)一系列后處理完成這一步驟。若基于現(xiàn)有單階段模型進(jìn)一步改進(jìn)升級(jí),如何在單階段模型中更有效的完成物體id的確認(rèn),生成更好的全景分割圖,仍是一個(gè)值得探索的話題。
最后,歡迎大家試用HuggingFace:
Demo:https://huggingface.co/spaces/ECCV2022/PSG
關(guān)于圖像生成的展望
最近大火的基于文字輸入的生成模型(如DALL-E2) 著實(shí)令人驚嘆,但是也有研究表明,這些生成模型可能只是把文本中的幾個(gè)實(shí)體粘合在一起,甚至都沒(méi)有理解文本中表述的空間關(guān)系。
如下圖,雖然輸入的是「杯子在勺子上」,生成的圖片仍然都是「勺子在杯子里」。
正巧,PSG數(shù)據(jù)集標(biāo)注了基于mask的scene graph關(guān)系。
作者可以利用scene graph和全景分割mask作為訓(xùn)練對(duì),得到一個(gè)text2mask的模型,在基于mask生成更細(xì)致的圖片。
因此,PSG數(shù)據(jù)集有可能也為注重關(guān)系的圖像生成提供了潛在的解決方案。
審核編輯 :李倩
-
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45977 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24689 -
智能制造
+關(guān)注
關(guān)注
48文章
5549瀏覽量
76314
原文標(biāo)題:南洋理工提出全場(chǎng)景圖生成PSG任務(wù),像素級(jí)定位物體,還得預(yù)測(cè)56種關(guān)系
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論