亚洲在线小视频,亚洲香蕉在线视频,在线精品视频播放

【導(dǎo)讀】本文提出基于全景分割的全場(chǎng)景圖生成（panoptic scene graph generation，即PSG）任務(wù)。相比于傳統(tǒng)基于檢測(cè)框的場(chǎng)景圖生成，PSG任務(wù)要求全面地輸出圖像中的所有關(guān)系（包括物體與物體間關(guān)系，物體與背景間關(guān)系，背景與背景間關(guān)系），并用準(zhǔn)確的分割塊來(lái)定位物體。PSG任務(wù)旨在推動(dòng)計(jì)算機(jī)視覺(jué)模型對(duì)場(chǎng)景最全面的理解和感知，用全面的識(shí)別結(jié)果更好地支撐場(chǎng)景描述、視覺(jué)推理等下游任務(wù)。同時(shí)PSG數(shù)據(jù)集提供的關(guān)系標(biāo)注和全景分割也為解決當(dāng)前圖像生成領(lǐng)域?qū)﹃P(guān)系不敏感的問(wèn)題創(chuàng)造了新的機(jī)遇。

現(xiàn)在已經(jīng)2022年了，但是當(dāng)下大多數(shù)的計(jì)算機(jī)視覺(jué)任務(wù)卻仍然只關(guān)注于圖像感知。比如說(shuō)，圖像分類任務(wù)只需要模型識(shí)別圖像中的物體物體類別。

雖然目標(biāo)檢測(cè)，圖像分割等任務(wù)進(jìn)一步要求找到物體的位置，然而，此類任務(wù)仍然不足以說(shuō)明模型獲得了對(duì)場(chǎng)景全面深入的理解。

以下圖1為例，如果計(jì)算機(jī)視覺(jué)模型只檢測(cè)到圖片中的人、大象、柵欄、樹木等，我們通常不會(huì)認(rèn)為模型已經(jīng)理解了圖片，而該模型也無(wú)法根據(jù)理解做出更高級(jí)的決策，例如發(fā)出「禁止投喂」的警告。

事實(shí)上，在智慧城市、自動(dòng)駕駛、智能制造等許多現(xiàn)實(shí)世界的AI場(chǎng)景中，除了對(duì)場(chǎng)景中的目標(biāo)進(jìn)行定位外，我們通常還期待模型對(duì)圖像中各個(gè)主體之間的關(guān)系進(jìn)行推理和預(yù)測(cè)。

例如，在自動(dòng)駕駛應(yīng)用中，自動(dòng)車需要分析路邊的行人是在推車還是在騎自行車。根據(jù)不同的情況，相應(yīng)的后續(xù)決策可能都會(huì)有所不同。而在智能工廠場(chǎng)景中，判斷操作員是否操作安全正確也需要監(jiān)控端的模型有理解主體之間關(guān)系的能力。

大多數(shù)現(xiàn)有的方法都是手動(dòng)設(shè)置一些硬編碼的規(guī)則。這使得模型缺乏泛化性，難以適應(yīng)其他特定情況。

場(chǎng)景圖生成任務(wù)（scene graph generation，或SGG）就旨在解決如上的問(wèn)題。在對(duì)目標(biāo)物體進(jìn)行分類和定位的要求之上，SGG任務(wù)還需要模型預(yù)測(cè)對(duì)象之間的關(guān)系（見(jiàn)圖 2）。

圖2：場(chǎng)景圖生成

傳統(tǒng)場(chǎng)景圖生成任務(wù)的數(shù)據(jù)集通常具有對(duì)象的邊界框標(biāo)注，并標(biāo)注邊界框之間的關(guān)系。但是，這種設(shè)置有幾個(gè)固有的缺陷：

（1）邊界框無(wú)法準(zhǔn)確定位物體：如圖2所示，邊界框在標(biāo)注人時(shí)不可避免地會(huì)包含人周圍的物體；

（2）背景無(wú)法標(biāo)注：如圖2所示，大象身后的樹木用bounding box標(biāo)注，幾乎覆蓋了整個(gè)圖像，所以涉及到背景的關(guān)系無(wú)法準(zhǔn)確標(biāo)注，這也使得場(chǎng)景圖無(wú)法完全覆蓋圖像，無(wú)法達(dá)到全面的場(chǎng)景理解。

因此，作者提出全場(chǎng)景圖生成（PSG）任務(wù)，攜同一個(gè)精細(xì)標(biāo)注的大規(guī)模PSG數(shù)據(jù)集。

圖3：全場(chǎng)景圖生成

如圖 3 所示，該任務(wù)利用全景分割來(lái)全面準(zhǔn)確地定位對(duì)象和背景，從而解決場(chǎng)景圖生成任務(wù)的固有缺點(diǎn)，從而推動(dòng)該領(lǐng)域朝著全面和深入的場(chǎng)景理解邁進(jìn)。

論文信息

Paper link： https://arxiv.org/abs/2207.11247

Project Page： https://psgdataset.org/

OpenPSG Codebase： https://github.com/Jingkang50/OpenPSG

Competition Link： https://www.cvmart.net/race/10349/base

ECCV’22 SenseHuman Workshop Link： https://sense-human.github.io/

HuggingFace Demo Link： https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG數(shù)據(jù)集包含近五萬(wàn)張coco的圖片，并基于coco已有的全景分割標(biāo)注，標(biāo)注了分割塊之間的關(guān)系。

作者精細(xì)地定義了56種關(guān)系，包括了位置關(guān)系（over，in front of，等），常見(jiàn)的物體間關(guān)系（hanging from等），常見(jiàn)的生物動(dòng)作（walking on，standing on，等），人類行為（cooking等），交通場(chǎng)景中的關(guān)系（driving，riding等），運(yùn)動(dòng)場(chǎng)景中的關(guān)系（kicking等），以及背景間關(guān)系（enclosing等）。

作者要求標(biāo)注員能用更準(zhǔn)確的動(dòng)詞表達(dá)就絕不用更模糊的表達(dá)，并且盡可能全地標(biāo)注圖中的關(guān)系。

PSG模型效果展示

任務(wù)優(yōu)勢(shì)

作者通過(guò)下圖的例子再次理解全場(chǎng)景圖生成（PSG）任務(wù)的優(yōu)勢(shì)：

左圖來(lái)自于SGG任務(wù)的傳統(tǒng)數(shù)據(jù)集Visual Genome （VG-150）。可以看到基于檢測(cè)框的標(biāo)注通常不準(zhǔn)確，而檢測(cè)框覆蓋的像素也不能準(zhǔn)確定位物體，尤其是椅子，樹木之類的背景。同時(shí)，基于檢測(cè)框的關(guān)系標(biāo)注通常會(huì)傾向于的標(biāo)注一些無(wú)聊的關(guān)系，如「人有頭」，「人穿著衣服」。

相比之下，右圖中提出的 PSG 任務(wù)提供了更全面（包括前景和背景的互動(dòng)）、更清晰（合適的物體粒度）和更準(zhǔn)確（像素級(jí)準(zhǔn)確）的場(chǎng)景圖表示，以推動(dòng)場(chǎng)景理解領(lǐng)域的發(fā)展。

兩大類PSG模型

為了支撐提出的PSG任務(wù)，作者搭建了一個(gè)開(kāi)源代碼平臺(tái)OpenPSG，其中實(shí)現(xiàn)了四個(gè)雙階段的方法和兩個(gè)單階段的方法，方便大家開(kāi)發(fā)、使用、分析。

雙階段的方法利用Panoptic-FPN在第一階段中對(duì)圖像進(jìn)行全景分割。

接下來(lái)作者提取全景分割得到的物體的特征以及每一對(duì)物體融合的關(guān)系特征，送至下一階段的關(guān)系預(yù)測(cè)階段。框架已集成復(fù)現(xiàn)了傳統(tǒng)場(chǎng)景圖生成的經(jīng)典方法IMP，VCTree，Motifs，和GPSNet。

PSGFormer是基于雙decoder DETR的單階段方法。

模型首先在a）中通過(guò)卷積神經(jīng)網(wǎng)絡(luò)backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入，同時(shí)初始化一組用以表示三元組的queries。

與DETR類似地，在b）中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進(jìn)行cross-attention操作。

隨后模型在c）中將解碼完成的每個(gè)query分別輸入主謂賓三元組對(duì)應(yīng)的預(yù)測(cè)模塊，最后得到對(duì)應(yīng)的三元組預(yù)測(cè)結(jié)果。

PSGFormer基于雙decode的DETR的單階段方法。

模型在a）通過(guò)CNN提取圖片特征，加以位置編碼信息輸入編碼器，同時(shí)初始化了兩組queries分別代表物體和關(guān)系。

接著在b）步驟里，模型基于編碼器編碼的圖片信息，分別在物體解碼器和關(guān)系編碼器中通過(guò)cross-attention解碼學(xué)習(xí)物體query和關(guān)系query。

當(dāng)兩類query均學(xué)習(xí)完畢后，在c）中通過(guò)映射后匹配，得到成對(duì)的三元組query。

最后在d）中通過(guò)預(yù)測(cè)頭分別完成關(guān)于物體query和關(guān)系query的預(yù)測(cè)，并根據(jù)c）中的匹配結(jié)果得到最終的三元組預(yù)測(cè)結(jié)果。

PSGTR與PSGFormer都是在DETR的基礎(chǔ)上進(jìn)行擴(kuò)展和改進(jìn)的模型，不同的地方在于PSGTR用一組query對(duì)于三元組直接建模而PSGFormer則通過(guò)兩組query分別對(duì)物體和關(guān)系建模，兩種方法各有利弊，具體可參考論文中實(shí)驗(yàn)結(jié)果。

結(jié)論分享

大部分在SGG任務(wù)上有效的方法在PSG任務(wù)上依舊有效。然而有一些利用較強(qiáng)的數(shù)據(jù)集統(tǒng)計(jì)先驗(yàn)，或主謂賓中謂語(yǔ)方向先驗(yàn)的方法可能沒(méi)那么奏效。這可能是由于PSG數(shù)據(jù)集相較于傳統(tǒng)VG數(shù)據(jù)集的bias沒(méi)有那么嚴(yán)重，并且對(duì)謂語(yǔ)動(dòng)詞的定義更加清晰可學(xué)。因此，作者希望后續(xù)的方法關(guān)注視覺(jué)信息的提取和對(duì)圖片本身的理解。統(tǒng)計(jì)先驗(yàn)可能在刷數(shù)據(jù)集上有效，但不本質(zhì)。

相比于雙階段模型，單階段模型目前能達(dá)到更好的效果。這可能得益于單階段模型有關(guān)于關(guān)系的監(jiān)督信號(hào)可以直接傳遞到feature map端，使得關(guān)系信號(hào)參與了更多的模型學(xué)習(xí)，有利于對(duì)關(guān)系的捕捉。但是由于本文只提出了若干基線模型，并沒(méi)有針對(duì)單階段或雙階段模型進(jìn)行調(diào)優(yōu)，因此目前還不能說(shuō)單階段模型一定強(qiáng)于雙階段模型。這還希望參賽選手繼續(xù)探索。

相比于傳統(tǒng)的SGG任務(wù)，PSG任務(wù)基于全景分割圖進(jìn)行關(guān)系配對(duì)，要求對(duì)于每個(gè)關(guān)系中主賓物體的id 進(jìn)行確認(rèn)。相比于雙階段直接預(yù)測(cè)全景分割圖完成物體id 的劃分，單階段模型需要通過(guò)一系列后處理完成這一步驟。若基于現(xiàn)有單階段模型進(jìn)一步改進(jìn)升級(jí)，如何在單階段模型中更有效的完成物體id的確認(rèn)，生成更好的全景分割圖，仍是一個(gè)值得探索的話題。

最后，歡迎大家試用HuggingFace：

Demo：https://huggingface.co/spaces/ECCV2022/PSG

關(guān)于圖像生成的展望

最近大火的基于文字輸入的生成模型（如DALL-E2）著實(shí)令人驚嘆，但是也有研究表明，這些生成模型可能只是把文本中的幾個(gè)實(shí)體粘合在一起，甚至都沒(méi)有理解文本中表述的空間關(guān)系。

如下圖，雖然輸入的是「杯子在勺子上」，生成的圖片仍然都是「勺子在杯子里」。

正巧，PSG數(shù)據(jù)集標(biāo)注了基于mask的scene graph關(guān)系。

作者可以利用scene graph和全景分割mask作為訓(xùn)練對(duì)，得到一個(gè)text2mask的模型，在基于mask生成更細(xì)致的圖片。

因此，PSG數(shù)據(jù)集有可能也為注重關(guān)系的圖像生成提供了潛在的解決方案。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
45977
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24689
智能制造

智能制造

+關(guān)注

關(guān)注
48

文章
5549

瀏覽量
76314

原文標(biāo)題：南洋理工提出全場(chǎng)景圖生成PSG任務(wù)，像素級(jí)定位物體，還得預(yù)測(cè)56種關(guān)系

文章出處：【微信號(hào)：CVSCHOOL，微信公眾號(hào)：OpenCV學(xué)堂】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

億緯鋰能全場(chǎng)景鋰電池方案，加速萬(wàn)物互聯(lián)

日前，The smarter E Europe盛大開(kāi)幕，億緯鋰能攜全場(chǎng)景鋰電池解決方案驚艷亮相，協(xié)同全球伙伴，展全方位實(shí)力。

發(fā)表于 08-20 11:15 ?653次閱讀

惠普AI PC全場(chǎng)景AI解決方案重磅發(fā)布， AI一步到位，智能觸手可及

產(chǎn)品組合，并與本土軟件合作伙伴攜手，共同構(gòu)建惠普專屬的AI生態(tài)，力求滿足用戶在工作、生活、娛樂(lè)全場(chǎng)景下的使用需求，實(shí)現(xiàn)AI技術(shù)在日常生活中的無(wú)縫融入，助力用戶在工作效率和生活體驗(yàn)上實(shí)現(xiàn)雙重提升。（圖：2024惠普AI PC 全場(chǎng)景

發(fā)表于 08-02 17:53 ?669次閱讀

專注充電充滿想象，羅馬仕全球品牌升級(jí)打造全場(chǎng)景用電體驗(yàn)生態(tài)

2024年7月19日,深圳羅馬仕科技有限公司(以下簡(jiǎn)稱羅馬仕)召開(kāi)了“專注充電,充滿想象”為主題的全球品牌升級(jí)暨新品發(fā)布會(huì),重點(diǎn)詮釋羅馬仕全場(chǎng)景用電體驗(yàn)戰(zhàn)略方向。全場(chǎng)景用電體驗(yàn)戰(zhàn)略是羅馬仕多年來(lái)專注

發(fā)表于 07-21 10:15 ?593次閱讀

專注充電充滿想象，羅馬仕全球品牌升級(jí)打造全場(chǎng)景用電體驗(yàn)生態(tài)

2024年7月19日，深圳羅馬仕科技有限公司（以下簡(jiǎn)稱羅馬仕）召開(kāi)了“專注充電，充滿想象”為主題的全球品牌升級(jí)暨新品發(fā)布會(huì)，重點(diǎn)詮釋羅馬仕全場(chǎng)景用電體驗(yàn)戰(zhàn)略方向。全場(chǎng)景用電體驗(yàn)戰(zhàn)略是羅馬仕多年來(lái)專注

發(fā)表于 07-19 20:46 ?381次閱讀

圖像語(yǔ)義分割的實(shí)用性是什么

圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù)，它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用，如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。一、圖像語(yǔ)義分割的基本原理 1.1

發(fā)表于 07-17 09:56 ?415次閱讀

圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

圖像分割和語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念，它們?cè)趫D像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡(jiǎn)介圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
發(fā)表于 07-17 09:55 ?908次閱讀

圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要任務(wù)，它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而，盡管它們?cè)谀承┓矫嬗邢嗨浦帲鼈兊哪繕?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像

發(fā)表于 07-17 09:53 ?1275次閱讀

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

在機(jī)器學(xué)習(xí)中，數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù)，它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法，包括常見(jiàn)的分割方法、各自的優(yōu)缺點(diǎn)、

發(fā)表于 07-10 16:10 ?1696次閱讀

圖像分割與語(yǔ)義分割中的CNN模型綜述

圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆＞矸e神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在圖像分割與語(yǔ)義

發(fā)表于 07-09 11:51 ?828次閱讀

機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

、場(chǎng)景理解、導(dǎo)航和交互等任務(wù)至關(guān)重要。以下是一些常見(jiàn)的圖像分割方法：閾值分割法（Thresholding）閾值分割法是一種基于像素強(qiáng)度的

發(fā)表于 07-09 09:31 ?658次閱讀

華為舉辦夏季全場(chǎng)景新品發(fā)布會(huì)

昨日，華為盛大舉辦夏季全場(chǎng)景新品發(fā)布會(huì)，多款創(chuàng)新產(chǎn)品璀璨亮相。其中，華為MateBook 14、MatePad 11.5“S、WATCH FIT 3、兒童手表5 Pro、Vision智慧屏 4以及智能眼鏡2等新品，展現(xiàn)了華為在智慧辦公、運(yùn)動(dòng)健康、影音娛樂(lè)、智能家居等多個(gè)領(lǐng)域的強(qiáng)大實(shí)力。

發(fā)表于 05-16 10:23 ?515次閱讀

華為發(fā)布全場(chǎng)景智能通信電源解決方案

第八屆全球ICT能效峰會(huì)近日在泰國(guó)曼谷盛大召開(kāi)，主題為“綠色站點(diǎn)，智贏未來(lái)”。在這次峰會(huì)上，華為數(shù)字能源站點(diǎn)能源領(lǐng)域大放異彩，正式發(fā)布了引人注目的“華為全場(chǎng)景智能通信電源解決方案”。

發(fā)表于 05-15 10:36 ?490次閱讀

知語(yǔ)云全景監(jiān)測(cè)技術(shù)：現(xiàn)代安全防護(hù)的全面解決方案

的擴(kuò)散和破壞。易于部署，易于管理：知語(yǔ)云全景監(jiān)測(cè)技術(shù)采用云計(jì)算架構(gòu)，支持快速部署和彈性擴(kuò)展，用戶無(wú)需投入大量的人力物力，即可輕松實(shí)現(xiàn)安全防護(hù)的全面升級(jí)。知語(yǔ)云全景監(jiān)測(cè)技術(shù)的應(yīng)用場(chǎng)景非常廣泛，無(wú)論是

發(fā)表于 02-23 16:40

無(wú)人機(jī)全景監(jiān)測(cè)：空域管理的新革命

到達(dá)指定區(qū)域，并通過(guò)搭載的先進(jìn)傳感器獲取高分辨率的影像數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過(guò)處理后，可以生成三維全景圖，為管理者提供直觀、準(zhǔn)確的空域信息。二、提升空域管理效率的關(guān)鍵傳統(tǒng)的空域管理方法往往依賴于地面設(shè)施

發(fā)表于 02-20 15:23

15倍加速！SuperCluster：最強(qiáng)3D點(diǎn)云全景分割！

S3DIS Area 5的大規(guī)模全景分割結(jié)果，共有9.2 M個(gè)點(diǎn)( 78M預(yù)采樣)和1863個(gè)真實(shí)"物"對(duì)象。SuperCluster可以在3.3秒內(nèi)在單塊V100 - 32GB GPU上一次推理處理如此大的掃描，并達(dá)到50.1的PQ值。

發(fā)表于 01-22 14:03 ?647次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

基于全景分割的全場(chǎng)景圖生成任務(wù)

評(píng)論

億緯鋰能全場(chǎng)景鋰電池方案，加速萬(wàn)物互聯(lián)

惠普AI PC全場(chǎng)景AI解決方案重磅發(fā)布， AI一步到位，智能觸手可及

專注充電充滿想象，羅馬仕全球品牌升級(jí)打造全場(chǎng)景用電體驗(yàn)生態(tài)

專注充電充滿想象，羅馬仕全球品牌升級(jí)打造全場(chǎng)景用電體驗(yàn)生態(tài)

圖像語(yǔ)義分割的實(shí)用性是什么

圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

圖像分割與語(yǔ)義分割中的CNN模型綜述

機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

華為舉辦夏季全場(chǎng)景新品發(fā)布會(huì)

華為發(fā)布全場(chǎng)景智能通信電源解決方案

知語(yǔ)云全景監(jiān)測(cè)技術(shù)：現(xiàn)代安全防護(hù)的全面解決方案

無(wú)人機(jī)全景監(jiān)測(cè)：空域管理的新革命

15倍加速！SuperCluster：最強(qiáng)3D點(diǎn)云全景分割！