色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2023 | 完全無監(jiān)督的視頻物體分割 RCF

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-07-16 20:45 ? 次閱讀

wKgZomTYhUSAenguAAjVd7mUCo8183.png

TLDR:視頻分割一直是重標(biāo)注的一個 task,這篇 CVPR 2023 文章研究了完全不需要標(biāo)注的視頻物體分割。僅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里還提出了不需要標(biāo)注的調(diào)參方法。代碼已公開可用。

ea60cd80-23d5-11ee-962d-dac502259ad0.png ? ? ?論文標(biāo)題:Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

論文鏈接:

https://arxiv.org/abs/2304.08025

作者機構(gòu):

UC Berkeley, MSRA, UMich

分割效果視頻:

https://people.eecs.berkeley.edu/~longlian/RCF_video.html

項目主頁:

https://rcf-video.github.io/

代碼鏈接:

https://github.com/TonyLianLong/RCF-UnsupVideoSeg

ed6b5c70-23d5-11ee-962d-dac502259ad0.png

視頻物體分割真的可以不需要人類監(jiān)督嗎?

視頻分割一直是重標(biāo)注的一個 task,可是要標(biāo)出每一幀上的物體是非常耗時費力的。然而人類可以輕松地分割移動的物體,而不需要知道它們是什么類別。為什么呢?

Gestalt 定律嘗試解釋人類是怎么分割一個場景的,其中有一條定律叫做 Common Fate,即移動速度相同的物體屬于同一類別。比如一個箱子從左邊被拖到右邊,箱子上的點是均勻運動的,人就會把這個部分給分割出來理解。然而人并不需要理解這是個箱子來做這個事情,而且就算是嬰兒之前沒有見過箱子也能知道這是一個物體。

ed89f3ec-23d5-11ee-962d-dac502259ad0.png

edd3b4f0-23d5-11ee-962d-dac502259ad0.png

運用Common Fate來分割視頻

這個定律啟發(fā)了基于運動的無監(jiān)督分割。然而,Common Fate 并不是物體性質(zhì)的可靠指標(biāo):關(guān)節(jié)可動(articulated)/可變形物體(deformable objects)的一些 part 可能不以相同速度移動,而物體的陰影/反射(shadows/reflections)始終隨物體移動,但并非其組成部分。

舉個例子,下面這個人的腿和身子的運動是不同的(Optical Flow 可視化出來顏色不同)。這很常見,畢竟人有關(guān)節(jié)嘛(articulated),要是這個處理不了的話,很多視頻都不能分割了。然而很多 baseline 是處理不了這點的(例如 AMD+ 和 OCLR),他們把人分割成了幾個部分。

wKgZomTYhVmAaP-gAALeTk_-f4k153.png

還有就是影子和反射,比如上面這只天鵝,它的倒影跟它的運動是一致的(Optical Flow 可視化顏色一樣),所以之前的方法認為天鵝跟倒影是一個物體。很多視頻里是有這類現(xiàn)象的(畢竟大太陽下物體都有個影子嘛),如果這個處理不了的話,很多視頻也不能分割了。

ee50510e-23d5-11ee-962d-dac502259ad0.png

那怎么解決?放松。Relax.

長話短說,那我們的方法是怎么解決這個問題的呢?無監(jiān)督學(xué)習(xí)的一個特性是利用神經(jīng)網(wǎng)絡(luò)自己內(nèi)部的泛化和擬合能力進行學(xué)習(xí)。既然 Common Fate 有自己的問題,那么我們沒有必要強制神經(jīng)網(wǎng)絡(luò)去擬合 Common Fate。于是我們提出了 Relaxed Common Fate,通過一個比較弱的學(xué)習(xí)方式讓神經(jīng)網(wǎng)絡(luò)真正學(xué)到物體的特性而不是 noise。

具體來說,我們的方法認為物體運動由兩部分組成:物體總體的 piecewise-constant motion (也就是 Common Fate)和物體內(nèi)部的 segment motion。比如你看下圖這個舞者,他全身的運動就可以被理解成 piecewise-constant motion 來建模,手部腿部這些運動就可以作為 residual motion 進行擬合,最后合并成一個完整的 flow,跟 RAFT 生成的 flow 進行比較來算 loss。我們用的 RAFT 是用合成數(shù)據(jù)(FlyingChairs 和 FlyingThings)進行訓(xùn)練的,不需要人工標(biāo)注。

wKgaomTYhW-ARynXAAGz3l4TSMw344.png

eea607e8-23d5-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我們使用一個 backbone 來進行特征提取,然后通過一個簡單的 full-convolutional network 獲得 Predicted Masks (下圖里的下半部分),和一般的分割框架是一樣的,也可以切換成別的框架。 那我們怎么優(yōu)化這些 Masks 呢?我們先提取、合并兩幀的特征,放入一個 residual flow prediction head 來獲得 Residual Flow (下圖里的上半部分)。 然后我們對 RAFT 獲得的 Flow 用 Predicted Masks 進行 Guided Pooling,獲得一個 piecewise-constant flow,再加上預(yù)測的 residual flow,就是我們的 flow prediction 了。最后把 flow prediction 和 RAFT 獲得的 Flow 的差算一個 L1 norm Loss 進行優(yōu)化,以此來學(xué)習(xí) segmentation。 在測試的時候,只有 Predicted Masks 是有用的,其他部分是不用的。eebe9254-23d5-11ee-962d-dac502259ad0.png ?

這里的 Residual Flow 會盡量初始化得小一些,來鼓勵先學(xué) piecewise-constant 的部分(有點類似 ControlNet),再慢慢學(xué)習(xí) residual 部分。

eee33334-23d5-11ee-962d-dac502259ad0.png

引入Appearance信息來幫助無監(jiān)督視頻分割

光是 Relaxed Common Fate 就能在 DAVIS 上相對 baseline 提 5%了,但這還不夠。前面說 Relaxed Common Fate 的只用了 motion 而沒有使用 appearance 信息。

讓我們再次回到上面這個例子。這個舞者的手和身子是一個顏色,然而 AMD+ 直接把舞者的手忽略了。下面這只天鵝和倒影明明在 appearance 上差別這么大,卻在 motion 上沒什么差別。如果整合 appearance 和 motion,是不是能提升分割質(zhì)量呢?

wKgZomTYhYaAJeOJAALHCeFXY4w226.png

因此我們引入了 Appearance 來進行進一步的監(jiān)督。在學(xué)習(xí)完 motion 信息之后,我們直接把取得的 Mask 進行兩步優(yōu)化:一個是 low-level 的 CRF refinement,強調(diào)顏色等細節(jié)一致的地方應(yīng)該屬于同一個 mask(或背景),一個是 semantic constraint,強調(diào) Unsupervised Feature 一直的地方應(yīng)該屬于同一個 mask。

把優(yōu)化完的 mask 再和原 mask 進行比較,計算 L2 Loss,再更新神經(jīng)網(wǎng)絡(luò)。這樣訓(xùn)練的模型的無監(jiān)督分割能力可以進一步提升。具體細節(jié)歡迎閱讀原文。

ef7e3d5c-23d5-11ee-962d-dac502259ad0.png

efcaa296-23d5-11ee-962d-dac502259ad0.png

無監(jiān)督調(diào)參

很多無監(jiān)督方法都需要使用有標(biāo)注的數(shù)據(jù)集來調(diào)參,而我們的方法提出可以利用前面說的 motion 和 appearance 的一致性來進行調(diào)參。簡單地說,motion 學(xué)習(xí)出的 mask 在 appearance 上不一致代表這個參數(shù)可能不是最優(yōu)的。具體方法是在 Unsupervised Feature 上計算 Normalized Cuts (但是不用算出最優(yōu)值),Normalized Cuts 越小越代表分割效果好。原文里面對此有詳細描述。

efdf21ee-23d5-11ee-962d-dac502259ad0.png

方法效果

無論是否有 Post-processing,我們的方法在三個視頻分割數(shù)據(jù)集上都有很大提升,在 STv2 上更是提升了 12%。

eff8356c-23d5-11ee-962d-dac502259ad0.png

Ablation 可以看出 Residual pathway (Relaxed Common Fate)的貢獻是最大的,其他部分總計貢獻了 11.9% 的增長。

f03f535c-23d5-11ee-962d-dac502259ad0.png

Visualizations

f069cd58-23d5-11ee-962d-dac502259ad0.png

f164ad9a-23d5-11ee-962d-dac502259ad0.png

f203ca06-23d5-11ee-962d-dac502259ad0.png

wKgaomTYha2Afs61AAUfDqTnj88519.png

f2d31fea-23d5-11ee-962d-dac502259ad0.png

總結(jié)

這篇 CVPR 2023 文章研究了完全不需要標(biāo)注的視頻物體分割。通過 Relaxed Common Fate 來利用 motion 信息,再通過改進和利用 appearance 信息來進一步優(yōu)化,RCF 模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里還提出了不需要標(biāo)注的調(diào)參方法。代碼和模型已公開可用。


原文標(biāo)題:CVPR 2023 | 完全無監(jiān)督的視頻物體分割 RCF

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:CVPR 2023 | 完全無監(jiān)督的視頻物體分割 RCF

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個視頻信號分割成多個小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、
    的頭像 發(fā)表于 10-17 09:32 ?367次閱讀

    畫面分割器怎么連接

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將多個視頻信號源分割成單個畫面或多個畫面顯示在單個監(jiān)視器上的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)
    的頭像 發(fā)表于 10-17 09:29 ?303次閱讀

    畫面分割器和視頻分配器有何區(qū)別

    畫面分割器和視頻分配器是兩種不同的視頻處理設(shè)備,它們在視頻監(jiān)控系統(tǒng)中扮演著不同的角色。 1. 畫面分割器 畫面
    的頭像 發(fā)表于 10-17 09:27 ?397次閱讀

    畫面分割器和分屏器有什么區(qū)別

    畫面分割器和分屏器是兩種在視頻處理領(lǐng)域常見的設(shè)備,它們的主要功能是將多個視頻信號合并到一個顯示設(shè)備上。盡管它們的功能相似,但在技術(shù)實現(xiàn)、應(yīng)用場景和用戶體驗上存在一些差異。以下是對這兩種設(shè)備的比較
    的頭像 發(fā)表于 10-17 09:25 ?423次閱讀

    畫面分割器有幾路主輸出

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將一個視頻信號分割成多個獨立視頻畫面的設(shè)備
    的頭像 發(fā)表于 10-17 09:24 ?325次閱讀

    畫面分割器的主要功能

    畫面分割器,也稱為視頻分割器或多畫面分割器,是一種用于將多個視頻信號整合到一個顯示器上顯示的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、
    的頭像 發(fā)表于 10-17 09:22 ?560次閱讀

    圖像分割和語義分割的區(qū)別與聯(lián)系

    圖像分割和語義分割是計算機視覺領(lǐng)域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區(qū)域或?qū)ο蟮倪^程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
    的頭像 發(fā)表于 07-17 09:55 ?917次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語義分割中發(fā)揮著至關(guān)重要的
    的頭像 發(fā)表于 07-09 11:51 ?845次閱讀

    機器人視覺技術(shù)中常見的圖像分割方法

    機器人視覺技術(shù)中的圖像分割方法是一個廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個區(qū)域或?qū)ο蟮倪^程,這些區(qū)域或?qū)ο缶哂心撤N共同的特征,如顏色、紋理、形狀等。在機器人視覺中,圖像分割對于物體
    的頭像 發(fā)表于 07-09 09:31 ?665次閱讀

    機器人視覺技術(shù)中圖像分割方法有哪些

    機器人視覺技術(shù)是人工智能領(lǐng)域的一個重要分支,它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個學(xué)科。圖像分割是機器人視覺技術(shù)中的一個重要環(huán)節(jié),它的目標(biāo)是從一幅圖像中將目標(biāo)物體與背景分離出來,以便于后續(xù)的處理
    的頭像 發(fā)表于 07-04 11:34 ?938次閱讀

    ESP8685的射頻部分完全無法使用了怎么解決?

    我這邊是自己畫板,用的ESP8685,目前現(xiàn)象是MCU本身是能正常運行的,外設(shè)都可以正常用,USB也是OK的,就是射頻部分完全無法使用,不管是嘗試燒錄IDF中發(fā)BLE廣播包的示例還是WIFI熱點掃描
    發(fā)表于 07-01 07:49

    OpenCV攜Orbbec 3D相機亮相CVPR 2024,加速AI視覺創(chuàng)新

    在科技發(fā)展的浪潮中,一年一度的IEEE國際計算機視覺與模式識別會議(CVPR)無疑是視覺技術(shù)領(lǐng)域的一大盛事。今年的CVPR 2024于6月17日至21日在美國西雅圖盛大舉行,吸引了全球超過1.2萬名參會者,這一數(shù)字打破了歷史記錄,讓此次盛會成為了“史上最火爆的
    的頭像 發(fā)表于 06-21 10:15 ?611次閱讀

    AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點

    2023年,也是AI視頻元年。過去一年究竟有哪些爆款應(yīng)用誕生,未來視頻生成領(lǐng)域面臨的難題還有哪些?
    的頭像 發(fā)表于 02-20 10:40 ?1212次閱讀
    AI<b class='flag-5'>視頻</b>年大爆發(fā)!<b class='flag-5'>2023</b>年AI<b class='flag-5'>視頻</b>生成領(lǐng)域的現(xiàn)狀全盤點

    Meta發(fā)布新型無監(jiān)督視頻預(yù)測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無監(jiān)督視頻預(yù)測模型,名為“V-JEPA”。這一模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因為它通過抽象性預(yù)測生成視頻中缺失或模糊的部分來
    的頭像 發(fā)表于 02-19 11:19 ?1010次閱讀

    語言模型的弱監(jiān)督視頻異常檢測方法

    了局部Transformer的mask,從時序上將輸入視頻幀特征分割為多個等長塊,令自注意力計算局限于塊內(nèi),減少了冗余信息建模,降低計算復(fù)雜度。
    的頭像 發(fā)表于 01-02 15:20 ?832次閱讀
    語言模型的弱<b class='flag-5'>監(jiān)督</b><b class='flag-5'>視頻</b>異常檢測方法
    主站蜘蛛池模板: 好嗨哟在线看片免费| 色橹橹欧美在线观看视频高清| 无码骚夜夜精品| 97人妻丰满熟妇AV无码| 国产午夜电影在线观看不卡| 青青青青草原国产免费| 影音先锋av333资源网| 国产免费福利在线视频| 日本护士在线观看| 0855福利| 九九精品在线播放| 亚洲 欧美 国产 视频二区| 成人影院午夜久久影院| 暖暖 免费 高清 日本视频大全| 亚洲中文久久久久久国产精品| 国产99久久久欧美黑人刘玥| 欧美video巨大粗暴18| 最近的2019中文字幕国语| 韩国女人高潮嗷嗷叫视频| 午夜无码片在线观看影院| 超碰97人人做人人爱亚洲尤物| 内射白浆一区二区在线观看| 中国老太婆xxxxx| 久久re视频精品538在线| 亚洲99精品A片久久久久久| 国产97视频在线观看| 欧美日韩精品久久久免费观看 | 亚洲三级在线中文字幕| 国产精品高清在线观看93| 日日夜夜操操操| 爱爱好爽好大好紧视频| 欧美s00老人| 99亚偷拍自图区亚洲| 麻豆AV无码蜜臀AV色哟| 征服艳妇后宫春色| 久久精品国产亚洲AV蜜臀| 亚洲色图激情小说| 国厂精品114福利电影| 校园纯肉H教室第一次| 国产精品久久久久久人妻香蕉 | 97在线免费观看|