色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種使用Mask Transformer進行全景分割的端到端解決方案

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-07-28 10:13 ? 次閱讀

【導讀】近日,谷歌團隊推出了一項新Transformer,可用于優化全景分割方案,還登上了CVPR 2022。

最近,谷歌AI團隊受Transformer和DETR的啟發提出了一種使用Mask Transformer進行全景分割的端到端解決方案。

全稱是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架構的擴展。

該解決方案采用像素路徑(由卷積神經網絡或視覺Transformer組成)提取像素特征,內存路徑(由Transformer解碼器模塊組成)提取內存特征,以及雙路徑Transformer用于像素特征和內存之間的交互特征。

然而,利用交叉注意力的雙路徑Transformer最初是為語言任務設計的,它的輸入序列由幾百個單詞構成。

而對視覺任務尤其是分割問題來說,其輸入序列由數萬個像素組成,這不僅表明輸入規模的幅度要大得多,而且與語言單詞相比也代表了較低級別的嵌入。

全景分割是一個計算機視覺問題,它是現在許多應用程序的核心任務。

它分為語義分割和實例分割兩部分。

語義分割就比如為圖像中的每個像素分配語義標簽,例如「人」和「天空」。

而實例分割僅識別和分割圖中的可數對象,如「行人」和「汽車」,并進一步將其劃分為幾個子任務。

每個子任務單獨處理,并應用額外的模塊來合并每個子任務階段的結果。

這個過程不僅復雜,而且在處理子任務和整合不同子任務結果時還會引入許多人工設計的先驗。

332dcd92-0dbb-11ed-ba43-dac502259ad0.png

在 CVPR 2022 上發表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出從聚類的角度重新解讀并且重新設計交叉注意力cross attention(也就是將相同語義標簽的像素分在同一組),從而更好地適應視覺任務。

CMT-DeepLab 建立在先前最先進的方法 MaX-DeepLab 之上,并采用像素聚類方法來執行交叉注意,從而產生更密集和合理的注意圖。

33465a56-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 進一步重新設計了交叉注意力,使其更像一個 k-means 聚類算法,對激活函數進行了簡單的更改。

結構總覽

研究人員將從聚類的角度進行重新解釋,而不是直接將交叉注意力應用于視覺任務而不進行修改。

具體來說,他們注意到Mask Transformer 對象查詢可以被認為是集群中心(旨在對具有相同語義標簽的像素進行分組)。

交叉注意力的過程類似于 k-means 聚類算法,(1)將像素分配給聚類中心的迭代過程,其中可以將多個像素分配給單個聚類中心,而某些聚類中心可能沒有分配的像素,以及(2)通過平均分配給同一聚類中心的像素來更新聚類中心,如果沒有分配像素,則不會更新聚類中心)。

33569146-0dbb-11ed-ba43-dac502259ad0.png

在CMT-DeepLab和kMaX-DeepLab中,我們從聚類的角度重新制定了交叉注意力,其中包括迭代聚類分配和聚類更新步驟

鑒于 k-means聚類算法的流行,在CMT-DeepLab中,他們重新設計了交叉注意力,以便空間方面的softmax操作(即沿圖像空間分辨率應用的 softmax 操作),實際上將聚類中心分配給相反,像素是沿集群中心應用的。

在 kMaX-DeepLab 中,我們進一步將空間方式的 softmax 簡化為集群方式的 argmax(即沿集群中心應用 argmax 操作)。

他們注意到 argmax 操作與 k-means 聚類算法中使用的硬分配(即一個像素僅分配給一個簇)相同。

從聚類的角度重新構建MaskTransformer的交叉注意力,顯著提高了分割性能,并簡化了復雜的Masktransformer管道,使其更具可解釋性。

首先,使用編碼器-解碼器結構從輸入圖像中提取像素特征。然后,使用一組聚類中心對像素進行分組,這些像素會根據聚類分配進一步更新。最后,迭代執行聚類分配和更新步驟,而最后一個分配可直接用作分割預測。

338234fe-0dbb-11ed-ba43-dac502259ad0.png

為了將典型的MaskTransformer解碼器(由交叉注意力、多頭自注意力和前饋網絡組成)轉換為上文提出的k-means交叉注意力,只需將空間方式的softmax替換為集群方式最大參數。

本次提出的 kMaX-DeepLab 的元架構由三個組件組成:像素編碼器、增強像素解碼器和 kMaX 解碼器。

像素編碼器是任何網絡主干,用于提取圖像特征。

增強的像素解碼器包括用于增強像素特征的Transformer編碼器,以及用于生成更高分辨率特征的上采樣層。

一系列 kMaX 解碼器將集群中心轉換為 (1) Mask嵌入向量,其與像素特征相乘以生成預測Mask,以及 (2) 每個Mask的類預測。

3390e68e-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的元架構

研究結果

最后,研究小組在兩個最具挑戰性的全景分割數據集 COCO 和 Cityscapes 上使用全景質量 (PQ) 度量來評估 CMT-DeepLab 和 kMaX-DeepLab,并對比 MaX-DeepLab 和其他最先進的方法。

其中CMT-DeepLab 實現了顯著的性能提升,而 kMaX-DeepLab 不僅簡化了修改,還進一步提升了,COCO val set 上的 PQ 為 58.0%,PQ 為 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 驗證集上的 83.5% 平均交集比聯合(mIoU),沒有測試時間增強或使用外部數據集。

33a23c36-0dbb-11ed-ba43-dac502259ad0.png

從聚類的角度設計,kMaX-DeepLab 不僅具有更高的性能,而且還可以更合理地可視化注意力圖以了解其工作機制。

在下面的示例中,kMaX-DeepLab 迭代地執行聚類分配和更新,從而逐漸提高Mask質量。

33b1197c-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的注意力圖可以直接可視化為全景分割,讓模型工作機制更合理

結論

本次研究展示了一種更好地設計視覺任務中的MaskTransformer的方法。

通過簡單的修改,CMT-DeepLab 和 kMaX-DeepLab 重新構建了交叉注意力,使其更像一種聚類算法。

因此,所提出的模型在COCO 和 Cityscapes數據集上實現了最先進的性能。

研究團隊表示,他們希望 DeepLab2 庫中 kMaX-DeepLab 的開源版本有助于未來對專用于視覺Transformer架構設計的研究。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1143

    瀏覽量

    40768
  • 圖像
    +關注

    關注

    2

    文章

    1085

    瀏覽量

    40488
  • 計算機視覺
    +關注

    關注

    8

    文章

    1698

    瀏覽量

    46015

原文標題:谷歌團隊推出新Transformer,優化全景分割方案|CVPR 2022

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ”智駕芯片,英偉達DRIVE Thor接棒,車企自研芯片對標行業領先

    。 ? 在智駕芯片層面,不少廠商采用了英偉達的DRIVE Orin芯片,以及下代智能駕駛計算平臺Thor進行開發,MDC610、地平線征程5、征程6芯片、小鵬圖靈AI芯片等也加入
    的頭像 發表于 12-09 09:05 ?1294次閱讀

    已來,智駕仿真測試該怎么做?

    智駕方案因強泛化能力、可持續學習與升級等優勢備受矚目,但這對仿真測試帶來了巨大挑戰??抵\探索了一種有效的
    的頭像 發表于 12-04 09:59 ?2614次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已來,智駕仿真測試該怎么做?

    黑芝麻智能算法參考模型公布

    黑芝麻智能計劃推出支持華山及武當系列芯片的算法參考方案。該方案采用One Model架構,并在決策規劃單元引入了VLM視覺語言大模型和
    的頭像 發表于 12-03 12:30 ?311次閱讀
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法參考模型公布

    智己汽車“”智駕方案推出,老司機真的會被取代嗎?

    隨著智能駕駛技術的發展,行業已經從早期基于簡單規則和模塊化邏輯的自動駕駛,逐步邁向依托深度學習的高復雜度智能駕駛解決方案,各車企也緊跟潮流,先后宣布了自己的智駕
    的頭像 發表于 10-30 09:47 ?291次閱讀
    智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕<b class='flag-5'>方案</b>推出,老司機真的會被取代嗎?

    Mobileye自動駕駛解決方案的深度解析

    強大的技術優勢。 Mobileye的解決方案概述 1.1 什么是
    的頭像 發表于 10-17 09:35 ?377次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛<b class='flag-5'>解決方案</b>的深度解析

    測試用例怎么寫

    編寫測試用例是確保軟件系統從頭到尾能夠正常工作的關鍵步驟。以下是個詳細的指南,介紹如何編寫
    的頭像 發表于 09-20 10:29 ?484次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應有盡有,為Matter標準的規?;逃锰峁┯?/div>
    的頭像 發表于 08-26 18:04 ?2586次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>

    實現自動駕駛,唯有?

    ,去年行業主流方案還是輕高精地圖城區智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發表于 08-12 09:14 ?750次閱讀
    實現自動駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    廣汽豐田攜手Momenta推出全場景智能駕駛方案

    在近日舉行的廣汽豐田科技開放日上,場引領未來的智能駕駛技術盛宴吸引了全球目光。廣汽豐田攜手國內領先的自動駕駛解決方案提供商Momenta,共同推出了
    的頭像 發表于 06-29 17:36 ?1677次閱讀

    周光:不是真“無圖”,談何

    “如果智能駕駛系統不能徹底擺脫高精度地圖,談何?!?? 6月1日,元戎啟行CEO周光在粵港澳大灣區車展暨2024(第二屆)未來汽車先行者大會上表示。 ? 這并非周光第次強調“無
    發表于 06-03 11:06 ?3098次閱讀
    周光:不是真“無圖”,談何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>

    華為IPv6+解決方案通過信通院IPv6+ 2.0 Advanced測試評估

    近日,華為IPv6+解決方案成功通過中國信息通信研究院(以下簡稱“信通院”)IPv6+ 2.0 Advanced測試評估,獲得業界首張企業/行業網絡
    的頭像 發表于 05-17 10:00 ?861次閱讀
    華為IPv6+<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>通過信通院IPv6+ 2.0 Advanced測試評估

    理想汽車自動駕駛模型實現

    理想汽車在感知、跟蹤、預測、決策和規劃等方面都進行了模型化,最終實現了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環境中進行
    發表于 04-12 12:17 ?462次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型實現

    知語云全景監測技術:現代安全防護的全面解決方案

    隨著信息技術的飛速發展,網絡安全問題日益突出,企業和個人對安全防護的需求也越來越迫切。在這個背景下,知語云全景監測技術應運而生,為現代安全防護提供了個全面而高效的解決方案。 知語云全景
    發表于 02-23 16:40

    移動協作機器人的RGB-D感知的處理方案

    本文提出了一種用于具有雙目視覺的自主機器人的三維語義場景感知的流程。該流程包括實例分割、特征匹配和點集配準。首先,利用RGB圖像
    發表于 02-21 15:55 ?706次閱讀
    移動協作機器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>處理<b class='flag-5'>方案</b>

    康謀方案 | 基于場景的硬件在環(HiL)測試智能解決方案

    。同時,針對不同傳感器進行協同工作,模擬不同的駕駛環境和交通狀況,測試和驗證自動駕駛車輛的算法和決策策略,從而確保其安全性和可靠性。 方案特點 針對ADAS/AD系統進行基于場景的
    的頭像 發表于 01-31 17:17 ?796次閱讀
    康謀<b class='flag-5'>方案</b> | 基于場景的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>硬件在環(HiL)測試智能<b class='flag-5'>解決方案</b>
    主站蜘蛛池模板: 国产精品99久久久久久人韩国| 免费可以看黄的视频s色| 国产精彩视频在线| 网红刘婷hd国产高清| 中文字幕在线视频在线看| 国产精品悠悠久久人妻精品| 农民工老头在出租屋嫖老熟女| 亚洲免费在线视频| 国产AV电影区二区三区曰曰骚网 | 国产精品国产三级国AV在线观看| 免费国产成人高清在线观看视频| 亚洲乱码在线卡一卡二卡新区| 久久re这里精品在线视频7| 少妇高潮A视频| 成人在线免费视频观看| 披黑人猛躁10次高潮| 洲精品无码高潮喷水A片| 人人模人人干| 打开双腿狠狠蹂躏蜜桃臀| 日本最新在线不卡免费视频| 99久久久国产精品免费调教| 久久只精品99品免费久| 中国拍三a级的明星女| 久见久热 这里只有精品| 亚洲精品久久AV无码蜜桃| 国产三级在线免费| 亚洲麻豆精品成人A在线观看| 女人被躁到高潮嗷嗷叫小| seyeye在清在线| 色精品极品国产在线视频| 国产精品成人免费| 中文字幕专区高清在线观看| 翁熄性放纵交换300章| 免费。色婬网站| 国产欧美日韩综合精品一区二区 | 97午夜理论片影院在线播放| 男人插女人动态图| 韩国演艺圈悲惨在线| 野花韩国免费高清电影| 久久久乱码精品亚洲日韩| 在线观看成年人免费视频|