色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

第一篇綜述!分割一切模型(SAM)的全面調研

CVer ? 來源:機器之心 ? 2023-05-24 14:36 ? 次閱讀

作為首個全面介紹基于 SAM 基礎模型進展的研究,本文聚焦于 SAM 在各種任務和數據類型上的應用,并討論了其歷史發展、近期進展,以及對廣泛應用的深遠影響。

人工智能AI)正在向 AGI 方向發展,這是指人工智能系統能夠執行廣泛的任務,并可以表現出類似于人類的智能水平,狹義上的 AI 就與之形成了對比,因為專業化的 AI 旨在高效執行特定任務??梢姡O計通用的基礎模型迫在眉睫?;A模型在廣泛的數據上訓練,因而能夠適應各種下游任務。最近 Meta 提出的分割一切模型(Segment Anything Model,SAM)突破了分割界限,極大地促進了計算機視覺基礎模型的發展。

SAM 是一個提示型模型,其在 1100 萬張圖像上訓練了超過 10 億個掩碼,實現了強大的零樣本泛化。許多研究人員認為「這是 CV 的 GPT-3 時刻,因為 SAM 已經學會了物體是什么的一般概念,甚至是未知的物體、不熟悉的場景(如水下、細胞顯微鏡)和模糊的情況」,并展示了作為 CV 基本模型的巨大潛力。

為了充分了解 SAM,來自香港科技大學(廣州)、上海交大等機構的研究者對其進行了深入研究并聯合發表論文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。

d5cdd564-f943-11ed-90ce-dac502259ad0.png

論文:https://arxiv.org/abs/2305.08196

作為首個全面介紹基于 SAM 基礎模型進展的研究,該論文聚焦于 SAM 在各種任務和數據類型上的應用,并討論了其歷史發展、近期進展,以及對廣泛應用的深遠影響。

本文首先介紹了包括 SAM 在內的基礎模型的背景和術語,以及對分割任務有重要意義的最新方法;

然后,該研究分析并總結了 SAM 在各種圖像處理應用中的優勢和限制,包括軟件場景、真實世界場景和復雜場景,重要的是,該研究得出了一些洞察,以指導未來的研究發展更多用途廣泛的基礎模型并改進 SAM 的架構;

最后該研究還總結了 SAM 在視覺及其他領域的應用。

下面我們看看論文具體內容。

SAM 模型概覽

SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 項目。該項目發現在 NLP 和 CV 領域中出現的基礎模型表現出較強的性能,研究人員試圖建立一個類似的模型來統一整個圖像分割任務。然而,在分割領域的可用數據較為缺乏,這與他們的設計目的不同。因此,如圖 1 所示,研究者將路徑分為任務、模型和數據三個步驟。

d5d57efe-f943-11ed-90ce-dac502259ad0.png

SAM 架構如下所示,主要包含三個部分:圖像編碼器;提示編碼器;以及掩碼解碼器。

d5dd2ff0-f943-11ed-90ce-dac502259ad0.png

在對 SAM 有了初步認知后,接下來該研究介紹了 SAM 用于圖像處理。

SAM 用于圖像處理

這部分主要分場景進行介紹,包括:軟件場景、真實場景以及復雜場景。

軟件場景

軟件場景需要對圖像編輯和修復進行操作,例如移除對象、填充對象和替換對象。然而,現有的修復工作,如 [99]、[100]、[101]、[102],需要對每個掩碼進行精細的注釋以達到良好的性能,這是一項勞動密集型的工作。SAM [20] 可以通過簡單的提示如點或框來生成準確的掩碼,可以幫助輔助圖像編輯場景。

Inpaint Anything (IA) [39] 設計了一個流程,通過結合 SAM 的優勢、最先進的圖像修復器 [99],以及 AI 生成的內容模型 [103],來解決與修復相關的問題。這個流程如圖 3 所示。對于對象移除,該流程由 SAM 和最先進的修復器組成,如 LaMa [99]。用戶的點擊操作被用作 SAM 的提示,以生成對象區域的掩碼,然后 LaMa 使用 corrosion 和 dilation 操作進行填充。對于對象的填充和替換,第二步使用像 Stable Diffusion (SD) [103] 這樣的 AI 生成的內容模型,通過文本提示用新生成的對象填充選定的對象。

d5e4de8a-f943-11ed-90ce-dac502259ad0.png

一個類似的想法也可以在 Edit Everything [40] 中看到,如圖 4 所示,該方法允許用戶使用簡單的文本指令編輯圖像。

d5ef7070-f943-11ed-90ce-dac502259ad0.png

真實場景

研究者表示 SAM 具有協助處理許多真實世界場景的能力,例如真實世界的物體檢測、物體計數以及移動物體檢測場景。最近,[108] 對 SAM 在多種真實世界分割場景(例如,自然圖像、農業、制造業、遙感和醫療健康場景)中的性能進行了評估。該論文發現,在像自然圖像這樣的常見場景中,它具有優秀的泛化能力,而在低對比度的場景中,它的效果較差,而且在復雜場景中需要強大的先驗知識。

例如,在民用基礎設施缺陷評估的應用中,[42] 利用 SAM 來檢測混凝土結構中的裂縫,并將其性能與基線 U-Net [109] 進行比較。裂縫檢測過程如圖 6 所示。結果顯示,SAM 在檢測縱向裂縫方面表現優于 UNet,這些裂縫更可能在正常場景中找到類似的訓練圖像,而在不常見的場景,即剝落裂縫方面,SAM 的表現不如 U-Net。

d5f8db60-f943-11ed-90ce-dac502259ad0.png

使用 SAM 和 U-Net 進行裂紋檢測的過程。圖摘自原論文 [42]。

與裂縫檢測中的復雜圖像案例不同,由于隕石坑的形狀主要集中在圓形或橢圓形,所以使用 SAM 作為檢測工具來進行隕石坑檢測更為合適。隕石坑是行星探索中最重要的形態特征之一,檢測和計數它們是行星科學中一個重要但耗時的任務。盡管現有的機器學習和計算機視覺工作成功地解決了隕石坑檢測中的一些特定問題,但它們依賴于特定類型的數據,因此在不同的數據源中無法很好地工作。

在 [110] 中,研究者提出了一種使用 SAM 對不熟悉對象進行零樣本泛化的通用隕石坑檢測方案。這個流程使用 SAM 來分割輸入圖像,對數據類型和分辨率沒有限制。然后,它使用圓形 - 橢圓形指數來過濾不是圓形 - 橢圓形的分割掩碼。最后,使用一個后處理過濾器來去除重復的、人為的和假陽性的部分。這個流程在當前領域顯示出其作為通用工具的巨大潛力,并且作者還討論了只能識別特定形狀的缺點。

復雜場景

除了上述的常規場景,SAM 是否能解決復雜場景(如低對比度場景)中的分割問題,也是一個有意義的問題,可以擴大其應用范圍。為了探索 SAM 在更復雜場景中的泛化能力,Ji 等人 [22] 在三種場景,即偽裝動物、工業缺陷和醫學病變中,定量地將其與尖端模型進行比較。他們在三個偽裝物體分割(COS)數據集上進行實驗,即擁有 250 個樣本的 CAMO [116],擁有 2026 個樣本的 COD10K [117],以及擁有 4121 個樣本的 NC4K [118]。并將其與基于 Transformer 的模型 CamoFormer-P/S [119] 和 HitNet [120] 進行比較。結果表明,SAM 在隱蔽場景中的技巧不足,并指出,潛在的解決方案可能依賴于在特定領域的先驗知識的支持。在 [29] 中也可以得出同樣的結論,作者在上述同樣的三個數據集上,將 SAM 與 22 個最先進的方法在偽裝物體檢測上進行比較。

Cao 等人 [115] 提出了一個新的框架,名為 Segment Any Anomaly + (SAA+),用于零樣本異常分割,如圖 7 所示。該框架利用混合提示規范化來提高現代基礎模型的適應性,從而無需領域特定的微調就能進行更精確的異常分割。作者在四個異常分割基準上進行了詳細的實驗,即 VisA [122],MVTecAD [123],MTD [124] 和 KSDD2 [125],并取得了最先進的性能。

d6051baa-f943-11ed-90ce-dac502259ad0.png

He 等人 [126] 提出了第一種方法(WSSAM),利用 SAM 進行弱監督隱蔽物體分割,解決了使用稀疏注釋數據分割與周圍環境融為一體的物體的挑戰(參見圖 8)。所提出的 WSSAM 包括基于 SAM 的偽標記和多尺度特征分組,以提高模型學習和區分隱蔽物體和背景。作者發現,僅使用 scribble 監督 [127],SAM 就可以生成足夠好的分割掩碼,以訓練分割器。

d60b60e6-f943-11ed-90ce-dac502259ad0.png

更多模型和應用:視覺及其他

視覺相關

首先是醫療成像。醫療圖像分割的目的是展示相應組織的解剖或病理結構,可以用于計算機輔助診斷和智能臨床手術。

下圖 10 為醫療圖像 SAM 概覽,包括了計算機斷層掃描(CT)圖像、磁共振成像(MRI)圖像、結腸鏡檢查圖像、多格式圖像、H&E 染色組織切片圖像等。

d6142b86-f943-11ed-90ce-dac502259ad0.png

其次是視頻。在計算機視覺領域,視頻目標跟蹤(VOT)和視頻分割被認為是至關重要且不可或缺的任務。VOT 涉及在視頻幀中定位特定目標,然后在整個視頻的其余部分對其進行跟蹤。因此,VOT 具有各種實際應用,例如監視和機器人技術。

SAM 在 VOT 領域做出了杰出貢獻。參考文獻 [46] 中引入了跟蹤一切模型(Track Anything Model, TAM),高效地在視頻中實現了出色的交互式跟蹤和分割。下圖 11 為 TAM pipeline。

d6211b0c-f943-11ed-90ce-dac502259ad0.png

此外另一個跟蹤模型為 SAMTrack,詳見參考文獻 [172]。SAMTrack 是一種視頻分割框架,可通過交互和自動的方法實現目標跟蹤和分割。下圖 12 為 SAMTrack 的 pipeline。

d62d0944-f943-11ed-90ce-dac502259ad0.png

下圖 13 為一個輕量級 SAM 指導的優化模塊(SAM-guided refinement module, SEEM),用于提升現有方法的性能。

d634affa-f943-11ed-90ce-dac502259ad0.png

接著是數據注釋。SAMText [180] 是一種用于視頻中場景文本掩碼注釋的可擴展 pipeline。它利用 SAM 在大型數據集 SAMText-9M 上生成掩碼注釋,該數據集包含超過 2,400 個視頻片段和超過 900 萬個掩碼注釋。

此外參考文獻 [143] 利用現有遙感目標檢測數據集和以數據為中心的機器學習模型 SAM,構建了一個大規模遙感圖像分割數據集 SAMRS,包含目標分類、位置和實例信息,可以用于語義分割、實例分割和目標檢測研究。

視覺之外

首先是 3D 重建。除了實現細粒度的 3D 分割,SA3D [183] 可以用于 3D 重建。利用 3D 掩碼網格,研究者可以確定物體在 3D 中的占用空間,并以各種方式重建。下圖 14 為 SA3D 的整體 pipeline。

d640144e-f943-11ed-90ce-dac502259ad0.png

參考文獻 [186] 提出了一種新的對象移除 pipeline ORNeRF,它使用單個視圖上的點或文本 prompt 從 3D 場景中移除對象。通過使用點投影策略將用戶注釋快速傳播給所有視圖,該方法使用比以往工作更少的時間實現了更好的性能。下圖 15 為 ORNeRF 的框架。

d64ebb5c-f943-11ed-90ce-dac502259ad0.png

其次是非歐式域。為了為不同任務處理不同特征維度,下圖 16 中所示的 SNA 方法引入了一個專門的可精簡圖卷積層。該層可以根據輸入的特征維度進行通道的動態激活或停用。

d659da14-f943-11ed-90ce-dac502259ad0.png

然后是機器人。下圖 17 展示了 Instruct2Act [190] 的整體流程。在感知部分,預定義的 API 用于訪問多個基礎模型。SAM [20] 準確定位候選對象,CLIP [13] 對它們進行分類。該框架利用基礎模型的專業知識和機器人能力將復雜的高級指令轉換為精確的策略代碼。

d663283a-f943-11ed-90ce-dac502259ad0.png

接著是視頻文本定位。下圖 18 展示了一種為視頻文本定位任務生成掩碼注釋的可擴展高效解決方案 SAMText [180]。通過將 SAM 模型應用于邊界框注釋,它可以為大規模視頻文本數據集生成掩碼注釋。

d670346c-f943-11ed-90ce-dac502259ad0.png

此外還有圖像字幕。Wang et al. [44] 提出了一種用于可控圖像字幕的方法 Caption Anything(CAT),如下圖 20 所示,CAT 的框架將多模態控制引入圖像字幕,呈現符合人類意圖的各種視覺焦點和語言風格。

d67a187e-f943-11ed-90ce-dac502259ad0.png

視聽也有涉及。參考文獻 [45] 的視聽定位和分割方法用于學習可以對齊音頻和視覺信息的跨模態表示,具體如下圖 21 所示。AV-SAM 利用預訓練音頻編碼器和圖像編碼器中跨音頻和視覺特征的像素級視聽融合來聚合跨模態表示。然后將聚合的跨模態特征輸入 prompt 編碼器和掩碼解碼器,生成最終的視聽分割掩碼。

d68785c2-f943-11ed-90ce-dac502259ad0.png

最后是多模態視覺和開放詞匯交互分割。參考文獻 [44] 的方法如下圖 22 所示,旨在使用僅文本輸入的 CLIP 策略來完全取代手動點(manual point)。這種方法提供來自文本輸入的像素級結果,可以很容易地轉換為 SAM 模型的點 prompt。

d69013ea-f943-11ed-90ce-dac502259ad0.png

結語

本文首次全面回顧了計算機視覺及其他領域 SAM 基礎模型的研究進展。首先總結了基礎模型(大語言模型、大型視覺模型和多模態大模型)的發展歷史以及 SAM 的基本術語,并著重于 SAM 在各種任務和數據類型中的應用,總結和比較了 SAM 的并行工作及其后續工作。研究者還討論 SAM 在廣泛的圖像處理應用中的巨大潛力,包括軟件場景、真實世界場景和復雜場景。

此外,研究者分析和總結了 SAM 在各種應用程序中的優點和局限性。這些觀察結果可以為未來開發更強大的基礎模型和進一步提升 SAM 的穩健性和泛化性提供一些洞見。文章最后總結了 SAM 在視覺和其他領域的大量其他令人驚嘆的應用。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像處理
    +關注

    關注

    27

    文章

    1289

    瀏覽量

    56722
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48809
  • SAM
    SAM
    +關注

    關注

    0

    文章

    112

    瀏覽量

    33519

原文標題:第一篇綜述!分割一切模型(SAM)的全面調研

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用中科藍訊AB32VG1 V2.0點亮第一篇

    使用中科藍訊AB32VG1開發板點亮第一篇
    發表于 11-08 16:23 ?3204次閱讀
    使用中科藍訊AB32VG1 V2.0點亮<b class='flag-5'>第一篇</b>

    非晶硅薄膜太陽能電池第一篇

    非晶硅薄膜太陽能電池原理第一篇
    發表于 12-29 08:37 ?1579次閱讀

    一切從游戲開始_python

    一切從游戲開始_python
    發表于 03-19 11:23 ?7次下載

    運放中的那些坑——第一篇

    運放中的那些坑——第一篇
    的頭像 發表于 08-31 11:40 ?4.5w次閱讀
    運放中的那些坑——<b class='flag-5'>第一篇</b>

    NAS:完整講述AutoML整個流程的綜述

    NAS,可能有理解有誤,望指正批評。 介紹 首先這篇綜述是講AutoML的,不單單是NAS,但是因為NAS是AutoML中最最重要的部分,所以主要篇章還是用來講NAS了。據作者所說,應該是第一篇完整講述AutoML整個流程的
    的頭像 發表于 12-26 09:40 ?5036次閱讀
    NAS:<b class='flag-5'>一</b><b class='flag-5'>篇</b>完整講述AutoML整個流程的<b class='flag-5'>綜述</b>

    AI分割一切——用OpenVINO?加速Meta SAM模型

    物體分割是計算機視覺中的核心任務之,旨在識別圖像中屬于特定對象的像素。通常實現圖像分割的方法有兩種,即交互式分割和自動分割。交互式
    的頭像 發表于 04-23 11:16 ?1260次閱讀
    AI<b class='flag-5'>分割</b><b class='flag-5'>一切</b>——用OpenVINO?加速Meta <b class='flag-5'>SAM</b>大<b class='flag-5'>模型</b>

    海爾智家:一切皆為用戶體驗!

    一切從用戶需求出發,一切為了用戶的智慧家庭生活體驗。
    的頭像 發表于 04-25 13:35 ?548次閱讀

    SAM分割模型是什么?

    SAM類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,
    的頭像 發表于 05-20 09:30 ?2244次閱讀

    SAM 到底是什么

    ? 前言 “分割一切,大家起失業!”——近期,這樣句話在社交媒體上大火!這講的就是 Segment Anything Model(簡稱 “SAM
    的頭像 發表于 06-12 10:46 ?4904次閱讀
    <b class='flag-5'>SAM</b> 到底是什么

    分割一切?Segment Anything量化加速實戰

    SAM個由 Meta AI 實驗室推出的強大人工智能圖像分割應用,可以自動識別哪些圖像像素屬于個對象,并且對圖像中各個對象進行自動風格處理,可廣泛用于分析科學圖像、編輯照片等。
    的頭像 發表于 06-16 16:47 ?1052次閱讀
    <b class='flag-5'>分割</b><b class='flag-5'>一切</b>?Segment Anything量化加速實戰

    YOLOv8最新版本支持SAM分割一切

    分割任何模型 (Segment Anything Model - SAM) 是種突破性的圖像分割模型
    的頭像 發表于 06-18 11:42 ?1608次閱讀
    YOLOv8最新版本支持<b class='flag-5'>SAM</b><b class='flag-5'>分割</b><b class='flag-5'>一切</b>

    中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

    通過將分割?任務重新劃分為全實例分割和提?指導選擇兩個?任務,?帶實例分割分?的常規 CNN 檢測器以?出50倍的運?速度實現了與SAM?
    的頭像 發表于 06-28 14:33 ?1683次閱讀
    中科院提出FastSAM快速<b class='flag-5'>分割</b><b class='flag-5'>一切</b><b class='flag-5'>模型</b>!比Meta原版提速50倍!

    基于 Transformer 的分割與檢測方法

    來源:機器之心 SAM (Segment Anything )作為個視覺的分割基礎模型,在短短的 3 個月時間吸引了很多研究者的關注和跟進。如果你想系統地了解
    的頭像 發表于 07-05 10:18 ?979次閱讀
    基于 Transformer 的<b class='flag-5'>分割</b>與檢測方法

    【半導體后端工藝:】第一篇了解半導體測試

    【半導體后端工藝:】第一篇了解半導體測試
    的頭像 發表于 11-24 16:11 ?1264次閱讀
    【半導體后端工藝:】<b class='flag-5'>第一篇</b>了解半導體測試

    種新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次優提示時的性能比較,Stable-SAM明顯優于其他算法。這里也推薦工坊推出的新課程《如何將深度學習
    的頭像 發表于 12-29 14:35 ?665次閱讀
    <b class='flag-5'>一</b>種新的<b class='flag-5'>分割</b><b class='flag-5'>模型</b>Stable-<b class='flag-5'>SAM</b>
    主站蜘蛛池模板: 海量激情文学| 亚洲AV无码乱码国产麻豆穿越 | 偷拍自偷拍亚洲精品| 啦啦啦 中国 日本 高清 在线| 动漫美女人物被黄漫在线看| 亚洲视频精品| 亚洲AV永久无码精品澳门| 青草伊人久久| 男人狂躁进女人免费视频公交| 狠狠干.in| 韩国污动漫无遮掩无删减电脑版| 广东95后小情侣酒店自拍流出| 4484在线观看视频| 亚洲中字幕永久在线观看| 幸福草电视剧演员表介绍| 色爰情人网站| 微拍秒拍99福利精品小视频| 日日噜噜噜夜夜爽爽狠狠图片| 欧美男男网站免费观看videos| 免费观看高清黄页网址大全| 乱淫67194| 欧美亚洲另类丝袜自拍动漫| 女人夜夜春| 起碰免费公开97在线视频| 欧美黑人巨大xxxxx| 嗯呐啊唔高H兽交| 欧美最猛性XXXXX肛交| 嫩草影院未满十八岁禁止入内| 母狗黄淑珍| 日本一本二本三区免费免费高清| 日韩中文字幕欧美在线视频| 神马老子影院午夜伦| 亚洲精品视频在线观看视频 | 久久免费看少妇高潮A片2012| 久久精品久精品99热| 美妇教师双飞后菊| 人人艹人人| 亚洲精品国产品国语在线试看| 伊人久久综在合线亚洲| 99re久久热在线播放8| 国产精品96久久久久久AV不卡|