亚洲精品在线免费看,亚洲激情成人,在线观看日韩

SAM是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。相比于以往的圖像分割模型，SAM可以識(shí)別各種輸入提示，確定圖像中需要分割的內(nèi)容，還可以靈活集成到虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等其他系統(tǒng)中，且目前對(duì)于一些它未見(jiàn)過(guò)或相對(duì)模糊的場(chǎng)景，也能實(shí)現(xiàn)較好的圖像分割效果。

最近一段時(shí)間，人工智能通用模型領(lǐng)域頻現(xiàn)“爆款”。4月，Meta公司發(fā)布了一款名為“Segment Anything Model”（SAM）的通用模型，號(hào)稱可以“零樣本分割一切”。也就是說(shuō)，SAM能從照片或視頻圖像中對(duì)任意對(duì)象實(shí)現(xiàn)一鍵分割，并且能夠零樣本遷移到其他任務(wù)中。

在相關(guān)展示頁(yè)面中，在一張包含水果、案板、刀具、綠植、儲(chǔ)物架等眾多物體、背景雜亂的廚房照片中，該模型可迅速識(shí)別出不同的物體，以粗線條勾勒出物體輪廓，并用不同顏色對(duì)不同物體進(jìn)行區(qū)分?！斑@就是SAM最重要的功能——圖像分割。”

那么，SAM的技術(shù)原理是什么？相比于此前的圖像分割模型，該模型有何不同？未來(lái)又有可能在哪些方面應(yīng)用？

圖像分割通用模型泛用性強(qiáng)

像SAM這樣可以處理多種不同類型任務(wù)的人工智能模型，叫作通用模型。與之相對(duì)，那些專門(mén)處理一種類型任務(wù)的人工智能模型，叫作專有模型。

打個(gè)形象的比喻，通用模型就好比是一個(gè)“多面手”。它具有處理一般事務(wù)的能力，但是在精度等性能上往往會(huì)遜色于只處理一種類型任務(wù)的專有模型。

既然通用模型可能會(huì)在精度上低于專有模型，為什么還要費(fèi)盡心力地開(kāi)發(fā)通用模型？通用模型與專有模型定位不同。通用模型帶來(lái)的，是解決分割問(wèn)題的新范式，特別是幫助科研人員提升在解決專有任務(wù)時(shí)的效率，“以前，面對(duì)不同的任務(wù)需求，科研人員往往需要開(kāi)發(fā)不同的專有模型來(lái)應(yīng)對(duì)。這樣開(kāi)發(fā)出的模型精度確實(shí)會(huì)更高，但是往往也會(huì)付出較大的研發(fā)成本，而且研發(fā)的模型通用性不強(qiáng)。”

通用模型能夠?qū)⑺腥蝿?wù)都處理得“八九不離十”，因此科研人員往往只需在通用模型的基礎(chǔ)上進(jìn)行優(yōu)化，使之更加符合任務(wù)需求即可，而不需要費(fèi)盡心力地從零開(kāi)始搭建專有模型。因此，通用模型的初始開(kāi)發(fā)成本可能會(huì)高，但隨著使用通用模型的次數(shù)越來(lái)越多，其應(yīng)用成本也會(huì)越來(lái)越低。

SAM就是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像?！霸赟AM出現(xiàn)前，基本上所有的圖像分割模型都是專有模型?！薄按騻€(gè)比方，在醫(yī)學(xué)領(lǐng)域，有專門(mén)分割核磁圖像的人工智能模型，也有專門(mén)分割CT影像的人工智能模型。但這些模型往往只在分割專有領(lǐng)域內(nèi)的圖像時(shí)，才具有良好性能，而在分割其他領(lǐng)域的圖像時(shí)往往性能不佳。”

有業(yè)內(nèi)專家表示，相比于以往的圖像分割模型，SAM可以識(shí)別各種輸入提示，確定圖像中需要分割的內(nèi)容，還可以靈活集成到虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等其他系統(tǒng)中，且目前對(duì)于一些它未見(jiàn)過(guò)或相對(duì)模糊的場(chǎng)景，也能實(shí)現(xiàn)較好的圖像分割效果；同時(shí)，SAM建立了一套圖像分割的通用模型，降低了對(duì)于特定場(chǎng)景建模知識(shí)、訓(xùn)練計(jì)算、數(shù)據(jù)標(biāo)記的需求，有望在統(tǒng)一框架下完成圖像分割任務(wù)。目前Meta公司已經(jīng)開(kāi)放共享SAM的代碼和訓(xùn)練數(shù)據(jù)集。

利用海量數(shù)據(jù)實(shí)現(xiàn)準(zhǔn)確分割

那么，SAM是通過(guò)什么技術(shù)手段，實(shí)現(xiàn)對(duì)物體的識(shí)別與分割？尤其是在面對(duì)復(fù)雜環(huán)境、甚至沒(méi)遇到過(guò)的物體和圖像時(shí)，SAM又是怎么做到準(zhǔn)確識(shí)別與分割的？

“根據(jù)Meta發(fā)布的相關(guān)論文，SAM的模型結(jié)構(gòu)其實(shí)并不是特別復(fù)雜?！毕嚓P(guān)專家告訴作者，“它用到了一個(gè)叫作‘編碼解碼器’的構(gòu)架?！?/p>

作者了解到，SAM先通過(guò)圖像編碼器為圖像生成編碼，同時(shí)用一個(gè)輕量級(jí)編碼器將用戶的文字提示轉(zhuǎn)換為提示編碼。然后，SAM將圖像編碼分別和提示編碼信息源組合在一起，輸送到一個(gè)輕量級(jí)解碼器中，用于預(yù)測(cè)分割掩碼。這樣一來(lái)，一旦使用者給出提示，則每個(gè)提示只需要幾毫秒就能在瀏覽器中得到結(jié)果響應(yīng)。

用一個(gè)生動(dòng)的例子解釋SAM的運(yùn)行原理?！氨热缯f(shuō)，給你一張帶有貓和狗的圖片?！畬⒄掌械呢垬?biāo)注出來(lái)’這就是提示；但是對(duì)于機(jī)器來(lái)說(shuō)，它并不能直接‘明白’這種文字性提示，因此就需要將文字性提示轉(zhuǎn)換為機(jī)器能夠理解的提示編碼?！蓖?，對(duì)于照片中的貓和狗，機(jī)器實(shí)際上并不能直接“明白”什么是貓、什么是狗，而是將照片中的貓和狗與圖片編碼對(duì)應(yīng)起來(lái)。SAM通過(guò)訓(xùn)練學(xué)習(xí)提示編碼與圖片編碼的不同結(jié)合，理解人類在文字提示中表述的希望如何分割這張圖片。一旦“將照片中的貓標(biāo)注出來(lái)”這句提示被輸入時(shí)，SAM就能快速運(yùn)行，得到人類想要的結(jié)果。

既然SAM并沒(méi)有真正理解什么是貓、什么是狗，它又是如何準(zhǔn)確地執(zhí)行人類賦予的任務(wù)的呢？

“雖然SAM并沒(méi)有完全理解人類的語(yǔ)言和視覺(jué)的能力，但是通過(guò)對(duì)海量數(shù)據(jù)的學(xué)習(xí)，SAM仍然能夠做到準(zhǔn)確執(zhí)行任務(wù)。”相關(guān)專家解釋道，用于訓(xùn)練SAM的數(shù)據(jù)集的數(shù)據(jù)量，是以往最大數(shù)據(jù)集的6倍。在這個(gè)數(shù)據(jù)集中，包括1100萬(wàn)張圖像，和11億個(gè)標(biāo)注（可簡(jiǎn)單理解為11億個(gè)物體）。這是一個(gè)“走量”的過(guò)程，數(shù)據(jù)量越大，機(jī)器分割圖像的能力就越準(zhǔn)確；即使在某張圖中出現(xiàn)了這11億個(gè)物體之外的物體，機(jī)器也往往能夠根據(jù)以往經(jīng)驗(yàn)以較高的準(zhǔn)確率“推斷”出它是什么物體，并將其納入自己的數(shù)據(jù)庫(kù)，這就是為什么SAM對(duì)于從未見(jiàn)過(guò)的物體，也能有很好的識(shí)別與分割效果。

“需要注意的是，這11億個(gè)標(biāo)注也不是純手工完成的，而是通過(guò)漸進(jìn)的方式自動(dòng)完成標(biāo)注的。一開(kāi)始，這個(gè)數(shù)據(jù)集中只有相對(duì)少量的標(biāo)注數(shù)據(jù)?？蒲腥藛T先用這些數(shù)據(jù)訓(xùn)練出一個(gè)模型，然后再讓這個(gè)模型自動(dòng)標(biāo)注數(shù)據(jù)，并通過(guò)人工對(duì)標(biāo)注結(jié)果進(jìn)行改進(jìn)，這就得到了比上一個(gè)數(shù)據(jù)集更大一些的數(shù)據(jù)集。如此循環(huán)往復(fù)，就能得到海量標(biāo)注數(shù)據(jù)集。”

促進(jìn)計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)展

功能如此強(qiáng)大的圖像分割通用模型，將給計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)哪些改變？

“SAM的出現(xiàn)將為計(jì)算機(jī)視覺(jué)領(lǐng)域的科研人員帶來(lái)工作范式上的變化?！薄癝AM的出現(xiàn)確實(shí)會(huì)對(duì)目前一些與機(jī)器人視覺(jué)相關(guān)的研究領(lǐng)域造成沖擊，但從總體上看，SAM的出現(xiàn)會(huì)提升相關(guān)科研人員的效率。”

以往科研人員構(gòu)建圖像分割模型，是一個(gè)“從下到上、從零開(kāi)始”的過(guò)程；而圖像分割通用模型則將模型構(gòu)建方式變成了“從上到下”，即在已有性能和泛化能力更強(qiáng)的模型基礎(chǔ)上繼續(xù)修改、優(yōu)化，“這可能確實(shí)會(huì)取代某些專有模型，但從總體上看它將有利于整個(gè)領(lǐng)域的發(fā)展。”

此外，在具體應(yīng)用上，圖像分割通用模型前景十分廣闊。

工業(yè)中的機(jī)器視覺(jué)、自動(dòng)駕駛、安防等一些原來(lái)采用計(jì)算機(jī)視覺(jué)技術(shù)的行業(yè)，因?yàn)殚L(zhǎng)尾場(chǎng)景多，需要大量標(biāo)簽數(shù)據(jù)，因此訓(xùn)練成本較高。有了圖像分割通用模型后，這些領(lǐng)域內(nèi)定制化開(kāi)發(fā)產(chǎn)品的成本可能會(huì)降低，由此帶來(lái)毛利率的提升；還有一些領(lǐng)域，過(guò)去因?yàn)闃颖玖可俣y以應(yīng)用深度學(xué)習(xí)等人工智能算法?，F(xiàn)在，由于SAM在零樣本或者少量樣本上表現(xiàn)優(yōu)異，一些新的應(yīng)用領(lǐng)域?qū)⒈煌卣?，比如從代碼驅(qū)動(dòng)變?yōu)橐曈X(jué)驅(qū)動(dòng)的機(jī)器人、流程工業(yè)場(chǎng)景等。

同時(shí)，由于SAM可以接受來(lái)自其他系統(tǒng)的輸入提示，因此科幻片中根據(jù)用戶視覺(jué)焦點(diǎn)信息來(lái)識(shí)別并選擇對(duì)應(yīng)物體或?qū)⒊蔀榭赡堋?/p>

SAM不僅將在上述這些前沿領(lǐng)域發(fā)揮作用，同樣或?qū)?huì)用于人們的日常生活?！氨热缭卺t(yī)學(xué)影像診斷領(lǐng)域，SAM可能會(huì)催生出精度更高的醫(yī)學(xué)影像模型，提升醫(yī)療水平；在拍照過(guò)程中，SAM的加入或?qū)?shí)現(xiàn)更快更智能的人臉識(shí)別?！?/p>

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3638

瀏覽量
134426
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47183

瀏覽量
238256
圖像分割

圖像分割

+關(guān)注

關(guān)注
4

文章
182

瀏覽量
17995
SAM

SAM

+關(guān)注

關(guān)注
0

文章
112

瀏覽量
33519

原文標(biāo)題：CV不存在了？SAM分割模型是什么？

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺(jué)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

如何在SAM時(shí)代下打造高效的高性能計(jì)算大模型訓(xùn)練平臺(tái)

Segment Anything Model (SAM)是Meta 公司最近推出的一個(gè)創(chuàng)新AI 模型，專門(mén)用于計(jì)算機(jī)視覺(jué)領(lǐng)域圖像分割任務(wù)。借鑒ChatGPT 的學(xué)習(xí)范式，將預(yù)訓(xùn)練和特定任務(wù)結(jié)合

發(fā)表于 08-21 04:02 ?2203次閱讀

如何在<b class='flag-5'>SAM</b>時(shí)代下打造高效的高性能計(jì)算大<b class='flag-5'>模型</b>訓(xùn)練平臺(tái)

【愛(ài)芯派 Pro 開(kāi)發(fā)板試用體驗(yàn)】+ 圖像分割和填充的Demo測(cè)試

框架SAM 這個(gè)例子使用了Meta AI發(fā)布的圖像識(shí)別和分割框架SAM（Segment Anything，分割一切對(duì)象模型）。自SA項(xiàng)目自2

發(fā)表于 12-26 11:22

基于多級(jí)混合模型的圖像分割方法

本文研究了典型的基于區(qū)域的圖像分割方法主動(dòng)形狀模型（Active Shape Model, ASM）和基于邊緣的圖像分割snake 算法，分析了算法適用條件和各自的優(yōu)缺點(diǎn)。結(jié)合snake 模型

發(fā)表于 07-08 09:58 ?20次下載

SAM-Adapter：首次讓SAM在下游任務(wù)適應(yīng)調(diào)優(yōu)！

在這些基礎(chǔ)模型中，Segment Anything Model（SAM）作為一個(gè)在大型視覺(jué)語(yǔ)料庫(kù)上訓(xùn)練的通用圖像分割模型取得了顯著的突破。事實(shí)證明，

發(fā)表于 04-20 10:13 ?1599次閱讀

近期分割大模型發(fā)展情況

SAM（Segment Anything Model）Meta 的 FAIR 實(shí)驗(yàn)室發(fā)布的一種最先進(jìn)的圖像分割模型，該模型將自然語(yǔ)言處理領(lǐng)域的prompt范式引入計(jì)算機(jī)視覺(jué)領(lǐng)域，可以通

發(fā)表于 05-22 16:26 ?870次閱讀

第一篇綜述！分割一切模型(SAM)的全面調(diào)研

SAM 是一個(gè)提示型模型，其在 1100 萬(wàn)張圖像上訓(xùn)練了超過(guò) 10 億個(gè)掩碼，實(shí)現(xiàn)了強(qiáng)大的零樣本泛化。許多研究人員認(rèn)為「這是 CV 的 GPT-3 時(shí)刻，因?yàn)?SAM 已經(jīng)學(xué)會(huì)了物體是什么的一般

發(fā)表于 05-24 14:36 ?1003次閱讀

SAM 到底是什么

的有這么強(qiáng)大嗎？讓我們一起通過(guò)本文了解詳情！ SAM 是一個(gè)由 Meta AI 實(shí)驗(yàn)室推出的強(qiáng)大人工智能圖像分割應(yīng)用，可以自動(dòng)識(shí)別哪些圖像像素屬于一個(gè)對(duì)象，并且對(duì)圖像中各個(gè)對(duì)象進(jìn)行自動(dòng)風(fēng)格處理，可廣泛用于分析科學(xué)圖像、編輯照片等。 SA

發(fā)表于 06-12 10:46 ?4904次閱讀

YOLOv8最新版本支持SAM分割一切

分割任何模型（Segment Anything Model - SAM）是一種突破性的圖像分割模型，可實(shí)現(xiàn)具有實(shí)時(shí)性能的快速

發(fā)表于 06-18 11:42 ?1607次閱讀

中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！

通過(guò)將分割?切任務(wù)重新劃分為全實(shí)例分割和提?指導(dǎo)選擇兩個(gè)?任務(wù)，?帶實(shí)例分割分?的常規(guī) CNN 檢測(cè)器以?出50倍的運(yùn)?速度實(shí)現(xiàn)了與SAM?法相當(dāng)?shù)男阅?，?個(gè)實(shí)時(shí)

發(fā)表于 06-28 14:33 ?1683次閱讀

基于SAM設(shè)計(jì)的自動(dòng)化遙感圖像實(shí)例分割方法

RSPrompter的目標(biāo)是學(xué)習(xí)如何為SAM生成prompt輸入，使其能夠自動(dòng)獲取語(yǔ)義實(shí)例級(jí)掩碼。相比之下，原始的SAM需要額外手動(dòng)制作prompt，并且是一種類別無(wú)關(guān)的分割方法。

發(fā)表于 07-04 10:45 ?934次閱讀

基于 Transformer 的分割與檢測(cè)方法

來(lái)源：機(jī)器之心 SAM （Segment Anything ）作為一個(gè)視覺(jué)的分割基礎(chǔ)模型，在短短的 3 個(gè)月時(shí)間吸引了很多研究者的關(guān)注和跟進(jìn)。如果你想系統(tǒng)地了解 SAM 背后的技術(shù)，并

發(fā)表于 07-05 10:18 ?979次閱讀

基于SAM實(shí)現(xiàn)自動(dòng)分割遙感圖像實(shí)例

本篇文章為大家介紹RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model （基于視覺(jué)基礎(chǔ)模型的遙感實(shí)例分割提示學(xué)習(xí)），

發(fā)表于 07-06 09:08 ?1834次閱讀

ICCV 2023 | 超越SAM！EntitySeg：更少的數(shù)據(jù)，更高的分割質(zhì)量

，需要在不同的圖像領(lǐng)域、新的物體類別以及各種圖像分辨率和質(zhì)量下都能夠保持魯棒性。為了解決這個(gè)問(wèn)題，早在 SAM[6] 模型一年之前，一種不考慮類別的實(shí)體分割任務(wù) [1] 被提出，作為評(píng)估模型

發(fā)表于 10-02 10:40 ?813次閱讀

一種新的分割模型Stable-SAM

SAM、HQ-SAM、Stable-SAM在提供次優(yōu)提示時(shí)的性能比較，Stable-SAM明顯優(yōu)于其他算法。這里也推薦工坊推出的新課程《如何將深度學(xué)習(xí)

發(fā)表于 12-29 14:35 ?665次閱讀

圖像分割與語(yǔ)義分割中的CNN模型綜述

圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在圖像分割與語(yǔ)義

發(fā)表于 07-09 11:51 ?828次閱讀