中国老人xxbb,网站在线播放,亚洲图区综合网

正在流行的視覺AI大模型SAM究竟是一種什么樣的技術，會形成什么樣的產業影響？經濟觀察報就此采訪三位IEEE（電氣電子工程師學會）專家，解讀了視覺大模型SAM技術、應用路線以及對原有產業的影響。

今年4月，Meta公布了一款名為SAM（Segment Anything Model）的技術，這是一款用于圖像分割的AI大模型，會對圖像進行觀察、感知、思考、邏輯推理、得出結果，且操作極其簡單，類似于ChatGPT用人類語言對話的方式給機器下命令。

IEEE高級會員、天津理工大學教授、AR/VR技術專家羅訓對記者表示，SAM是視覺領域的通用大模型，很多報道中把它比喻成視覺領域的ChatG－PT，SAM和ChatGPT的支撐技術和應用場景都是不同的，但是在通用性這一點上，它們都是當前技術發展趨勢的代表者。

“SAM技術、應用路線和顛覆性

作為AI的一個重要分支，機器視覺的目標是讓計算機模仿人類視覺系統，實現圖像和視頻的理解和處理。

IEEE數字化轉型聯合會策略與架構主席汪齊齊對記者表示，高效準確的圖像分割結果，對于日常生活和商業場景，甚至科研領域都具有重大意義。正因為如此，其在計算機視覺領域一直是個重要的課題。SAM的圖像分割功能，是機器視覺的核心任務之一。過去，機器視覺分割圖像的過程需要大量圖像標注、堆疊算法，消耗大量算力。如今，SAM更容易地實現了機器視覺的目標。

Meta將SAM大模型和背后數據集一并開源，相關的研究手稿也于今年4月5日發布在arXiv上（用于學術交流的預印本平臺），作者有Alexander Kirillov，Eric Mintun等12人。

此后，SAM在開源社區Github上獲得大量關注，一些華人學者又照此原理提出了相關的大模型GroundingDI－NO，用于物體檢測，不久GitHub上有人再創新，將GroundingDINO和SAM結合，達到了對圖像識別、檢測、分割的效果。

汪齊齊表示，該模型在準確程度、效率上，達到了驚人的提升。尤其是SAM開源的SA-1B數據庫，用巨量的圖像以及更加巨量的Mask（這里譯為圖層遮罩），將有助于許多科研項目和商業化項目在高起點上快速更新迭代，產生更好的模型和更優化的數據。

Meta從AR、VR、內容創建等領域，介紹了SAM的應用場景。中國的專家看到了更廣泛的應用場景。

羅訓對記者表示，鑒于計算機視覺的廣泛應用場景，SAM的發布對產業的影響也會是巨大的，會賦能更多的長尾創新者進入產業，并進一步豐富應用場景和商業模式。

汪齊齊表示，早前人工智能技術就能實現回答用戶問題的功能，而Chat－GPT第一次讓很多人產生了“生成的回復可以在接受的比例下用于日常、商用和科研”，并因此達到了在這個垂直領域前所未有的高度。目前SAM的分割結果，以及其公開的大量供公眾使用的資源來看，SAM在其擅長的垂直領域也達到了相當可觀的高度，并會從技術、數據以及對于這個領域的關注度等多方面幫助計算機視覺在短時間內產生大量突破，而計算機視覺，是一個非常重要的“廣義AI生態”中的基礎設施，該方面的突破將實現對數字化世界的理解和升級，帶來質變的效率和價值提升。

IEEE會士、河海大學信息科學與工程學院院長韓光潔對記者表示，SAM將會在自動駕駛、安防控制、醫學影像處理等應用領域改變業態布局，甚至引發技術革命。SAM作為一個基礎模型，可為這些應用領域快速孵化出適用性更強的專用網絡模型。

SAM的變革性可能會顛覆一批原有的AI技術優勢。汪齊齊表示，視覺大模型會在相當多的領域抵消技術壁壘，這在任何一次產業技術升級中都多次出現，也是無法避免的。

羅訓表示，通用大模型就相當于AI的能力開放平臺，之前頭部企業的AI能力優勢，會因為通用大模型的興起而被一定程度削弱。但是這些企業是否本身會變弱，取決于它們的轉型。

羅訓舉例稱，回顧移動計算在本世紀前十年的變化，iOS和安卓的能力開放平臺在賦能長尾創新者方面起到了非常重要的作用，極大增加了移動計算產業規模。在移動計算領域，WindowsMobile和塞班的封閉平臺最終因為缺乏競爭力而退出了市場。

汪齊齊表示，作為有核心技術儲備和深入理解的企業，首先是需要擁抱大模型，尤其是應該感謝相對公開的大模型，將自己對于產業的理解和領先部分，在大模型的加持下快速升級，演化出更新的形態。同時，計算機視覺領域也一定會有大模型目前還不擅長的領域，仍然可以作為技術壁壘，并在這些方面繼續深挖獨有優勢。

“AIGC帶來知識和技術的平權？

此前有科技企業表示，AIGC的本質是技術平權和知識平權，這在很大程度上將大廠與小廠拉到了同一起跑線上。

羅訓就該觀點對記者表示，技術和知識平權的說法并不是很準確，因為之前并沒有系統性的歧視。AIGC帶來的是“易得”，本質上是市場規模急劇擴大后的成本降低。AIGC會促進整個社會對算力和計算模式使用的轉型升級，大規模提高AI使用者的生產效率，同時利好AI軟硬件設施生態企業。過程中，巨頭和大廠是技術進步的先期投入者，它們在其周期內獲取回報也是合理的，因為它們付出了更高的成本，也承擔了更大的風險。

汪齊齊認為，AIGC確實帶來了一定的技術平權，但技術本身是有一個價值屬性的。例如，曾經做網頁可以帶來不菲的收入，隨著工具升級和模板的完善，一個漂亮網頁制作難度數量級地下降，但是他帶來的價值也產生數量級地下降。

同樣，AIGC將一個需要大量技術和知識儲備才能產生優質內容的時代，帶入輕易產生的優質內容的時代，這會讓原有定義的“優質內容”的平均價值急速下降。

汪齊齊表示，AIGC是否帶來了知識平權仍然有待商榷。長期來看，AIGC可能會使人們更容易獲取到真實有用的知識。但是今天，人們還處于“技術帶來了前所未有的體量的知識，也同時讓篩選這些知識的可用度達到了前所未有的高成本”。

汪齊齊表示，盡管AIGC可以產生大量的知識和內容，但其準確性和可信度是個挑戰，相當部分AIGC是基于老的訓練數據，“一本正經供應錯誤知識”的案例已經有很多。目前在大量、無法辨別真偽的數據和內容的情況下，是否真正達到了知識平權，是要打問號的。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

SAM

SAM

+關注

關注
0

文章
112

瀏覽量
33546
ChatGPT

ChatGPT

+關注

關注
29

文章
1564

瀏覽量
7823
AIGC

AIGC

+關注

關注
1

文章
363

瀏覽量
1562
大模型

大模型

+關注

關注
2

文章
2491

瀏覽量
2871

原文標題：對話三位IEEE專家：如何理解SAM視覺大模型

文章出處：【微信號：IEEE_China，微信公眾號：IEEE電氣電子工程師】歡迎添加關注！文章轉載請注明出處。

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

訓練模型如BERT、GPT等。這些模型在理解自然語言、生成文本、處理對話等方面具有不同的能力。因此，在選擇模型時，需要了解每個

發表于 12-17 16:53

NaVILA：加州大學與英偉達聯合發布新型視覺語言模型

(VLM)是一種具備多模態生成能力的先進AI模型。它能夠智能地處理文本、圖像以及視頻等多種提示，并通過復雜的推理過程，實現對這些信息的準確理解和應用。NaVILA正是基于這一原理，通過將大型語言模型(LLM)與

發表于 12-13 10:51 ?294次閱讀

ADS1284數據采集時，只要24位數據，是取高三位還是低三位？

ADS1284數據采集時，只要24位數據，是取高三位還是低三位？高位是MSB，低位是LSB。

發表于 11-29 08:21

NVIDIA榮登《財富》“100家最適合工作的公司”榜單第三位

NVIDIA 在《財富》雜志和卓越職場（Great Place to Work）最新評選出的“100 家最適合工作的公司”榜單上躍居第三位。

發表于 10-10 09:27 ?385次閱讀

英偉達推出Eagle系列模型

英偉達最新推出的Eagle系列模型，以其1024×1024像素的高分辨率處理能力，重新定義了視覺信息處理的邊界。該模型通過多專家視覺編碼器架

發表于 09-03 16:13 ?480次閱讀

計算機視覺技術的AI算法模型

計算機視覺技術作為人工智能領域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現這一目標，計算機視覺技術依賴于多種先進的AI算法模型。以下將詳細介紹幾種常

發表于 07-24 12:46 ?947次閱讀

三位半和四位半萬用表的區別

三位半和四位半萬用表是電子測量領域中常用的兩種數字萬用表，它們在測量精度、顯示方式、應用范圍等方面存在一定的差異。本文將從多個方面詳細分析這兩種萬用表的區別。一、基本概念三位半萬用表三位

發表于 07-14 14:23 ?6005次閱讀

極化繼電器的三位置式的特點是什么

極化繼電器是一種特殊類型的繼電器，它具有三個位置：正常位置、極化位置和反極化位置。這種繼電器廣泛應用于電力系統、自動化控制、通信設備等領域。本文將詳細介紹極化繼電器的三位置式的特點，包括其工作原理

發表于 06-24 09:34 ?535次閱讀

聆思CSK6視覺語音大模型AI開發板入門資源合集（硬件資料、大模型語音/多模態交互/英語評測SDK合集）

+ 文生圖 + 設備控制該示例展示了如何通過大模型實現語音輸入意圖的理解，實現對話、繪圖和控制開發板屏幕顏色進行切換，用戶可參考代碼與教程自行修改。 4接入自定義應用講解如何在云端快速建立一個

發表于 06-18 17:33

大語言模型(LLM)快速理解

自2022年，ChatGPT發布之后，大語言模型（LargeLanguageModel），簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始，先來整體理解一下大語言模型。一、發展歷史大

發表于 06-04 08:27 ?1015次閱讀

【大語言模型：原理與工程實踐】大語言模型的評測

和產品化提供了有力的數據支持。對于生活閑聊類評測任務，模型的回答主要從人性化程度、內容質量和社交適應性三個方面進行考察。這些方面共同反映了模型在日常對話中的自然度、流暢度和應變能力

發表于 05-07 17:12

蘋果與谷歌探索iOS/iPadOS引入Gemini模型

確認Apple與Google確已開啟會談，下一代iPhone或將搭載Gemini的生成式AI模型。三位知情人士表示，如今的談判尚屬初級階段，潛在交易的具體細節暫未確定。

發表于 03-20 10:38 ?515次閱讀

AI企業Figure發布人形機器人01，具備與人對話能力，能理解情境

這款機器人的獨特之處是使用OpenAI的大型語言模型進行正常且完整的雙向對話，由于它能夠接受多模態輸入，從而擁有更高層次的視覺和語言智能。Figure神經網絡則能提供快速、精細、靈活的機器人動作表現。

發表于 03-14 10:40 ?758次閱讀

常見的視覺編碼器有哪些　圖像編碼和視覺編碼的區別

視覺編碼器是一種能夠處理視頻理解任務的模型，它能夠通過單一凍結模型，處理各種視頻理解任務，包括分類、本地化、檢索、字幕和問答等。

發表于 02-26 14:24 ?2241次閱讀

三位三通電磁閥基本結構及工作原理

三位三通電磁閥是一種常用的控制執行元件，廣泛應用于各種自動化領域。它們通常用于控制液壓、氣動系統中的液體和氣體的流動，并實現各種不同的控制功能。本文將詳細介紹三位三通電磁閥的基本結構和

發表于 01-24 11:00 ?5666次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

對話三位IEEE專家：如何理解SAM視覺大模型

評論

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

NaVILA：加州大學與英偉達聯合發布新型視覺語言模型

ADS1284數據采集時，只要24位數據，是取高三位還是低三位？

NVIDIA榮登《財富》“100家最適合工作的公司”榜單第三位

英偉達推出Eagle系列模型

計算機視覺技術的AI算法模型

三位半和四位半萬用表的區別

極化繼電器的三位置式的特點是什么

聆思CSK6視覺語音大模型AI開發板入門資源合集（硬件資料、大模型語音/多模態交互/英語評測SDK合集）

大語言模型(LLM)快速理解

【大語言模型：原理與工程實踐】大語言模型的評測

蘋果與谷歌探索iOS/iPadOS引入Gemini模型

AI企業Figure發布人形機器人01，具備與人對話能力，能理解情境

常見的視覺編碼器有哪些　圖像編碼和視覺編碼的區別

三位三通電磁閥基本結構及工作原理