色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT-4V在異常檢測上有多少強?華科大等最新測評來了!

CVer ? 來源:機器之心 ? 2023-11-13 16:25 ? 次閱讀

異常檢測任務旨在識別明顯偏離正常數據分布的異常值,在工業檢驗、醫學診斷、視頻監控和欺詐檢測等多個領域都發揮了重要作用。傳統的異常檢測方法主要依賴于描述正常數據分布以進行正異常樣本的區分。然而,對于實際的應用而言,異常檢測也需要理解數據的高層語義,從而深入理解 “什么是異常”。

要實現更準確且智能的異常檢測,我們需要關注以下關鍵步驟:

1. 理解多樣數據類型和類別

不同領域的數據集包含各種數據類型和類別,如圖像、視頻、點云、時間序列等。每種數據類型可能需要不同的異常檢測方法,每個物體類別可能對應不同的正常標準,因此深入理解數據的多樣性至關重要。

2. 確定正常狀態標準

一旦理解了數據的類型和類別,我們需要推斷正常狀態的標準。這需要高級數據語義信息的理解,以確保我們能夠正確識別正常數據的特征和模式。

3. 評估數據的符合度

最后,我們需要評估提供的數據是否符合已建立的正常數據分布。任何偏離這些數據分布的情況都可以被歸類為異常。

最近,大型多模態模型(LMM)迅猛發展,其中 OpenAI 最近推出的 GPT-4V (ision) 表現最為出色,具有強大的多模態感知能力,在場景理解,圖片生成等多個任務中都取得了良好表現。我們認為,LMM 的出現為通用異常檢測的研究提供了新的范式和新的機會。

為了評估 GPT-4V 在通用異常檢測中的性能,來自華中科技大學、密歇根大學和多倫多大學的研究者聯合進行了一項研究,在涉及 4 個數據模態,9 個異常檢測任務的 15 個異常檢測數據集上對 GPT-4V 進行了全面的測試。具體而言,測試的數據集包括圖像、點云、視頻、時序等模態,并涵蓋了工業圖像異常檢測 / 定位,醫療圖像異常檢測 / 定位,點云異常檢測,邏輯異常檢測,行人異常檢測,交通異常檢測,時序異常檢測等 9 個異常檢測任務。

bfec7a86-81ef-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/pdf/2311.02782.pdf

項目地址:https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

c00701b2-81ef-11ee-939d-92fbcf53809c.png

觀察與分析

本文在多種模態和領域的異常檢測數據集上對 GPT4V 的性能進行了測試。我們認為,GPT4V 已經初步具備了多模態的通用異常檢測能力。具體而言,GPT-4V 不僅能夠有效理解多樣數據類型和類別,而且可以建模正常數據的空間分布,并評估測試數據的分布情況。

除此以外,GPT-4V 在異常檢測任務中還具有以下特點:

GPT-4V 能夠在零 / 單樣本下處理多模態、多領域的異常檢測任務

多模態異常檢測:GPT-4V 可有效處理多種模態數據的異常檢測任務。例如,它在識別圖像、點云、MRI、X-ray 等數據模態上均表現出了不俗的異常檢測能力。多模態異常檢測能力使 GPT-4V 能夠突破傳統單模態異常檢測器的限制,完成現實世界的復雜異常檢測任務。

多領域異常檢測:GPT-4V 在工業、醫療、行人、交通和時間序列異常檢測等多個領域表現優異。

零 / 單樣本下的異常檢測:GPT-4V 在零樣本及單樣本(即提供了一張正常的參考圖片)任務中均表現不俗。在沒有參考圖像的情況下,GPT-4V 可以有效地使用語言提示信息來檢測異常。當提供正常參考圖像時,GPT-4V 能夠更好的對齊文本格式的正常標準與正常的圖像內容,其異常檢測準確性進一步提高。

GPT-4V 可以理解異常檢測任務所需的全局和細粒度語義

全局語義理解能力:GPT-4V 對全局語義的理解能力表現在它能夠識別整體的異常模式或行為。例如,在交通異常檢測中,它可以分辨正常的交通流和不規則事件之間的區別,并且提供了關于異常檢出的詳細解釋。這種全局理解使其非常適合在開放世界中識別偏離正常分布的異常點。

細粒度語義理解能力:GPT-4V 對細粒度語義的理解能力在一些情況下表現出色,使得它不僅能夠檢測異常,還能夠精確地在復雜數據中定位異常。例如,在工業圖像異常檢測中,它可以準確定位細節,如傾斜的蠟燭燭芯、瓶口周圍的輕微劃痕。這種細粒度理解增強了它在復雜數據中檢測微小異常的能力,從而提高了其整體檢測。

GPT-4V 具備自動推理異常檢測的能力

GPT-4V 能夠根據復雜的正常標準自動推理、拆分子任務。例如,在邏輯異常檢測中,GPT-4V 能夠理解所給的正常圖像標準,并拆分為子任務,依次檢驗圖像內容是否滿足指定內容。這種內在的推理能力增強了其異常檢測結果的可解釋性,使其成為理解和解決通用異常檢測的有效工具。

GPT-4V 可以通過增加提示進一步增強異常檢測能力

評估結果顯示,提供更多文本和圖像信息對 GPT-4V 的異常檢測性能有積極影響。通過增加類別信息、人類專業知識、參考圖像,模型獲得了更多的上下文信息,異常檢測性能也得到顯著提升。該特點允許用戶通過提供相關的補充信息來微調和增強模型的性能。

GPT-4V 在實際應用中可能受到限制,但仍具有潛力

本報告發現 GPT-4V 在實際應用中仍面臨一些挑戰。例如,GPT-4V 可能在處理工業應用中的復雜場景時面臨困難,導致其出現錯誤檢測。醫療領域的倫理約束也使其在判斷腫瘤等異常情況時趨于保守。但我們相信它在各種異常檢測任務中仍然具有潛力。為了有效解決這些挑戰,可能需要進一步增強、專門的精細調整或補充技術。總結而言,GPT-4V 在通用異常檢測中具有明顯潛力,有望開啟異常檢測任務的高層次感知時代。

應用場景展示

工業圖像異常檢測

工業圖像異常檢測旨在維護產品質量,是制造過程的重要環節。近年來,許多方法在此領域蓬勃發展,其中一些方法著眼于開發適用于任意產品類別的統一模型。本研究探討了 GPT-4V 在工業圖像異常檢測中的應用,包括對不同類型的信息進行測試,以及展示其性能和局限性。

我們從工業圖像中選擇了幾個示例,如瓶子和蠟燭的圖像。即使只提供簡單的語言提示,GPT-4V 能夠有效地識別這些圖像中的異常,展示了其能力和多樣性。此外,GPT-4V 不僅能夠檢測期望的異常,還能夠識別微觀結構異常。在復雜情況下,如電路板中的異常檢測,GPT-4V 能夠識別圖像中的細節,但也存在一定的局限性。總的來說,GPT-4V 在圖像上下文理解和類別特定異常理解方面表現出色。

c031e198-81ef-11ee-939d-92fbcf53809c.png

c05db1f6-81ef-11ee-939d-92fbcf53809c.png

工業圖像異常定位

與工業圖像異常檢測不同,工業圖像異常定位旨在精確識別異常的位置。為了實現這一目標,我們采用了與 SoM(Set-of-mark)類似的方法,使用圖像 - 掩模對來提示 GPT-4V。我們研究了 GPT-4V 在不同場景下的表現,展示了其在細粒度異常定位方面的能力和局限性。

我們展示了 GPT-4V 在工業圖像異常定位中的性能,包括定位彎曲的電線、堅果上的空洞以及識別電路板異常。GPT-4V 在一些情況下能夠準確識別異常位置,例如能夠有效定位堅果中的空洞,并且由于結合了視覺提示技術,GPT-4V 將異常定位問題轉化為了對掩膜的分類問題,有效降低了問題復雜度,且提升了定位精度。因此,結合視覺提示技術和 GPT-4V 可有效解決工業圖像異常定位問題。

c0905b38-81ef-11ee-939d-92fbcf53809c.png

點云異常檢測

點云異常檢測在工業領域具有重要作用。CPMF 提出了一種新方法,將點云轉化為深度圖像,以利用圖像基礎模型來提高點云異常檢測的性能。我們借助 CPMF,將點云轉為深度圖像,從而使得 GPT-4V 可處理點云異常檢測任務。

我們展示了 GPT-4V 在點云異常檢測中的性能,包括識別袋圈中的小突起、檢測繩子上的異常以及查找工件中的異常。GPT-4V 能夠有效地識別這些異常,但在某些情況下也存在局限性,特別是在渲染質量較低的情況下。總的來說,GPT-4V 在點云異常檢測中表現出了潛力。

c0c3a0d8-81ef-11ee-939d-92fbcf53809c.png

c0f0c914-81ef-11ee-939d-92fbcf53809c.png

邏輯異常檢測

邏輯異常檢測任務由 MVTec LOCO 數據集提出。該任務通常出現在裝配過程中,需要識別各個組件是否正確組合。現有的邏輯異常檢測方法通常依賴于視覺全局 - 局部對應關系,但本質上并沒有真正理解圖像內容。我們研究了 GPT-4V 在邏輯異常檢測中的應用,探討了其對圖像內容的理解能力。

我們展示了 GPT-4V 在邏輯異常檢測中的性能,包括識別復雜的邏輯規則、檢測邏輯異常并提供詳細的解釋。盡管 GPT-4V 在大多數情況下能夠準確識別邏輯異常,但在某些復雜情況下存在一定的局限性,尤其是對于細節問題。不過,結合多輪對話和特定語言提示有望顯著改善 GPT-4V 在這些情況下的性能。

c11ebae0-81ef-11ee-939d-92fbcf53809c.png

醫學圖像異常檢測

醫學圖像異常檢測是醫學影像領域的關鍵任務,旨在識別不符合預期數據分布的異常值。我們研究了 GPT-4V 在醫學圖像異常檢測中的應用,包括不同疾病和成像模式的醫學圖像。我們測試了 GPT-4V 的泛化能力,揭示了其在醫學圖像異常檢測中的性能和局限性。

我們展示了 GPT-4V 在醫學圖像異常檢測中的性能,包括識別不同疾病和成像模式的異常圖像。即使只提供簡單的語言提示,GPT-4V 能夠有效地識別異常,并提供詳細的解釋。此外,引入更多信息,如疾病信息和專業知識,可以進一步提高 GPT-4V 的性能。然而,GPT-4V 在某些情況下可能會產生錯誤的異常檢測,因此仍需要醫生的最終判斷。

c14f9ca0-81ef-11ee-939d-92fbcf53809c.png

c1792f98-81ef-11ee-939d-92fbcf53809c.png

醫學圖像異常定位

在檢測到醫學異常后,需要進一步精確定位醫學圖像中存在的異常,例如病灶等。對醫學圖像異常的準確的定位可有效幫助臨床醫生理解病理的程度和性質。然而,在現實世界的醫學圖像異常定位任務中使用 GPT-4V 直接預測異常掩膜十分困難。受到 SoM 的啟發,我們希望測試 GPT-4V 模型在視覺提示下的異常定位能力。

結合 SoM,我們標定了醫療圖像中可能存在的異常位置。在圖像中的視覺提示指導下,GPT-4V 傾向于學習和描述標記周圍的區域。對于容易識別和定位的案例,GPT-4V 可以清楚地區分異常區域和背景。但在一個人工合成異常的案例中,由于感興趣區域與背景具有相似的紋理和形狀,GPT4V 的判斷出現了偏差。這表明該模型在對抗攻擊和復雜背景下仍需要增強其檢測和定位能力。

c19e6cea-81ef-11ee-939d-92fbcf53809c.png

交通檢測

交通檢測是城市交通管理和自動駕駛領域的關鍵任務,它旨在監測交通情況,檢測交通違規行為和危險情況。我們研究了 GPT-4V 在交通檢測中的應用,包括車輛識別、交通標志識別和交通違規檢測。我們測試了 GPT-4V 在不同場景下的性能,展示了其潛力和局限性。

我們展示了 GPT-4V 在交通檢測中的性能,包括識別不同類型的車輛、檢測各種交通標志和識別交通違規行為。GPT-4V 能夠有效地處理這些任務,尤其是在規范場景下。然而,在復雜交通環境中,性能可能會下降,因為它需要理解并解釋復雜的情境。

c1c04f68-81ef-11ee-939d-92fbcf53809c.png

行人檢測

行人檢測是自動駕駛、安全監控和智能城市等領域的關鍵任務,它旨在識別圖像或視頻中的行人。我們研究了 GPT-4V 在行人檢測中的應用,測試了其對行人的識別能力和性能。

我們展示了 GPT-4V 在行人檢測中的性能,包括檢測行人在不同背景下的能力。GPT-4V 通常能夠識別行人,但在復雜背景下可能會出現錯誤。與專門的行人檢測模型相比,性能可能相對較差,但它的優勢在于它能夠提供更多的語言解釋。

c1f6324a-81ef-11ee-939d-92fbcf53809c.png

時序檢測

時序檢測是一種涉及到時間序列數據的異常檢測任務,例如傳感器數據、金融時間序列等。我們研究了 GPT-4V 在時序檢測中的應用,測試了其在分析和檢測時間序列異常方面的能力。

我們展示了 GPT-4V 在時序檢測中的性能,包括檢測傳感器數據中的異常、金融交易數據中的異常等。GPT-4V 在分析時間序列數據方面表現出色,能夠識別不同類型的異常情況。然而,需要注意的是,時序檢測通常需要更多的領域專業知識,而 GPT-4V 在這些情況下可能需要結合專家的建議。

c224a99a-81ef-11ee-939d-92fbcf53809c.png

結論

GPT-4V 在工業圖像異常檢測、工業圖像異常定位、點云異常檢測、邏輯異常檢測、醫學圖像異常檢測、交通檢測、行人檢測和時序檢測等領域都展示出了出色的潛力。它能夠理解多模態數據,對圖像內容進行有效理解,并在很多情況下都能準確檢測并解釋異常。然而,在復雜場景中,GPT-4V 的異常檢測能力仍然存在一定的局限性。綜合來看,GPT-4V 為通用異常檢測提供了全新的研究范式,但其實際應用仍需要進一步的研究和改進。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24777
  • GPT
    GPT
    +關注

    關注

    0

    文章

    357

    瀏覽量

    15461
  • OpenAI
    +關注

    關注

    9

    文章

    1116

    瀏覽量

    6625

原文標題:GPT-4V在異常檢測上有多少強?華科大等最新測評來了!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何在邊緣端獲得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    本 OpenCompass 榜單上(綜合 8 個主流多模態評測基準)平均得分 65.2,以8B量級的大小單圖理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Cl
    的頭像 發表于 01-20 13:40 ?76次閱讀
    如何在邊緣端獲得<b class='flag-5'>GPT4-V</b>的能力:算力魔方+MiniCPM-<b class='flag-5'>V</b> 2.6

    【RA-Eco-RA4E2-64PIN-V1.0開發板試用】+初次見面+MDK生成代碼+點燈

    開發板的軟硬件情況,完成軟硬件開發環境的搭建,完成點燈試驗。后續會依次完成舵機PWM控制、CAN通訊測評測評申請鏈接:RA-Eco-RA4E2-64PIN-V1.0開發板評測試
    發表于 12-15 21:55

    科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    10月24日,科大訊飛全球1024開發者節上,科大訊飛董事長劉慶峰正式發布了訊飛星火大模型的最新版本——訊飛星火4.0 Turbo。   據劉慶峰介紹,訊飛星火4.0 Turbo七大能力全面
    的頭像 發表于 10-24 11:39 ?522次閱讀

    云知聲山海多模態大模型UniGPT-mMed登頂MMMU測評榜首

    近日,多模態人工智能模型基準評測集MMMU更新榜單,云知聲山海多模態大模型UniGPT-mMed以通用能力、醫療專業能力雙雙排名第一的優異成績登頂榜首,力壓GPT-4V,充分彰顯其硬核實力。
    的頭像 發表于 10-12 14:09 ?318次閱讀
    云知聲山海多模態大模型UniGPT-mMed登頂MMMU<b class='flag-5'>測評</b>榜首

    OpenAI提前解鎖GPT-4o語音模式,引領對話新紀元

    OpenAI近日宣布了一項令人振奮的消息:即日起,部分ChatGPT Plus用戶將率先體驗到GPT-4o的語音模式,這一創新功能標志著自然語言處理與人工智能交互技術邁出了重要一步。GPT-4o的高級語音模式以其卓越的實時對話能力和對用戶情緒的細膩感知,為用戶帶
    的頭像 發表于 08-01 18:24 ?1250次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該模型MMLU上得分為82%, LMSYS排行榜上的聊天偏好測試中表
    的頭像 發表于 07-21 10:20 ?1131次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    國內直聯使用ChatGPT 4.0 API Key使用和多模態GPT4o API調用開發教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的強大工具,可用于自然語言處理和多模態任務。國內直聯使用這些服務需要一些配置和技巧。本文將詳細介紹GPT-4o模型以及如何獲取
    的頭像 發表于 06-08 00:33 ?5434次閱讀
    國內直聯使用ChatGPT 4.0 API Key使用和多模態<b class='flag-5'>GPT4</b>o API調用開發教程!

    開發者如何調用OpenAI的GPT-4o API以及價格詳情指南

    ,高達每分鐘1000萬字符。 速度 :GPT-4o的速度是GPT-4 Turbo的兩倍。 視覺能力 :視覺能力相關的評估中,GPT-4o表現優于G
    的頭像 發表于 05-29 16:00 ?1.2w次閱讀
    開發者如何調用OpenAI的<b class='flag-5'>GPT-4</b>o API以及價格詳情指南

    TC367GPT中斷下驅動PWM輸出會導致定時器發生時延怎么解決?

    該指令的消耗時間為ns級別,遠遠小于3us: PWM使用的是GTM的ATOM生成并不使用PWM中斷,Timer使用GPT的T2/3/4,現象均相同。Timer中斷內生成PWM的操作是非法的嗎?還是二者模塊的子模塊
    發表于 05-28 07:24

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    當地時間5月13日OpenAI推出ChatGPT-4o,代表了人工智能向前邁出的一大步。GPT-4turbo的強大基礎上,這種迭代擁有顯著的改進。發布會的演示中,OpenAI展示
    發表于 05-27 15:43

    中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內最好成績

    日前,中文大模型測評基準SuperCLUE發布最新榜單,對商湯科技全新升級「日日新SenseNova 5.0」大模型進行了全方位綜合性測評,結果顯示SuperCLUE綜合基準上,日日新 5.0表現
    的頭像 發表于 05-21 14:45 ?812次閱讀
    中文大模型<b class='flag-5'>測評</b>基準SuperCLUE:商湯日日新5.0,刷新國內最好成績

    OpenAI推出面向所有用戶的AI模型GPT-4o

    周一的直播盛會上,OpenAI揭開了其最新的人工智能模型GPT-4o的神秘面紗。這款新模型旨在為其著名的聊天機器人ChatGPT提供更強大、更經濟的支持。GPT-4o是此前備受矚目的GPT-
    的頭像 發表于 05-15 09:23 ?433次閱讀

    OpenAI發布GPT-4o模型,供全體用戶免費使用

    OpenAI首席技術官穆里·穆拉蒂(Muri Murati)指出,GPT-4o具備與GPT-4相同的智能水平,且文本、圖像及語音處理方面有顯著進步。
    的頭像 發表于 05-14 11:17 ?543次閱讀

    科大訊飛星火大模型V4.0預計六月發布,逼近GPT-4水平

    博鰲2024年會上,科大訊飛副總裁、研究院院長劉聰透露,公司正在積極訓練對標GPT-4能力的訊飛星火大模型V4.0,并預計將于今年6月正式發布。
    的頭像 發表于 03-28 13:59 ?849次閱讀

    全球最強大模型易主:GPT-4被超越,Claude 3系列嶄露頭角

    近日,人工智能領域迎來了一場革命性的突破。Anthropic公司發布了全新的Claude 3系列模型,該系列模型多模態和語言能力關鍵指標上展現出卓越性能,成功超越了此前被廣泛認為是全球最強AI模型的
    的頭像 發表于 03-05 09:42 ?692次閱讀
    主站蜘蛛池模板: 真人女人无遮挡内谢免费视频% | 欧美精品专区第1页 | 好吊日视频在线 | 2019久久这里只精品热在线观看 | 精品久久伦理中文字幕 | 一进一出抽搐gif免费60秒 | 国产精品久久久久一区二区三区 | 一区三区不卡高清影视 | 无羞耻肉动漫在线观看 | 狠狠国产欧美在线视频 | 在线日本高清日本免费 | 毛片999| 色综合 亚洲 自拍 欧洲 | 黑人干亚洲人 | 俄罗斯乌克兰战争原因 | 人妖欧美一区二区三区四区 | 九九热综合 | 91视频18 | 国产乱码卡二卡三卡4W | 中国国产不卡视频在线观看 | 99久久蜜臀AV免费看蛮 | h版动漫在线播放的网站 | 亚洲地址一地址二地址三 | 国产精品久久久久久久久99热 | 视频一区国产在线二区 | 一本道无码字幕在线看 | 闺蜜撬开我的腿用黄瓜折磨我 | 国产极品白嫩超清在线观看 | 乳色吐息未增删樱花ED在线观看 | 色WWW永久免费视频首页 | 欧美一区二区三区不卡免费 | 国产在线精品视频二区 | 美女大BXXXXN内射 | 伊人情涩网 | 亚洲AV无码专区国产乱码网站 | 国产精品99久久久久久动态图 | 老师湿乎乎两半嫩 | 三级网址在线观看 | 国产99热在线观看 | 色综合伊人色综合网站中国 | 亚洲精品国产字幕久久vr |