亚洲国产成人资源在线桃色,在线播放亚洲精品,色午夜影院

【導讀】CVPR 2023有哪些亮點？從錄用論文中我們又能看到CV領域有哪些趨勢？

一年一度的CVPR即將在6月18-22日加拿大溫哥華正式開幕。

每年，來自世界各地的成千上萬的CV研究人員和工程師聚集在一起參加頂會。這個久負盛名的會議可以追溯到1983年，它代表了計算機視覺發展的巔峰。

目前，CVPR的h5指數所有會議或出版物中位列第四，僅次于《自然》、《科學》和《新英格蘭醫學雜志》。

前段時間，CVPR公布了論文接收結果。根據官網上統計數據，一共接受論文9155篇，錄用2359篇，接受率為25.8%。

此外，還公布了12篇獲獎候選論文。

那么，今年的CVPR有哪些亮點？從錄用論文中我們又能看到CV領域有哪些趨勢？

接下來一并揭曉。

CVPR一覽

初創公司Voxel51就所有被接收論文列表中進行了分析。

先來整體看一張論文標題的匯總圖，每個字的大小與數據集中出現的頻率成正比。

簡要說明

- 2359篇論文被接收（9155份論文提交)

- 1724篇Arxiv論文

- 68份文件提交到其他地址

每篇論文的作者

- CVPR論文的平均作者約為5.4人

- 論文當中作者最多的是: 「Why is the winner the best?」有125位作者

- 有13篇論文只有一個作者。

主要Arxiv分類

在1724篇Arxiv論文中，有1545篇，或者說接近90%的論文將cs.CV列為主要類別。

cs.LG位列第二，有101篇。eess.IV （26）和 cs.RO （16）也分得一杯羹。

CVPR 論文的其他類別包括: cs.HC，cs.CV，cs.AR，cs.DC，cs.NE，cs.SD，cs.CL，cs.IT，cs.CR，cs.AI，cs.MM，cs.GR，eess.SP，eess.AS，math.OC，math.NT，physics.data-an和stat.ML。

「Meta」數據

- 「數據集」和「模型」這2個詞共同出現在567篇摘要中。「數據集」在265篇論文摘要中單獨出現，而「模型」則單獨出現了613次。只有16.2%的 CVPR接收論文沒有包含這兩個詞。

- 根據CVPR論文摘要，今年最受歡迎的數據集是ImageNet（105），COCO（94），KITTI（55）和CIFAR（36）。

- 28篇論文提出了一個新的「基準」。

縮寫詞比比皆是

似乎沒有首字母縮略詞就沒有機器學習項目。2359篇論文中，1487篇的標題有多個大寫字母的縮略詞或復合詞，占比63%。

這些首字母縮略詞中有一些很容易記住，甚至可以脫口而出：

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

有些則要復雜得多：

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

他們中的一些人似乎在首字母縮略詞構建上借鑒了別人的創意：

- SCOTCH and SODA: A Transformer Video Shadow Detection Framework（荷蘭流行潮牌Scotch & Soda）

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration（Ex咖喱棒，笑）

什么最熱？

除了2023年的論文標題，我們抓取了2022年所有接受的論文標題。從這兩個列表中，我們計算了各種關鍵詞的相對頻率，從讓大家對什么是上升趨勢、什么是下降趨勢有更深入的了解。

模型

2023年，擴散模型（Diffusion models）占據了主導地位。

擴散模型

隨著Stable Diffusion和Midjourney等圖像生成模型的走紅，擴散模型發展的火熱趨勢也就不足為奇了。

擴散模型在去噪、圖像編輯和風格轉換方面也有應用。把所有這些加起來，到目前為止，它是所有類別中最大的贏家，比去年同期增長了573% 。

輻射場

神經輻射場（NERF）也越來越受歡迎，論文中使用單詞「radiance」增加了80% ，「NERF」增加了39% 。NeRF已經從概念驗證轉向編輯、應用和訓練過程優化。

Transformers

「Transformer」和「ViT」的使用率下降并不意味著Transformer模型過時，而是反映了這些模型在2022年的主導地位。2021年，「Transformer」這個詞只出現在37篇論文中。2022年，這個數字飆升至201。Transformer不會很快消失。

CNN

CNN曾經是計算機視覺的寵兒，到了2023年，似乎失去了它們的優勢，使用率下降了68%。許多提到 CNN 的標題也提到了其他模型。例如，這些論文提到了CNN和Transformer：

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- Learned Image Compression with Mixed Transformer-CNN Architectures

任務

掩碼任務和掩碼圖像建模相結合，在CVPR中占據了主導地位。

生成

傳統的判別任務，如檢測、分類和分割并沒有失寵，但是由于生成應用的一系列進步，它們在CV的份額正在縮小，包括「編輯」、「合成」以及「生成」的上升就證明這點。

掩碼

關鍵字「mask」比去年同期增長了263% ，在2023年被接收的論文中出現了92次，有時在一個標題中出現了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask

但大多數（64%）實際上指的是「掩碼」任務，包括8個「掩碼圖像建模」和15個「掩碼自動編碼器」任務。此外，還有8篇出現「掩碼」。

同樣值得注意的是，3篇帶有單詞「mask」的論文標題實際上指的是「無掩碼」任務。

零樣本vs小樣本

隨著遷移學習、生成方法、提示和通用模型的興起，「零樣本」學習正在獲得關注。與此同時，「小樣本」學習比去年有所下降。然而，就原始數字而言，至少目前而言，「小樣本」（45）比「零樣本」（35）略有優勢。

模態

2023年，多模態和跨模態應用加速發展。

邊界模糊

雖然傳統計算機視覺關鍵詞如「圖像」和「視頻」的頻率相對保持不變，但「文本」/「語言」和「音頻」出現的頻率更高。

即使「多模態」這個詞本身沒有在論文標題中出現，也很難否認計算機視覺正在走向多模態的未來。

這在視覺-語言任務中尤其明顯，正如「開放」、「提示」和「詞匯」的急劇上升所表明的那樣。

這種情況最極端的例子是「開放詞匯」這個復合詞，它在2022年只出現了3次，但在2023年出現了18次。

深入挖掘CVPR 2023論文標題中的關鍵詞

點云9

三維計算機視覺應用正在從以二維圖像推斷3D信息（「深度」和「立體」）轉向直接在3D點云數據上進行工作的計算機視覺系統。

CV標題的創造力

如果不將ChatGPT納入其中，2023年任何與機器學習相關的全面報道都是不完整的。我們決定讓事情變得有趣，并使用ChatGPT來尋找CVPR 2023中最有創意的標題。

對于每一篇上傳到Arxiv的論文，我們抓取了摘要，并要求 ChatGPT （GPT-3.5 API）為相應的CVPR論文生成一個標題。

然后，我們將這些由ChatGPT生成的標題和實際的論文標題，使用OpenAI的text-embedding-ada-002模型生成嵌入向量，并計算ChatGPT生成的標題和作者生成的標題之間的余弦相似度。

這可以告訴我們什么？ChatGPT越接近實際的論文標題，這個標題就越可預測。換句話說，ChatGPT的預測越「偏」，作者給論文命名的「創造性」就越強。

嵌入和余弦相似度為我們提供了一個有趣的，盡管遠非完美的，量化方法。

我們按照這個指標對論文進行了排序。話不多說，下面是最具創造性的標題:

實際的標題：Tracking Every Thing in the Wild

預測的標題：Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

實際的標題：Learning to Bootstrap for Combating Label Noise

預測的標題：Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

實際的標題：Seeing a Rose in Five Thousand Ways

預測的標題：Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

實際的標題：Why is the winner the best?

預測的標題：Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2021

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3254

瀏覽量
48878
計算機視覺

計算機視覺

+關注

關注
8

文章
1698

瀏覽量
46015
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24719

原文標題：CVPR 2023論文總結！CV最熱領域頒給多模態、擴散模型

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

中取得了令人矚目的效果。閱讀感悟從傳統的手動編程到借助大模型實現智能化、自主化，從單一模態的交互到多模態信息的深度融合，再到擴散

發表于 12-29 23:04

商湯日日新多模態大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態大模型，在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。

發表于 12-20 10:39 ?234次閱讀

一文理解多模態大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態大語言模型 - 上》介紹了什么是多模態大語言

發表于 12-03 15:18 ?134次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>——下

一文理解多模態大語言模型——上

/understanding-multimodal-llms 在過去幾個月中， OpenVINO? 架構師 Yury閱讀了眾多有關多模態大語言模型的論文和博客，在此基礎上，推薦了一篇解

發表于 12-02 18:29 ?340次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>——上

擴散模型的理論基礎

擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中，學習你需要知道的關于擴散模型的一切。

發表于 10-28 09:30 ?453次閱讀

<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多

發表于 10-18 09:39 ?453次閱讀

Meta發布多模態LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項重要技術突破，成功推出了多模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息，還實現了對圖像內容的精準理解，標志著Met

發表于 09-27 11:44 ?413次閱讀

云知聲推出山海多模態大模型

在人工智能技術的浩瀚星海中，多模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創新之姿，推出了其匠心獨運的山海多模態大

發表于 08-27 15:20 ?396次閱讀

依圖多模態大模型伙伴CTO精研班圓滿舉辦

大模型在不同行業領域的應用前景;7月19日， “依圖科技多模態大模型伙伴CTO精研班”在杭州圓滿舉辦，讓更多的伙伴們深度體驗了依圖

發表于 07-23 15:16 ?423次閱讀

智譜AI發布全新多模態開源模型GLM-4-9B

近日，智譜AI在人工智能領域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態能力，再次刷新了業界對于大型語言

發表于 06-07 09:17 ?757次閱讀

人大系初創公司智子引擎發布全新多模態大模型Awaker 1.0

人大系初創公司智子引擎近日震撼發布了新一代多模態大模型Awaker 1.0，這一里程碑式的成果標志著公司在通用人工智能（AGI）領域取得了重要突破。與前代ChatImg序列

發表于 05-06 09:59 ?614次閱讀

李未可科技正式推出WAKE-AI多模態AI大模型

李未可科技多模態 AI 大模型正式發布，積極推進 AI 在終端的場景應用 ? 4月18日，2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI多

發表于 04-18 17:01 ?613次閱讀

蘋果發布300億參數MM1多模態大模型

近日，科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中，正式公布了其最新的多模態大模型研究成果——MM1。這款具有高達300億參數的多

發表于 03-19 11:19 ?913次閱讀

螞蟻集團推出20億參數多模態遙感基礎模型SkySense

近日，螞蟻集團聯合武漢大學宣布成功研發出20億參數多模態遙感基礎模型SkySense。這一創新模型由螞蟻集團的AI創新研發部門NextEvo與武漢大學共同完成，是迄今為止國際上參數規模

發表于 03-04 11:22 ?829次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-19 11:43 ?424次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

CVPR 2023論文總結！CV最熱領域頒給多模態、擴散模型

評論

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

商湯日日新多模態大模型權威評測第一

一文理解多模態大語言模型——下

一文理解多模態大語言模型——上

擴散模型的理論基礎

利用OpenVINO部署Qwen2多模態模型

Meta發布多模態LLAMA 3.2人工智能模型

云知聲推出山海多模態大模型

依圖多模態大模型伙伴CTO精研班圓滿舉辦

智譜AI發布全新多模態開源模型GLM-4-9B

人大系初創公司智子引擎發布全新多模態大模型Awaker 1.0

李未可科技正式推出WAKE-AI多模態AI大模型

蘋果發布300億參數MM1多模態大模型

螞蟻集團推出20億參數多模態遙感基礎模型SkySense

機器人基于開源的多模態語言視覺大模型