深度解析CLIP在視覺語言理解與定位任務上的無監督遷移研究

　　CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　論文題目：CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　發表期刊：IEEE Transactions on Multimedia 一區頂刊

　　工作內容：基于自步課程學習實現多模態大模型CLIP在多模態視覺語言理解與定位任務上的無監督遷移研究

第一作者：肖麟慧（中科院自動化所博士）通訊作者：徐常勝作者單位：中國科學院自動化所-多模態人工智能系統全國重點實驗室；鵬城實驗室；中國科學院大學人工智能學院 ?

圖1。我們提出的CLIP-VG的主要思想，它在自步課程自適應的范式中使用偽語言標簽來自適應CLIP，從而實現在視覺定位的任務上得遷移學習。

論文摘要：

視覺定位(VG)是視覺和語言領域的一個重要課題，它涉及到在圖像中定位由表達句子所描述的特定區域。為了減少對人工標記數據的依賴，無監督的方法使用偽標簽進行學習區域定位。然而，現有的無監督方法的性能高度依賴于偽標簽的質量，并且這些方法總是遇到多樣性有限的問題。為了利用視覺和語言預訓練模型來解決定位問題，并合理利用偽標簽，我們提出了一種新穎的方法CLIP-VG，它可以使用偽語言標簽對CLIP進行自步式地課程自適應。我們提出了一個簡單而高效的端到端網絡架構來實現CLIP到視覺定位的遷移。在以CLIP為基礎的架構的基礎上，我們進一步提出了單源和多源課程自適應算法，這些算法可以逐步找到更可靠的偽語言標簽來學習最優模型，從而實現偽語言標簽的可靠性和多樣性之間的平衡。我們的方法在單源和多源場景下的RefCOCO/+/g數據集上都明顯優于當前最先進的無監督方法，提升幅度分別為從6.78%至10.67%和11.39%至14.87%。此外，我們的方法甚至優于現有的弱監督方法。代碼和模型可在https://github.com/linhuixiao/CLIP-VG上獲得。

論文引言：

視覺定位(Visual Grounding，VG)，又稱指代表達理解（Referring Expression Comprehension，REC)，或短語定位（Phrase Grounding, PG)，是指在特定圖像中定位文本表達句子所描述的邊界框(bounding box，即bbox)區域，這一技術已成為視覺問答[6]、視覺語言導航[7]等視覺語言(Vision-Language, V-L)領域的關鍵技術之一。? ? ?

由于其跨模態的特性，定位需要同時理解語言表達和圖像的語義，這一直是一項具有挑戰性的任務?？紤]到其任務復雜性，現有的方法大多側重于全監督設置(即，使用手工三元組數據作為監督信號)。然而，有監督的定位要求需要高質量的手工標注信息。具體來說，表達句子需要與bbox配對，同時在指代上是唯一的，并且需要具有豐富的語義信息。為了減少對手工勞動密集的標記數據的依賴，弱監督(即，僅給定圖像和查詢對，沒有配對的bbox)和無監督定位(即，不使用任何與任務相關的標注信息去學習定位圖像區域)最近受到越來越多的關注。現有的無監督定位方法主要是利用預訓練的檢測器和額外的大規模語料庫實現對未配對數據的指代定位。最先進的(SOTA)無監督方法提出使用人工設計的模板和空間關系先驗知識來匹配目標和屬性檢測器獲得的結果，以及相應的目標bbox。這將生成表達式和bbox偽對，它們被用作為偽標簽，進而以監督的方式學習定位模型。然而，這些現有方法中的偽標注信息的有效性嚴重依賴于總是在特定數據集上預訓練的目標或屬性檢測器。這可能會限制語言分類和匹配模式的多樣性，以及上下文語義的豐富度，最終損害模型泛化能力。

在過去的幾年里，視覺語言預訓練(Vision-Language Pre-trained, VLP)基礎模型(如CLIP)通過使用少量任務相關數據來進行遷移或提示的范式，在許多下游任務上取得了令人振奮的結果。這些基礎模型的主要優點是，它們可以通過自監督約束從現成的web數據和各種下游任務數據(例如，BeiT3)中學習一般通用的知識。這啟發我們考慮轉移VLP模型(即，本工作中使用CLIP)，以無監督的方式解決下游定位任務。然而由于缺乏與任務相關的標記數據，因此，這是一項具有挑戰性的任務。一個直接的解決方案是利用以前的無監督定位方法中生成的偽標簽來微調預訓練的模型。然而，這將影響預訓練模型的泛化能力，因為特定的偽標簽和真實特定任務的標簽之間存在差距。

在本文中，我們提出了CLIP-VG，如圖1所示，這是一種新穎的方法，可以通過利用偽語言標簽來解決視覺定位問題，對CLIP進行自步地課程自適應。首先，我們提出了一個簡單而高效的端到端純Transformer的僅編碼器的網絡架構。我們為了實現CLIP向視覺定位的任務遷移，只需要調整少量的參數，花費最少的訓練資源。其次，為了通過尋找可靠的偽標簽來實現對基于CLIP的網絡架構的更穩定的自適應遷移，我們提出了一種評估實例級標簽質量的方案和一種基于自步課程學習(SPL)的漸進自適應算法，即可靠性評估(III-C部分)和單源自步自適應(SSA)算法(III-D部分)。實例級可靠性被定義為通過特定標簽源學習的評估器模型正確預測的可能性。具體而言，我們學習了一個初步的定位模型作為可靠性評估器，以CLIP為偽標簽的主干，然后對樣本的可靠性進行評分，構建可靠性直方圖(RH)。接下來，根據構建的RH，以自步的方式執行SSA算法，逐步采樣更可靠的偽標簽，以提高定位的性能。為了有效地選擇偽配對的數據子集，我們設計了一種基于改進的二叉搜索的貪心樣本選擇策略，以實現可靠性和多樣性之間的最優平衡。

我們所提出的CLIP-VG的一個主要優點是其漸進式自適應框架不依賴于偽標簽的特定形式或質量。因此，CLIP-VG可以靈活擴展，訪問多個偽標簽源。在多源場景中，我們首先獨立學習每個偽標簽源的特定源的定位模型。然后，我們提出了源級復雜度的評估標準。具體而言，在SPL的不同步驟中，我們根據每個表達式中實體的平均數量，從簡單到復雜逐步選擇偽標簽源。在SSA的基礎上，我們進一步提出了特定源可靠性(SR)和跨源可靠性(CR)，以及多源自適應(MSA)算法(第3 - e節)。特定源的可靠性定義為使用當前標簽源學習的定位模型正確預測當前偽標簽的可能性近似。相應的，交叉源可靠性的定義是通過與其他標簽源學習的定位模型正確預測當前源偽標簽的可能性近似。因此，整個方法可以漸進式地利用偽標簽來學習易難課程范式中的定位模型，最大限度地利用不同源的偽標簽，保證基礎模型的泛化能力。

在RefCOCO/+/g、RefitGame和Flickr30K Entities這五個主流測試基準中，我們的模型在單源和多源場景下的性能都明顯優于SOTA無監督定位方法Pseudo-Q，分別達到6.78% ~ 10.67% 和11.39% ~ 14.87%。所提出的SSA算法和MSA算法的性能增益為3%以上。此外，我們的方法甚至優于現有的弱監督方法。與全監督SOTA模型QRNet相比，我們僅使用其更新參數的7.7% 就獲得了相當的結果，同時在訓練和推理方面都獲得了顯著的加速，分別高達26.84倍和7.41倍。與最新報道的結果相比，我們的模型在速度和能效方面也達到了SOTA。綜上所述，本文的貢獻有四個方面:

據我們所知，我們是第一個使CLIP實現無監督視覺定位的。我們的方法可以將CLIP的跨模態學習能力轉移到視覺定位上，而且訓練成本很小。
我們是第一個在無監督視覺定位中引入自步課程學習的方法。我們提出的可靠性評估和單源自步自適應的方法可以通過在由易到難的學習范式中使用偽標簽逐步增強基于CLIP的視覺定位模型。
我們首先提出了多源自步自適應算法來擴展了我們的方法，同時可以獲取多個偽標簽源的信息，可以靈活地提高語言分類的多樣性。
我們進行了大量的實驗來評估我們方法的有效性。結果表明，我們的方法在無監督環境下取得了顯著的改進，同樣，我們的模型在全監督環境下也具有一定的競爭力。

圖2. 我們的CLIP-VG模型架構(III-B部分)作為視覺語言定位模型來實現CLIP的自步度課程自適應。

圖3。利用偽語言標簽和自步課程學習實現無監督視覺定位。(a)偽語言標簽的例子(不同偽語言標簽的來源在第IV-A節中進行了描述)。(b)單源自步自適應(Single-source self-paced Adapting, SSA)利用視覺語言定位模型(VLGM)對偽模板標簽進行可靠性評估和貪婪樣本選擇，通過尋找可靠的偽標簽實現對CLIP更穩定的自適應遷移。(c)多源自適應(Multi-source Self-paced Adapting, MSA)在SSA的基礎上進一步提出了特定源可靠性(SR)和跨源可靠性(CR)。它依次進行偽標簽源選擇、可靠性評估器選擇和貪婪樣本選擇，從而達到可靠性和多樣性的最佳平衡。

表1. 在RefCOCO/+/g三個數據集上基于top-1精度的SOTA方法對比結果

表1. 在Rferit Game和Flickr兩個數據集上基于top-1精度的SOTA方法對比結果

表3. 模型的能效、推理訓練速度優勢對比

編輯：黃飛

閱讀全文

spl(16234) spl(16234)
網絡架構(12410) 網絡架構(12410)
Clip(6566) Clip(6566)
大模型(810) 大模型(810)

基于將 CLIP 用于下游few-shot圖像分類的方案

對比性圖像語言預訓練模型（CLIP）在近期展現出了強大的視覺領域遷移能力，可以在一個全新的下游數據集上進行 zero-shot 圖像識別。

2022-09-27 09:46:17

3518

一種在視覺語言導航任務中提出的新方法，來探索未知環境

視覺語言導航（vision-language navigation, VLN）任務指的是引導智能體或機器人在真實三維場景中能理解自然語言命令并準確執行。結合下面這張圖再形象、通俗一點解釋：假如智能

2019-03-05 09:38:44

4089

2017全國深度學習技術應用大會

數據驅動為核心的深度學習通過逐層抽象方式形成原始數據區別性表達，在自然語言、語音和計算機視覺等領域取得了顯著進展。但是，這一任務式、刺激式的學習機制依賴于大量標注數據，如何形成解釋性強、數據依賴靈活

2017-03-22 17:16:00

在National儀器上對CLIP進行了更改得到一個錯誤

大家好，我在National儀器上對CLIP（NI6587連接器Serdes）進行了更改，我得到一個錯誤編譯如下：LabVIEW FPGA：La compilationaéchouéàinssed

2018-10-19 14:36:19

定位技術原理解析

【追蹤嫌犯的利器】定位技術原理解析（4）

2020-05-04 12:20:20

深度無盤多配置一些經驗心得

`深度無盤多配置一些經驗心得在論壇上看到有不少兄弟在討論說做無盤的多配置問題，看到有不少兄弟說喜歡做成單包多配置，也有說做成多包的比較好。總之大家都有自己的看法，也蠻有道理的。我今天就是談下自

2011-07-19 09:22:08

深度學習與傳統計算機視覺簡介

文章目錄1 簡介1.1 深度學習與傳統計算機視覺1.2 性能考量1.3 社區支持2 結論3 參考在計算機視覺領域中，不同的場景不同的應用程序需要不同的解決方案。在本文中，我們將快速回顧可用于在

2021-12-23 06:17:19

深度學習中的機器視覺（網絡壓縮、視覺問答、可視化等）

得初學者經?？ㄔ谝恍└拍畹?b class="flag-6" style="color: red">理解上，讀論文似懂非懂，十分吃力。另一方面，即使有了簡單易用的深度學習框架，如果對深度學習常見概念和基本思路不了解，面對現實任務時不知道如何設計、診斷、及調試網絡，最終仍會

2019-07-21 13:00:00

深度搜索Linux操作系統：系統構建和原理解析

深度搜索Linux操作系統：系統構建和原理解析！比較好的一本Linux內核書籍，從另一個角度去解釋！

2014-09-16 16:40:10

視覺定位方案求助，謝

功能：視覺定位玻璃的位置和角度，給平面4軸機器人抓取1.附件是我自己用視覺助手做的驗證，很不穩定2.相機是1200W，視野范圍是350*200，玻璃規格大小有很多，圖片是其中一款3.定位精度可以+1mm，吸盤抓取后放進輸送帶有經驗的老師麻煩試下，有償幫助，謝

2021-10-05 17:15:58

解析深度學習：卷積神經網絡原理與視覺實踐

2020-06-14 22:21:12

解析GPS模塊串口發送的數據

/ NMEA0183-C 的庫我把它遷移到我的碼云里了,方便大家下載遷移到碼云的NMEA0183-C我在KEIL C51中實現了GPS數據解析:...

2021-07-16 06:45:37

遷移學習

PDA、Source-Free DA上的應用。六、遷移學習前沿應用遷移學習在語義分割中的應用遷移學習在目標檢測中的應用遷移學習在行人重識別中的應用圖片與視頻風格遷移章節目標：掌握深度遷移學習在語義分割

2022-04-21 15:15:11

AUTOSAR架構深度解析精選資料分享

AUTOSAR架構深度解析本文轉載于：AUTOSAR架構深度解析AUTOSAR的分層式設計，用于支持完整的軟件和硬件模塊的獨立性(Independence)，中間RTE(Runtime Environment)作為虛擬功能...

2021-07-28 07:02:13

AUTOSAR架構深度解析精選資料推薦

AUTOSAR架構深度解析本文轉載于：AUTOSAR架構深度解析目錄AUTOSAR架構深度解析AUTOSAR分層結構及應用軟件層功能應用軟件層虛擬功能總線VFB及運行環境RTE基礎軟件層(BSW)層

2021-07-28 07:40:15

ArkTS語言基礎類庫-解析

ArkTS語言基礎類庫是HarmonyOS系統上為應用開發者提供的常用基礎能力，主要包含能力如下圖所示。圖1 ArkTS語言基礎類庫能力示意圖提供[異步并發和多線程并發]的能力。支持

2024-02-20 16:44:11

C語言深度解析

C語言深度解析，本資料來源于網絡，對C語言的學習有很大的幫助，有著較為深刻的解析，可能會對讀者有一定的幫助。

2023-09-28 07:00:01

C語言深度剖析

C語言深度剖析[完整版].pdfC語言深度剖析[完整版].pdf (919.58 KB )

2019-03-19 05:11:41

C語言要點解析PDF下載

C語言要點解析(含便于理解的備注)C語言要點解析(含便于理解的備注).pdf 2016-10-27 17:59 上傳點擊文件名下載附件 1.08 MB, 下載次數: 8

2018-07-19 09:15:26

CCD視覺定位系統在紫外激光打標機上的應用

CCD視覺紫外激光打標機，紫外激光打標機有了CCD視覺定位系統的加持在標記加工領域更是如虎添翼，能夠將紫外激光打標機的加工效率提升數倍，而且標記的位置更加精準。講到這里可能很多人還是不能理解什么是視覺

2022-03-08 14:20:33

LabVIEW 的Tripod 機器人視覺處理和定位研究

為對幾何體的識別和抓放過程?利用邊緣提取、濾波去噪、圓心檢測等算法采用ＬａｂＶＩＥＷ視覺模塊及其庫函數進行了圖像的預處理、特征提取以及中心點定位?研究結果表明基于ＬａｂＶＩＥＷ的Ｔｒｉｐｏｄ機器人系統能夠準確識別平臺幾何體的顏色和形狀可較為精確地定位幾何體中心滿足后續控制的要求

2019-06-01 06:00:00

NLPIR-Parser大數據技術實現深度文本語義理解

、可計算的基礎;在確定了特征表示方式的基礎上，從文本大數據中學習能夠精確表達文本語義的特征是實現內容理解的關鍵。　　近年來，表示學習(representation?learning)或非監督的特征學習

2018-12-18 11:58:56

NLPIR語義分析是對自然語言處理的完美理解

,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。包括大數據完整的技術鏈條：網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計

2018-10-19 11:34:47

Zstack中串口操作的深度解析(一)

本帖最后由 eehome 于 2013-1-5 10:06 編輯 Zstack中串口操作的深度解析(一)歡迎研究ZigBee的朋友和我交流。。。

2012-08-12 21:11:29

java經典面試題深度解析

教程，需要的朋友可以看看，作為參考！課程簡介：精選多年來名企在各地的Java筆試真題、面試經驗課程目錄：第一節 String Stringbuffer Stringbuilder 深度解析第二節完美

2017-06-20 15:16:08

labview+yolov4+tensorflow+openvion深度學習

的網絡結構。當然，深度學習的方法用來檢測，也有自己的很多缺點。例如：數據量要求大，工業數據收集成本高。但是隨著數據增強技術，無監督學習的不斷進步，在某些應用場景上，這些缺點漸漸被隱藏了。例如學術界正在研究

2021-05-10 22:33:46

【TL6748 DSP申請】無人機光流視覺定位

申請理由：無人機光流視覺定位算法驗證，開發。項目描述：無人機光流視覺定位，采集CMOS圖像，通過光流法分析圖像運動來獲得當前的位置信息！現在已經在STM32上初步運行了光流算法，但有些吃力！想找一個好的圖像處理同臺來流暢的完成圖像的解析！

2015-10-09 15:10:01

【TL6748 DSP申請】飛行器視覺圖像處理

全球定位系統（GPS）來說很難精確定位，需要有新的信息來輔助精確定位。視覺圖像感知是一種很好的技術途徑。圖像處理除了需要對算法研究外，算法實現也很重要。公司正著力準備將國

2015-09-10 11:10:13

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎，并開展大模型實踐，復旦大學張奇教授團隊結合他們在自然語言處理領域的研究經驗，以及分布式系統和并行計算的教學經驗，在

2024-03-11 15:16:39

【瑞芯微RK1808計算棒試用申請】基于機器學習的視覺機械臂研究與設計

項目名稱：基于機器學習的視覺機械臂研究與設計試用計劃：申請理由本人在深度學習領域有四年開發經驗，申請理由：基于視覺的機械臂伺服控制系統，并根據計算機視覺相關的理論知識，構建了一個完整的對于機械臂

2019-09-23 15:39:37

人工智能AI-深度學習C#&LabVIEW視覺控制演示效果

不斷變化的，因此深度學習是人工智能AI的重要組成部分?？梢哉f人腦視覺系統和神經網絡。2、目標檢測、目標跟蹤、圖像增強、強化學習、模型壓縮、視頻理解、人臉技術、三維視覺、SLAM、GAN、GNN等。

2020-11-27 11:54:42

什么是深度學習？使用FPGA進行深度學習的好處？

FPGA實現。易于適應新的神經網絡結構深度學習是一個非?；钴S的研究領域，每天都在設計新的 DNN。其中許多結合了現有的標準計算，但有些需要全新的計算方法。特別是在具有特殊結構的網絡難以在 GPU 上

2023-02-17 16:56:59

什么是人工智能、機器學習、深度學習和自然語言處理？

領域，包括機器學習、深度學習、數據挖掘、計算機視覺、自然語言處理和其他幾個學科。首先，人工智能涉及使計算機具有自我意識，利用計算機視覺、自然語言理解和模仿其他感官。其次，人工智能涉及模仿人類的認知功能

2022-03-22 11:19:16

全網唯一一套labview深度學習教程：tensorflow+目標檢測：龍哥教你學視覺—LabVIEW深度學習教程

缺點。例如：數據量要求大，工業數據收集成本高。但是隨著數據增強技術，無監督學習的不斷進步，在某些應用場景上，這些缺點漸漸被隱藏了。例如學術界正在研究的，自動網絡結構設計，自動數據標注等等。所以作者認為

2020-08-10 10:38:12

前百度深度學習研究院科學家分享：機器視覺開發實戰經驗

其實就是計算機科學的一個分支，將來也是會成為人類社會基礎設施的一部分。現在我們邀請來百度深度學習研究院科學家，為大家分享人工智能視覺開發的經驗。點擊報名直播觀看：http

2018-07-20 11:06:52

四元數數控：機器視覺在農業行業的應用有哪些？

基于機器視覺的穴孔位置的定位研究是目前的研究熱點。2.機器視覺在棉花氮素營養診斷中的應用農作物生長發育進程和產量形成受肥料影響很大，基于機器視覺的作物生長監測與診斷技術是近地面遙感監測的方法之一，其優質

2020-10-12 11:03:03

四元數數控：深圳機器視覺引導定位是什么？

過來的實際物品進行比較。機器視覺引導在許多任務中都能夠實現比人工定位高得多的速度和精度，比如將元件放入貨盤或從貨盤中拾取元件，對輸送帶上的元件進行包裝，對元件進行定位和對位，以便將其與其他部件裝配

2021-11-24 11:32:58

基于深度學習的異常檢測的研究方法

ABSTRACT1.基于深度學習的異常檢測的研究方法進行結構化和全面的概述2.回顧這些方法在各個領域這個中的應用情況，并評估他們的有效性。3.根據基本假設和采用的方法將最先進的深度異常檢測技術分為

2021-07-12 06:36:22

基于深度學習的異常檢測的研究方法

異常檢測的深度學習研究綜述原文：arXiv:1901.03407摘要異常檢測是一個重要的問題，在不同的研究領域和應用領域都得到了很好的研究。本文的研究目的有兩個：首先，我們對基于深度學習的異常檢測

2021-07-12 07:10:19

基于labview機器視覺的圖像定位

大家好，畢業設計做基于labview機器視覺的圖像定位系統，打算調用筆記本的攝像頭進行圖像采集，再進行圖像處理，視覺模塊和采集模塊已經下載了，可是不知道怎么采集圖像，求大家支招.

2017-03-31 14:54:31

基于稀疏編碼的遷移學習及其在行人檢測中的應用

方法遷移到行人分類中.在MIT行人數據庫上的實驗結果表明:該方法能有效地刻畫出行人的特征,提高行人分類的性能,在標記樣本少的情況下仍具有良好的分類效果,因此可應用于行人檢測中【關鍵詞】：行人檢測

2010-04-24 09:48:05

基于賽靈思FPGA的卷積神經網絡實現設計

FPGA 上實現卷積神經網絡 (CNN)。CNN 是一類深度神經網絡，在處理大規模圖像識別任務以及與機器學習類似的其他問題方面已大獲成功。在當前案例中,針對在 FPGA 上實現 CNN 做一個可行性研究

2019-06-19 07:24:41

學習機器視覺要學習哪一門語言？

馬上要進行機械視覺的學習。想問一下大佬們關于機械視覺，我要學習哪一門語言？c 還是Python 還是Java或者說是嵌入式。選哪一個？對以后機械視覺的課題研究幫助更大？在線等，很急

2019-04-15 15:30:38

室內無線定位算法解析

可以在1米之內。LED定位需要改造LED燈具，增加芯片，增加成本，紅外線只能視距傳播，穿透性極差也極易受燈光、煙霧等環境因素影響明顯。定位效果有限?！　?、地磁和計算機視覺定位　　目前這兩類產品大多

2020-08-11 08:00:28

想設計炫酷的移動機器人？視覺定位設計方案分享給你！

針對移動機器人的局部視覺定位問題進行了研究。首先通過移動機器人視覺定位與目標跟蹤系統求出目標質心特征點的位置時間序列，然后在分析二次成像法獲取目標深度信息的缺陷的基礎上，提出了一種獲取目標的空間

2019-06-01 08:00:00

智能輪椅導航定位的研究現狀及趨勢

電動輪椅,融合多種領域的研究,包括機器視覺,機器人導航和定位.模式識別,多傳感器融合及用戶接口等。目前美國、德國.日本、及中國等多個國家都在進行這方面的研究。輪椅的安全導航,是智能輪椅要解決的中心

2023-09-25 07:13:35

機器學習簡介與經典機器學習算法人才培養

、Source-Free DA上的應用。六、遷移學習前沿應用遷移學習在語義分割中的應用遷移學習在目標檢測中的應用遷移學習在行人重識別中的應用圖片與視頻風格遷移章節目標：掌握深度遷移學習在語義分割、目標檢測

2022-04-28 18:56:07

求視覺定位-------旋轉中心的最佳算法

求視覺定位-------旋轉中心的最佳算法，

2021-06-11 09:44:31

求labview視覺定位坐標建立教程

想要學習labview視覺定位，怎么建立坐標系，通過坐標系來定位抓取和放置功能

2019-04-11 13:22:58

百度深度學習研究院科學家深度講解人工智能

的研發經驗。在過去的工作中，他發表過論文十余篇，申請中國專利超過100項，其中已經授權的有95項。他曾任職百度深度學習研究院，負責人臉識別方向，曾經多次帶領團隊在主流的人臉檢測、人臉識別競賽上取得

2018-07-19 10:01:11

經典算法大全（51個C語言算法+單片機常用算法+機器學十大算法）

　　十、從頭到尾徹底理解傅里葉變換算法、上　　十、從頭到尾徹底理解傅里葉變換算法、下　　十一、從頭到尾徹底解析Hash表算法　　十二、快速排序算法之所有版本的c/c++實現　　十三、通過浙大上機復試

2018-10-23 14:31:12

自動駕駛系統要完成哪些計算機視覺任務？

Geiger 的研究主要集中在用于自動駕駛系統的三維視覺理解、分割、重建、材質與動作估計等方面。他主導了自動駕駛領域著名數據集 KITTI 及多項自動駕駛計算機視覺任務的基準體系建設，KITTI 是目前最大的用于自動駕駛的計算機視覺公開數據集。

2020-07-30 06:49:20

視頻教程：Java常見面試題目深度解析！

視頻教程：Java常見面試題目深度解析！Java作為目前比較火的計算機語言之一，連續幾年蟬聯最受程序員歡迎的計算機語言榜首，因此每年新入職Java程序員也數不勝數。很多java程序員在學成之后，會面

2017-07-11 10:55:04

計算機視覺/深度學習領域常用數據集匯總

、定位、檢測等研究工作大多基于此數據集展開。Imagenet數據集文檔詳細，有專門的團隊維護，使用非常方便，在計算機視覺領域研究論文中應用非常廣，幾乎成為了目前深度學習圖像領域算法性能檢驗的“標準

2018-08-29 10:36:45

計算機視覺必讀：區分目標跟蹤、網絡壓縮、圖像分類、人臉識別

深度學習目前已成為發展最快、最令人興奮的機器學習領域之一。本文以計算機視覺的重要概念為線索，介紹深度學習在計算機視覺任務中的應用，包括網絡壓縮、細粒度圖像分類、看圖說話、視覺問答、圖像理解、紋理生成

2019-06-08 08:00:00

計算機視覺論文速覽

AI視野·今日CS.CV 計算機視覺論文速覽transformer、新模型、視覺語言模型、多模態、clip、視角合成

2021-08-31 08:46:46

語義理解和研究資源是自然語言處理的兩大難題

，怎樣把我們的常識“灌”到AI系統中，是我們需要不斷細化來解決的問題途徑。資源則是針對現在的研究對象資源的問題。無監督學習、Zero-shot學習、Few-shot學習、元學習、遷移學習等方式，其實

2019-09-19 14:10:38

談談深度無盤緩存工具設置技巧

了無盤緩存軟件，而剛推出的深度無盤網吧系統，以驚人的速度研發出了深度無盤緩存工具以及服務端自帶的IO讀緩存。而本人一直對深度情有獨鐘，做為一名網吧維護員，深度出無盤后，一直在深入研究深度無盤網吧系統

2011-07-15 13:24:41

通過HarmonyOS分布式能力實現任務的跨設備遷移設計資料分享

HarmonyOS頁面的分布式遷移和分布式文件的讀取當前，在不同的設備上遷移一個任務的操作通常十分復雜，比如路上在手機里寫了一半的郵件，回到家想切換到平板電腦更方便的處理；或者有時需要調用不同設備中

2022-03-25 16:59:38

無監督訓練加微小調整，只用一個模型即可解決多種NLP

基于一個可伸縮的、任務無關的系統，OpenAI在一組包含不同的語言任務中獲得了最優的實驗結果，方法是兩種現有理念的結合：遷移學習和無監督的預訓練。

2018-06-13 18:00:32

5705

一個深度學習模型能完成幾項NLP任務？

對于機器翻譯、文本摘要、Q&A、文本分類等自然語言處理任務來說，深度學習的出現一遍遍刷新了state-of-the-art的模型性能記錄，給研究帶來諸多驚喜。但這些任務一般都有各自的度量基準，性能也只在一組標準數據集上測試。

2018-06-26 15:19:09

4233

基于深度學習的任務圖像理解：人臉識別與人物解析”

新加坡國立大學在讀博士生趙健分享了“基于深度學習的任務圖像理解：人臉識別與人物解析”，介紹了他博士期間在這個領域的多個代表工作—DA-GAN、PIM和3D-PIM，ICCV 2017

2018-09-02 10:27:12

6003

面向自然語言處理的神經網絡遷移學習的答辯PPT

現實中的自然語言處理面臨著多領域、多語種上的多種類型的任務，為每個任務都單獨進行數據標注是不大可行的，而遷移學習可以將學習的知識遷移到相關的場景下

2019-03-02 09:16:24

2885

嵌入式Linux與物聯網軟件開發C語言內核深度解析書籍的介紹

嵌入式Linux與物聯網軟件開發——C語言內核深度解析 C語言是嵌入式Linux領域的主要開發語言。對于學習嵌入式、單片機、Linux驅動開發等技術來說，C語言是必須要過的一關。C語言學習的特點是入門容易、深入理解難、精通更是難上加難。

2019-05-15 18:10:00

谷歌TensorFlow Graphics:為3D圖像任務打造的深度學習利器

TensorFlow重磅推出一個全新的圖形工具TensorFlow Graphics，結合計算機圖形學和計算機視覺技術，以無監督的方式解決復雜3D視覺任務。

2019-05-14 08:35:43

2309

機器視覺技術原理解析

機器視覺應用的照明的最重要的任務就是使需要被觀察的特征與需要被忽略的圖像特征之間產生最大的對比度，從而易于特征的區分。

2019-07-05 14:11:33

6145

橋接視覺與語言的研究綜述

近年來，由于深度學習、計算機視覺和自然語言處理等多學科領域的興趣激增，視覺和語言任務的橋接得到了顯著的發展。

2019-08-09 18:32:01

2380

人工智能之深度強化學習DRL的解析

深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分，都已經得到廣泛的研究和應用。

2020-01-24 10:46:00

4734

3D 點云的無監督膠囊網絡多任務上實現SOTA

這是一種為 3D 點云提出的無監督膠囊架構，并且在 3D 點云重構、配準和無監督分類方面優于 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言，理解對象任務可以依賴于大型帶注釋

2021-01-02 09:39:00

1863

半監督學習，無監督學習，遷移學習，表征學習以及小樣本學習

在大規模標注的數據集上訓練深度模型不僅可以使手頭的任務表現良好，還可以使模型學習對于下游任務的有用特征形式。但是，我們是否可以在不使用如此昂貴且細粒度的標注數據的情況下獲得類似的特征表達能力呢？本文研究了使用噪聲標注（在這種情況下為圖像標題）的弱監督預訓練。

2021-01-18 17:08:56

7582

研究者們在人工神經網絡 CLIP 上發現了「真」神經元

今年 1 月初，OpenAI 提出了一種通用視覺系統 CLIP，其性能媲美 ResNet-50，并在一些有挑戰性的數據集上超過現有的視覺系統。給出一組以語言形式表述的類別，CLIP 能夠立即將一張圖像與其中某個類別進行匹配，而且它不像標準神經網絡那樣需要針對這些類別的特定數據進行微調。

2021-03-22 17:13:48

2751

口語語言理解在任務型對話系統中的探討

1.1 研究背景與任務定義口語語言理解在任務型對話系統中扮演了一個非常重要的角色，其目的是識別出用戶的輸入文本中蘊含的意圖和提及到的槽位，一般被分為意圖識別和槽位填充兩個子任務[1]。以句子

2021-03-31 17:48:12

2145

關于3D視覺定位技術詳細解析

3D視覺定位指的是根據事先構建的3D模型及相關信息，計算取得某張圖像在拍攝時相機的位置和姿態。這是3D視覺的一項十分重要的技術，可以用來幫助實現人員定位與導航。

2021-04-03 14:39:00

8898

深度剖析3D視覺定位技術

引言所謂3D視覺定位指的是根據事先構建的3D模型及相關信息，計算取得某張圖像在拍攝時相機的位置和姿態。這是3D視覺的一項十分重要的技術，可以用來幫助實現人員定位與導航。本博文將基于2019

2021-04-01 14:46:04

3857

視覺問答與對話任務研究綜述

視覺問答與對話是人工智能領堿的重要硏究任務，是計算機視覺與自然語言處理交叉領域的代表性問題之一。視覺問答與對話任務要求機器根據指定的視覺圖像內容，對單輪或多輪的自然語言問題進行作答。視覺問答與對話

2021-04-08 10:33:56

遷移學習的意圖識別在口語理解中的應用

口語理解（SLU是人機對話系統的重要部分，意圖識別作為口語理解的一個子任務，因其可以為限定領域的對話擴展領域而處于非常重要的地位。由于實際應用領域的對話系統需求増加，而需要開發的新領堿短時間內又無法

2021-04-12 11:18:34

基于深度特征遷移與融合的兩階段船牌定位算法

獲取運河過往船只的身份信息具有重要意義，快速、準確地定位船牌是實現船只身份自動化識別的首要任務。為提升對小尺度船牌的檢測性能，提岀一種結合深度特征遷移與融合的兩階段船牌定位算法。首先在船只檢測階段

2021-04-27 14:32:02

基于特征和實例遷移的加權多任務聚類算法

2021-06-07 15:18:35

ACL2021的跨視覺語言模態論文之跨視覺語言模態任務與方法

來自：復旦DISC 引言本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態的論文。這三篇文章分別介紹了如何在圖像描述任務中生成契合用戶意圖的圖像描述、端對端的視覺語言預訓練模型和如何生成包含

2021-10-13 10:48:27

2230

用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優異效果

白皮書《Transformer-LS：用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” （Transformer-LS），這是一種高效的 Transformer 架構，用于為語言和視覺任務模擬中具有線性復雜度的長序列。

2021-12-28 10:42:18

1309

一種有效的無監督深度表示器(Mix2Vec)

本文由深蘭科學院撰寫，文章將為大家細致講解一種有效的無監督深度表示器（Mix2Vec），該方法可將異構數據映射到統一的低維向量空間，避免混合異構數據相似度度量偏差問題。同時，該方法基于深度異構

2022-03-24 17:22:11

1270

利用深度學習在工業圖像無監督異常定位方面的最新成果

目前，基于深度學習的視覺檢測在監督學習方法的幫助下取得了很大的成功。然而，在實際工業場景中，缺陷樣本的稀缺性、注釋成本以及缺陷先驗知識的缺乏可能會導致基于監督的方法失效。

2022-07-31 11:00:52

2303

視覺語言導航領域任務、方法和未來方向的綜述

視覺語言導航（VLN）是一個新興的研究領域，旨在構建一種可以用自然語言與人類交流并在真實的3D環境中導航的具身代理，與計算機視覺、自然語言處理和機器人等研究領域緊密關聯。

2022-09-20 14:30:30

2612

多語言任務在內的多種NLP任務實現

WeLM是一個百億級別的中文模型，能夠在零樣本以及少樣本的情境下完成包括對話-采訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解在內的多種NLP任務，并具備記憶能力、自我糾正和檢查能力。

2022-10-13 11:52:43

436

深度解析2023年機器視覺行業的十大預測

高工機器人產業研究所（GGII）通過對機器視覺產業的梳理，結合宏觀數據和調研數據信息，秉承不悲觀、不樂觀，力求客觀的態度，深度解析2023年機器視覺行業的十大預測：

2022-11-29 11:18:35

2152

什么是晶振晶振工作原理解析

什么是晶振晶振工作原理解析

2022-12-30 17:13:57

3727

谷歌提出PaLI：一種多模態大模型，刷新多個任務SOTA！

PaLI 使用單獨 “Image-and-text to text” 接口執行很多圖像、語言以及 "圖像 + 語言" 任務。PaLI 的關鍵結構之一是重復使用大型單模態 backbone 進行語言和視覺建模，以遷移現有能力并降低訓練成本。

2023-01-29 11:25:57

665

利用視覺+語言數據增強視覺特征

傳統的多模態預訓練方法通常需要"大數據"+"大模型"的組合來同時學習視覺+語言的聯合特征。但是關注如何利用視覺+語言數據提升視覺任務（多模態->單模態）上性能的工作并不多。本文旨在針對上述問題提出一種簡單高效的方法。

2023-02-13 13:44:05

727

多維度剖析視覺-語言訓練的技術路線

（如BERT\GPT等）的啟發，視覺-語言預訓練 (Vision-Language Pre-training, VLP) 逐漸受到關注，成為如今 VL 任務的核心訓練范式。本文對 VLP 領域近期的綜述文章進行整理，回顧其最新的研究進展，旨在提供一份 VLP 入門指南。

2023-02-23 11:15:54

608

工業機器人抓取時如何去定位呢？

從機器視覺的角度，由簡入繁從相機標定，平面物體檢測、有紋理物體、無紋理物體、深度學習、與任務/運動規劃結合等6個方面深度解析文章的標題。

2023-02-28 09:45:15

530

深度學習研究之PEFT技術解析

，實現高效的遷移學習。因此，PEFT 技術可以在提高模型效果的同時，大大縮短模型訓練時間和計算成本，讓更多人能夠參與到深度學習研究中來。

2023-06-02 12:41:45

449

深度視覺系統解決方案|多相機檢測|高速視覺檢測|視覺引導定位

，本次展位號：W1館1368。此次參展，維視智造將圍繞深度視覺系統解決方案、多相機并行檢測、超高速視覺檢測、視覺引導定位、超高精密測量、線掃高速檢測6大應用

2021-03-09 10:26:24

1073

基礎模型自監督預訓練的數據之謎：大量數據究竟是福還是禍？

大型語言模型如 ChatGPT 的成功彰顯了海量數據在捕捉語言模式和知識方面的巨大潛力，這也推動了基于大量數據的視覺模型研究。在計算視覺領域，標注數據通常難以獲取，自監督學習成為預訓練的主流方法

2023-07-24 16:55:03

272

視覺深度學習遷移學習訓練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學習遷移學習訓練框架，當前支持的圖像分類、對象檢測、實例分割、語義分割、姿態評估模型的遷移學習訓練與評估。支持對數據集的合成、變換、增強等，此外還支持預訓練模型庫下載相關的模型，直接預測推理。

2023-09-22 09:49:51

391

NeurIPS 2023 | 全新的自監督視覺預訓練代理任務：DropPos

://arxiv.org/pdf/2309.03576 代碼鏈接:? https://github.com/Haochen-Wang409/DropPos 今天介紹我們在自監督視覺預訓練領域的一篇原創

2023-10-15 20:25:02

301

谷歌重磅新作PaLI-3：視覺語言新模型！更小、更快、更強

效果怎么樣呢？PaLI-3 在需要視覺定位文本理解和目標定位的任務上實現了新的 SOTA，包括 RefCOCO 數據集上的 8 個視覺定位文本理解任務和參考表達分割任務。PaLI-3 也在一系列分類視覺任務上有出色的表現。

2023-10-20 16:21:21

397

如何利用CLIP 的2D 圖像-文本預習知識進行3D場景理解

自我監督學習的目的是獲得有利于下游任務的良好表現。主流的方法是使用對比學習來與訓練網絡。受CLIP成功的啟發，利用CLIP的預訓練模型來完成下游任務引起了廣泛的關注。本文利用圖像文本預先訓練的CLIP知識來幫助理解3D場景。

2023-10-29 16:54:09

664

已全部加載完成

搜索歷史

深度解析CLIP在視覺語言理解與定位任務上的無監督遷移研究

評論