色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

电子发烧友

开通电子发烧友VIP会员尊享10大特权

海量资料免费下载

精品直播免费看

优质内容免费畅学

课程9折专享价

低至0.4元/天，开通VIP

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

基于預訓練視覺-語言模型的跨模態Prompt-Tuning

論文：CPT：Colorful Prompt Tuning for Pre-Training Vision-Language Models

狀態：Work in Progress

單位：清華大學、新加坡國立大學

鏈接：https://arxiv.org/pdf/2109.11797.pdf

提取摘要

預訓練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數據中顯示出有前景的能力，促進了各種跨模態任務。

然而，作者注意到模型pre-training和finetune的客觀形式之間存在顯著差距，導致需要大量標記數據來刺激 VL-PTMs 對下游任務的視覺基礎能力。

為了應對這一挑戰，本文提出了跨模態提示調優Cross-modal Prompt Tuning（CPT，或者，彩色-Color提示調優），這是一種用于finetune VL-PTMs 的新范式，它在圖像和文本中使用基于顏色的共同參照標記重新構建了視覺定位問題，使之成為一個填空問題，最大限度地縮小差距。

通過這種方式，本文的Prompt-Tuning方法可以讓 VL-PTMs 在少樣本甚至零樣本的強大的視覺預測能力。

綜合實驗結果表明，Prompt-Tuning的 VL-PTMs 大大優于 finetune 的方法（例如，在 RefCOCO 評估中，一次平均提高 17.3% 準確度，one shot下平均相對標準偏差降低73.8%）。

數據和代碼會在之后公開，小伙伴們不要急~

方法介紹

背景：該任務為Visual Grounding視覺定位問題，通過一個給定的expression來定位在圖像中的位置。

Pre-training和fine-tuning

比如有一張識別好的圖片和下面的文字：

普通使用MLM（masked language modeling）的預訓練模型的到VL-PTMs方法為：

就是使用［mask］機制來預測被被掩蓋的token。

而finetune的話，就是使用傳統的［CLS］來遷就下游的任務，比如做二分類：

而使用被大規模數據預訓練的模型通過［CLS］來遷就下游任務，其實并不可解釋，而反過來讓下游帶著任務來到預訓練模型的［mask］戰場上，才能更能發揮其作用呀。

CPT： Cross-model Prompt Tuning

CPT方法首先將圖片用不同顏色來區分不同的實體模塊：

其次將Query Text插入到color-based的模板（eg. is in ［mask］ color）里：

最后在［mask］上預測對應的該是哪個顏色即可，語義上非常行得通。

模型公式

普通Finetune for VL-PLMs

首先從圖片 I 中通過目標檢測工具，檢測出一系列的region：

最終這些被選出來的region和Query Text（w）將被放入：

其中［IMG］、［CLS］和［SEP］為特殊token。

其中圖片regions的representation通過視覺的encoder獲得，而文本的就是lookup即可，最后通過預訓練模型VL-PLMs會得到：

最終使用隱層finetune做分類即可。

但是，finetuned VL-PLMs需要大量的標注數據來提高視覺定位的效果，這個也是一個弊端吧。

Cross-Modal Prompt Tuning - CPT

上面說過了，CPT需要兩個部分：

視覺子prompt

文本子prompt

視覺子prompt，目的是為了區分每一個region通過可分辨的標記，比如顏色，比如RGB （255， 0， 0）表示red，RGB和text要對應起來。

這里要注意的是，這個子prompt是直接加在原圖片上的，所以既沒有改變模型結果，又沒有改變參數。

文本子prompt，目的就是在圖片和Query Text之間建立一個鏈接，這里使用的模板為：

然后，VL-PTMs模型通過這樣的提示（prompt）來決定哪個顏色的region填在這個空里最恰當：

實驗

和finetune相比，CPT在zero-shot和few-shot下，性能可以說是爆表，巨額提升。在全量數據下，也能達到最佳值或者接近最佳值：

CPT在其他視覺任務上的應用

實體檢測

謂元分類

場景圖分類

總之，Prompt方法就是通過模板重新定義了任務，讓模型更具有解釋性，本篇文章第一次將Prompt用在了Vision-Language上，未來還會有很大的研究動向，感興趣的小伙伴可以細讀原文。

編輯：jq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據

數據

+關注

關注
8

文章
7231

瀏覽量
90601
RGB

RGB

+關注

關注
4

文章
803

瀏覽量
59305
CLS

CLS

+關注

關注
0

文章
9

瀏覽量
9760
prompt

prompt

+關注

關注
0

文章
15

瀏覽量
2725

原文標題：清華劉知遠提出CPT：基于預訓練視覺-語言模型的跨模態Prompt-Tuning

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

作者：算力魔方創始人/英特爾創新大使劉力《用PaddleNLP在4060單卡上實踐大模型預訓練技術》發布后收到讀者熱烈反響，很多讀者要求進一步講解更多的技術細節。本文主要針對大語言

的頭像

發表于 03-21 18:24 ?182次閱讀

用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

?VLM（視覺語言模型）?詳細解析

視覺語言模型（Visual Language Model, VLM）是一種結合視覺（圖像/視頻）和語言（文本）處理能力的多

的頭像

發表于 03-17 15:32 ?812次閱讀

?VLM（<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>）?詳細解析

用PaddleNLP在4060單卡上實踐大模型預訓練技術

作者：算力魔方創始人/英特爾創新大使劉力之前我們分享了《從零開始訓練一個大語言模型需要投資多少錢》，其中高昂的預訓練費用讓許多對大

的頭像

發表于 02-19 16:10 ?641次閱讀

用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

一文詳解視覺語言模型

視覺語言模型（VLM）是一種多模態、生成式 AI 模型，能夠理解和處理視頻、圖像和文本。

的頭像

發表于 02-12 11:13 ?1014次閱讀

一文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

微調：通過在預訓練模型中插入適配器模塊來適應特定任務，既保留了原始模型的性能，又能快速適應新任務。Prefix-Tuning：通過在輸入序列

發表于 01-14 16:51

KerasHub統一、全面的預訓練模型庫

深度學習領域正在迅速發展，在處理各種類型的任務中，預訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名，始終處于這一動向的前沿。Keras 擁有專用的內容庫，如用

的頭像

發表于 12-20 10:32 ?341次閱讀

什么是大模型、大模型是怎么訓練出來的及大模型作用

，基礎模型。 ? 大模型是一個簡稱，完整的叫法，應該是“人工智能預訓練大模型”。預

的頭像

發表于 11-25 09:29 ?1.2w次閱讀

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使

的頭像

發表于 07-11 10:11 ?765次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）

的頭像

發表于 07-03 18:20 ?3792次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

種語言模型進行預訓練，此處預訓練為自然語言處理領域的

發表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的應用

操作。所謂零樣本提示（Zero-Shot Prompt），指的是在提示詞中不包含與指令任務相似的任何示例。當大語言模型訓練完成后，它便具備了分析情緒和識別命名實體等常見任務的能力，

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的預訓練

大語言模型的核心特點在于其龐大的參數量，這賦予了模型強大的學習容量，使其無需依賴微調即可適應各種下游任務，而更傾向于培養通用的處理能力。然而，隨著學習容量的增加，對預

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

全面剖析大語言模型的核心技術與基礎知識。首先，概述自然語言的基本表示，這是理解大語言模型技術的前提。接著，詳細介紹自然

發表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術綜述

的復雜模式和長距離依賴關系。預訓練策略: 預訓練是LLMs訓練過程的第一階段，模型在大量的

發表于 05-05 10:56

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

處理中預訓練架構Transformer，以及這些技術在現實世界中的如何應用。通過具體案例的分析，作者展示了大語言模型在解決實際問題中的強大能力，同時也指出了當前技術面臨的挑戰和局限性。

發表于 04-30 15:35

電子發燒友

中國電子工程師最喜歡的網站

與2931785位工程師會員交流學習
獲取您個性化的科技前沿技術信息
參加活動獲取豐厚的禮品

主站蜘蛛池模板： 538prom国产在线视频一区 | 国产亚洲视频精彩在线播放 | 夜夜狂射影院欧美极品 | 99国产强伦姧在线看RAPE | 美女胸禁止18以下看 | adc影院在线| 国产偷抇久久精品A片蜜臀AV | 97人妻久久久精品系列A片 | 2020精品极品国产色在线 | 黄色片网站下载 | 女人高潮了拔出来了她什么感觉 | 果冻传媒视频在线播放免费观看 | 欧美日韩中文国产一区 | 秋霞电影网午夜免费鲁丝片 | jjzz韩国| 高清国产在线亚洲 | 欧美尤物射精集锦 | 新新电影理论中文字幕 | 日韩AV片无码一区二区三区不卡 | 九九热视频这里有精品 | 人人艹人人 | 51vv视频社区 | 久久久精品国产免费A片胖妇女 | 老司机午夜影院试看区 | 国产亚洲精品久久久久 | 成人1000部免费观看视频 | 欧美亚洲高清国产 | 国内精品久久久久影院亚洲 | 一受n攻高h全肉np | 琪琪SEE色原网色原网站18 | 暗卫受被肉到失禁各种PLAY | 无码成人AAAAA毛片含羞草 | 亚洲AV无码乱码在线观看浪潮 | 国产精品一区二区四区 | 一个人免费完整在线观看影院 | 国产精品久久精品 | 美女屁股软件 | 免费高清中文在线观看 | 色欲午夜无码久久久久久 | 征服丝袜旗袍人妻 | 看美女大腿中间的部分 |