色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在多模態的語境中利用Transformer強大的表達能力?

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-03-29 16:47 ? 次閱讀

曾幾何時,多模態預訓練已經不是一個新的話題,各大頂會諸多論文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT層出不窮,傻傻分不清楚。..。..這些年NLPer在跨界上忙活的不亦樂乎,提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中,加大力度預訓練,總有意想不到的SOTA。

如何在多模態的語境中更細致準確地利用Transformer強大的表達能力呢?Facebook最新的 Transformer is All You Need 也許可以給你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

這篇貌似標題黨的文章開宗明義,針對文本+視覺的多模態任務,用好Transformer就夠了,與許多前作不同,這次提出的模型一個模型可以解決多個任務:目標檢測、自然語言理解、視覺問答,各個模型板塊各司其職、條理清晰:視覺編碼器、文本編碼器、特征融合解碼器,都是建立在多層Transformer之上,最后添加為每個任務設計的處理器,通過多任務訓練,一舉刷新了多個任務的榜單。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本編碼器用Transformer提取文本特征是個老生常談的問題,從BERT石破天驚開始,純文本領域近乎已被Transformer蠶食殆盡,所以該文也不能免俗,直接借用BERT的結構提取文本內容,區別在于,為了解決多個任務,在文本序列前添加了一個針對不同任務的參數向量,在最后輸出隱藏狀態到解碼器時再去掉。

視覺編碼器本文將Transformer強大的表達能力運用到視覺特征的提取中,由于圖片像素點數量巨大,首先通過基于卷積神經網絡的ResNet-50提取卷積特征,極大程度上地降低了特征數量,最終得到的feature map大小為,然后用全聯接層調整單個特征的維度到,再利用多層Transformer中的注意力機制提取各個feature之間的關系,由于Transformer的輸入是序列,文章將拉成一條長為的序列,另外和文本編碼器類似,同樣添加了與下游任務相關的。

其中是調整維度的全聯接層,是多層Transformer編碼器。

模態融合解碼器多模態的關鍵之一就在于怎么同時利用多個模態,在本文中是通過Transformer的解碼器實現的,這個解碼器首先將任務相關的query做self-attention,再將結果與文本編碼器和視覺編碼器的結果做cross-attention,針對單一模態的任務,選取對應編碼器的輸出即可,針對多模態的任務,取兩個編碼器輸出的拼接。

任務處理器(task-specific output head)之前多模態預訓練模型往往只針對某一項任務,而本文提出的一個模型可以解決多個文本+視覺任務,與BERT可以解決多個文本任務類似,本文的模型在模態融合解碼器的結果上添加為每個任務設計的處理器,這個處理器相對簡單,用于從隱藏狀態中提取出與特定任務相匹配的特征。

目標檢測:添加box_head和class_head兩個前饋神經網絡從最后一層隱藏狀態中提取特征用來確定目標位置和預測目標類型。

自然語言理解、視覺問答:通過基于全聯接層的分類模型實現,將模態融合解碼器結果的第一位隱藏狀態輸入到兩層全聯接層并以GeLU作為激活函數,最后計算交叉熵損失。

實驗與總結本文提出的多模態預訓練模型各個板塊劃分明確,通過多層Transformer分別提取特征,再利用解碼器機制融合特征并完成下游任務,同時借助最后一層任務相關的處理器,可以通過一個模型解決多個任務,同時也讓多任務預訓練成為可能,并在實驗中的各個數據集上得到了論文主要進行了兩部分實驗:

多任務學習:

這里的多任務涉及目標檢測和視覺問答兩個任務,在目標檢測上運用COCO和VG兩個數據集,在視覺問答上運用VQAv2數據集。對比了單一任務和多任務同時訓練的結果,同時對比了不同任務共用解碼器的結果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

從結果中我們可以看出,單純的使用多任務訓練并不一定可以提高結果,不同任務間雖然相關但是卻不完全相同,這可能是任務本身差異或者數據集的特性所導致,第二行和第五行可以很明顯地看出COCO上的目標檢測和VQAv2的視覺問答相結合后,結果有顯著的下降,然而VG上的目標檢測卻能夠和視覺問答很好地結合,通過三個數據集上的共同訓練,可以得到最高的結果。

多模態學習:

這一實驗中,為了體現所提出模型能夠有效解決多個多種模態的不同任務,論文作者在之前COCO、VG、VQAv2的基礎上,增加了單一文本任務GLUE的幾個數據集(QNLI、QQP、MNLI、SST-2)和視覺推斷數據集SNLI-VE,從數據集的數量上可以看出本文模型的全能性。與本文對比的有純文本的BERT、基于Transformer的視覺模型DETR、多模態預訓練模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔細看各個數據集上的結果,不難看出本文提出的模型其實并不能在所有數據集多上刷出SOTA,比如COCO上遜色于DETR,SNLI-VE遜色于VisualBERT,SST-2遜色于BERT,其他數據集上都有一定的提高,但是模型卻勝在一個“全”字,模型的結構十分清晰明了,各個板塊的作用十分明確,同時針對不同任務的處理器也對后續多模態任務富有啟發性。

原文標題:【Transformer】沒有什么多模態任務是一層Transformer解決不了的!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3638

    瀏覽量

    134428
  • Transforme
    +關注

    關注

    0

    文章

    12

    瀏覽量

    8787
  • 多模
    +關注

    關注

    1

    文章

    28

    瀏覽量

    10850

原文標題:【Transformer】沒有什么多模態任務是一層Transformer解決不了的!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測取得榜單第一。
    的頭像 發表于 12-20 10:39 ?144次閱讀

    使用ReMEmbR實現機器人推理與行動能力

    視覺語言模型(VLM)通過將文本和圖像投射到同一個嵌入空間,將基礎大語言模型(LLM)強大的語言理解能力與視覺 transformer(ViT)的視覺能力相結合。VLM 可以處理非結構
    的頭像 發表于 11-19 15:37 ?227次閱讀
    使用ReMEmbR實現機器人推理與行動<b class='flag-5'>能力</b>

    未來AI大模型的發展趨勢

    上得到了顯著提升。未來,算法和架構的進一步優化將推動AI大模型在性能上實現新的突破。 多頭自注意力機制、前饋神經網絡等關鍵技術的改進,將增強模型的表達能力和泛化能力。 模態融合 :
    的頭像 發表于 10-23 15:06 ?594次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,模態
    的頭像 發表于 10-18 09:39 ?412次閱讀

    云知聲山海模態大模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態大模型UniGPT-mMed以通用能力、醫療專業
    的頭像 發表于 10-12 14:09 ?282次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型UniGPT-mMed登頂MMMU測評榜首

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    習語言的表達方式和生成能力。通過預測文本缺失的部分或下一個詞,模型逐漸掌握語言的規律和特征。 常用的模型結構 Transformer架構:大語言模型通?;?/div>
    發表于 08-02 11:03

    科普講座 | 讓AIGC提高你的專業表達和創作能力

    的專題講座,激發工程師專業文章創作靈感,提高個人的專業表達能力,從而在電力電子領域展現更加卓越的才華!舉辦時間7月2日1900講座內容:技術:AIGC時代到來方法:讓A
    的頭像 發表于 06-23 08:14 ?323次閱讀
    科普講座 | 讓AIGC提高你的專業<b class='flag-5'>表達</b>和創作<b class='flag-5'>能力</b>

    智源研究院揭曉大模型測評結果,豆包與百川智能大模型表現優異

    模態理解圖文問答任務,開源和閉源模型表現相當,而國產模型則表現出色。此外,在中文語境下的文生圖能力方面,國產
    的頭像 發表于 05-20 09:26 ?724次閱讀

    阿里云通義大模型助力“小愛同學”強化模態AI生成能力

    小米的人工智能助手“小愛同學”近期與阿里云通義大模型達成戰略合作,共同提升其模態AI生成能力,特別是在圖片生成與理解方面。這次合作不僅將強化“小愛同學”的功能,還將在小米的多個產品線,包括小米汽車和手機等設備上得到實際應用。
    的頭像 發表于 05-13 09:19 ?800次閱讀

    商湯科技發布5.0模態大模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0模態大模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布了行業首個云、端、邊全棧大模型產品矩陣,能夠滿足不同規模
    的頭像 發表于 04-24 16:49 ?1100次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI
    發表于 04-18 17:01 ?592次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    基于Transformer模態BEV融合方案

    由于大量的相機和激光雷達特征以及注意力的二次性質,將 Transformer 架構簡單地應用于相機-激光雷達融合問題是很困難的。
    發表于 01-23 11:39 ?820次閱讀
    基于<b class='flag-5'>Transformer</b>的<b class='flag-5'>多</b><b class='flag-5'>模態</b>BEV融合方案

    什么是模態?模態的難題是什么?

    模態大模型,通常大于100M~1B參數。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發表于 01-17 10:03 ?4590次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態</b>?<b class='flag-5'>多</b><b class='flag-5'>模態</b>的難題是什么?

    自動駕駛和模態大語言模型的發展歷程

    模態大語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態對齊使它們能夠更高效地執行各種任務,包括圖像分類、將文本與相應的視頻
    發表于 12-28 11:45 ?520次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型的發展歷程

    從Google模態大模型看后續大模型應該具備哪些能力

    前段時間Google推出Gemini模態大模型,展示了不凡的對話能力模態能力,其表現究竟如
    的頭像 發表于 12-28 11:19 ?1259次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型看后續大模型應該具備哪些<b class='flag-5'>能力</b>
    主站蜘蛛池模板: 亚洲乱码日产精品BD在线下载| 老司机亚洲精品影院在线观看| 含羞草影院AE在线观看| 日本漫画之无彩翼漫画| 日本G奶乳液汁| 偷窥wc美女毛茸茸视频| 亚洲 日韩 自拍 视频一区| 亚洲精品成人a在线观看| 又长又大又粗又硬3p免费视频| 佐山爱痴汉theav| 波多野结衣二区| 国产午夜亚洲精品区| 久久人妻熟女中文字幕AV蜜芽| 米奇影视999| 色欲AV亚洲午夜精品无码| 午夜伦理伦理片在线观| 伊人色综合久久天天| x69老师x日本| 国产曰批试看免费视频播放免费| 久久这里只有精品2| 青柠电影在线看| 亚洲AV 中文字幕 国产 欧美 | 美女被触手注入精子强制受孕漫画| 欧美乱子YELLOWVIDEO| 午夜免费小视频| 最近中文字幕2019免费版| 丰满老熟女白浆直流| 京香在线播放| 日本久久道一区二区三区| 亚洲欧美综合视频| chinese黑人第一次| 国产呻吟久久久久久久92| 美女黄图大全| 晚夜免费禁用十大亏亏| 中文字幕人成人乱码亚洲影视S| 丰满的大白屁股ass| 理论片午午伦夜理片久久| 婷婷综合久久狠狠色| 在线观看永久免费网址| 国产成人精品男人的天堂网站 | 欧美国产精品久久久乱码|