宅男深夜免费必看,丝瓜视频污版,亚洲国产成人精品

曾幾何時，多模態預訓練已經不是一個新的話題，各大頂會諸多論文仿佛搭上Visual和BERT，就能成功paper+=1，VisualBERT、ViLBERT層出不窮，傻傻分不清楚。..。..這些年NLPer在跨界上忙活的不亦樂乎，提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中，加大力度預訓練，總有意想不到的SOTA。

如何在多模態的語境中更細致準確地利用Transformer強大的表達能力呢？Facebook最新的 Transformer is All You Need 也許可以給你答案。

這篇貌似標題黨的文章開宗明義，針對文本+視覺的多模態任務，用好Transformer就夠了，與許多前作不同，這次提出的模型一個模型可以解決多個任務：目標檢測、自然語言理解、視覺問答，各個模型板塊各司其職、條理清晰：視覺編碼器、文本編碼器、特征融合解碼器，都是建立在多層Transformer之上，最后添加為每個任務設計的處理器，通過多任務訓練，一舉刷新了多個任務的榜單。

文本編碼器用Transformer提取文本特征是個老生常談的問題，從BERT石破天驚開始，純文本領域近乎已被Transformer蠶食殆盡，所以該文也不能免俗，直接借用BERT的結構提取文本內容，區別在于，為了解決多個任務，在文本序列前添加了一個針對不同任務的參數向量，在最后輸出隱藏狀態到解碼器時再去掉。

視覺編碼器本文將Transformer強大的表達能力運用到視覺特征的提取中，由于圖片像素點數量巨大，首先通過基于卷積神經網絡的ResNet-50提取卷積特征，極大程度上地降低了特征數量，最終得到的feature map大小為，然后用全聯接層調整單個特征的維度到，再利用多層Transformer中的注意力機制提取各個feature之間的關系，由于Transformer的輸入是序列，文章將拉成一條長為的序列，另外和文本編碼器類似，同樣添加了與下游任務相關的。

其中是調整維度的全聯接層，是多層Transformer編碼器。

模態融合解碼器多模態的關鍵之一就在于怎么同時利用多個模態，在本文中是通過Transformer的解碼器實現的，這個解碼器首先將任務相關的query做self-attention，再將結果與文本編碼器和視覺編碼器的結果做cross-attention，針對單一模態的任務，選取對應編碼器的輸出即可，針對多模態的任務，取兩個編碼器輸出的拼接。

任務處理器（task-specific output head）之前多模態預訓練模型往往只針對某一項任務，而本文提出的一個模型可以解決多個文本+視覺任務，與BERT可以解決多個文本任務類似，本文的模型在模態融合解碼器的結果上添加為每個任務設計的處理器，這個處理器相對簡單，用于從隱藏狀態中提取出與特定任務相匹配的特征。

目標檢測：添加box_head和class_head兩個前饋神經網絡從最后一層隱藏狀態中提取特征用來確定目標位置和預測目標類型。

自然語言理解、視覺問答：通過基于全聯接層的分類模型實現，將模態融合解碼器結果的第一位隱藏狀態輸入到兩層全聯接層并以GeLU作為激活函數，最后計算交叉熵損失。

實驗與總結本文提出的多模態預訓練模型各個板塊劃分明確，通過多層Transformer分別提取特征，再利用解碼器機制融合特征并完成下游任務，同時借助最后一層任務相關的處理器，可以通過一個模型解決多個任務，同時也讓多任務預訓練成為可能，并在實驗中的各個數據集上得到了論文主要進行了兩部分實驗：

多任務學習：

這里的多任務涉及目標檢測和視覺問答兩個任務，在目標檢測上運用COCO和VG兩個數據集，在視覺問答上運用VQAv2數據集。對比了單一任務和多任務同時訓練的結果，同時對比了不同任務共用解碼器的結果。

從結果中我們可以看出，單純的使用多任務訓練并不一定可以提高結果，不同任務間雖然相關但是卻不完全相同，這可能是任務本身差異或者數據集的特性所導致，第二行和第五行可以很明顯地看出COCO上的目標檢測和VQAv2的視覺問答相結合后，結果有顯著的下降，然而VG上的目標檢測卻能夠和視覺問答很好地結合，通過三個數據集上的共同訓練，可以得到最高的結果。

多模態學習：

這一實驗中，為了體現所提出模型能夠有效解決多個多種模態的不同任務，論文作者在之前COCO、VG、VQAv2的基礎上，增加了單一文本任務GLUE的幾個數據集（QNLI、QQP、MNLI、SST-2）和視覺推斷數據集SNLI-VE，從數據集的數量上可以看出本文模型的全能性。與本文對比的有純文本的BERT、基于Transformer的視覺模型DETR、多模態預訓練模型VisualBERT。

仔細看各個數據集上的結果，不難看出本文提出的模型其實并不能在所有數據集多上刷出SOTA，比如COCO上遜色于DETR，SNLI-VE遜色于VisualBERT，SST-2遜色于BERT，其他數據集上都有一定的提高，但是模型卻勝在一個“全”字，模型的結構十分清晰明了，各個板塊的作用十分明確，同時針對不同任務的處理器也對后續多模態任務富有啟發性。

原文標題：【Transformer】沒有什么多模態任務是一層Transformer解決不了的！

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3638

瀏覽量
134428
Transforme

Transforme

+關注

關注
0

文章
12

瀏覽量
8787
多模

多模

+關注

關注
1

文章
28

瀏覽量
10850

原文標題：【Transformer】沒有什么多模態任務是一層Transformer解決不了的！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

商湯日日新多模態大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態大模型，在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。

發表于 12-20 10:39 ?144次閱讀

使用ReMEmbR實現機器人推理與行動能力

視覺語言模型（VLM）通過將文本和圖像投射到同一個嵌入空間，將基礎大語言模型（LLM）強大的語言理解能力與視覺 transformer（ViT）的視覺能力相結合。VLM 可以處理非結構

發表于 11-19 15:37 ?227次閱讀

使用ReMEmbR實現機器人推理與行動<b class='flag-5'>能力</b>

未來AI大模型的發展趨勢

上得到了顯著提升。未來，算法和架構的進一步優化將推動AI大模型在性能上實現新的突破。多頭自注意力機制、前饋神經網絡等關鍵技術的改進，將增強模型的表達能力和泛化能力。多模態融合：

發表于 10-23 15:06 ?594次閱讀

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多模態

發表于 10-18 09:39 ?412次閱讀

云知聲山海多模態大模型UniGPT-mMed登頂MMMU測評榜首

近日，多模態人工智能模型基準評測集MMMU更新榜單，云知聲山海多模態大模型UniGPT-mMed以通用能力、醫療專業

發表于 10-12 14:09 ?282次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

習語言的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞，模型逐漸掌握語言的規律和特征。常用的模型結構 Transformer架構：大語言模型通?；?/div>
發表于 08-02 11:03

科普講座 | 讓AIGC提高你的專業表達和創作能力

的專題講座，激發工程師專業文章創作靈感，提高個人的專業表達能力，從而在電力電子領域展現更加卓越的才華！舉辦時間7月2日1900講座內容：技術：AIGC時代到來方法：讓A

發表于 06-23 08:14 ?323次閱讀

智源研究院揭曉大模型測評結果，豆包與百川智能大模型表現優異

在多模態理解圖文問答任務中，開源和閉源模型表現相當，而國產模型則表現出色。此外，在中文語境下的文生圖能力方面，國產

發表于 05-20 09:26 ?724次閱讀

阿里云通義大模型助力“小愛同學”強化多模態AI生成能力

小米的人工智能助手“小愛同學”近期與阿里云通義大模型達成戰略合作，共同提升其多模態AI生成能力，特別是在圖片生成與理解方面。這次合作不僅將強化“小愛同學”的功能，還將在小米的多個產品線，包括小米汽車和手機等設備上得到實際應用。

發表于 05-13 09:19 ?800次閱讀

商湯科技發布5.0多模態大模型，綜合能力全面對標GPT-4 Turbo

商湯科技發布5.0多模態大模型，綜合能力全面對標GPT-4 Turbo 4月23日，商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布了行業首個云、端、邊全棧大模型產品矩陣，能夠滿足不同規模

發表于 04-24 16:49 ?1100次閱讀

李未可科技正式推出WAKE-AI多模態AI大模型

李未可科技多模態 AI 大模型正式發布，積極推進 AI 在終端的場景應用 ? 4月18日，2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI多

發表于 04-18 17:01 ?592次閱讀

基于Transformer的多模態BEV融合方案

由于大量的相機和激光雷達特征以及注意力的二次性質，將 Transformer 架構簡單地應用于相機-激光雷達融合問題是很困難的。

發表于 01-23 11:39 ?820次閱讀

什么是多模態？多模態的難題是什么？

單模態大模型，通常大于100M～1B參數。具有較強的通用性，比如對圖片中任意物體進行分割，或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。

發表于 01-17 10:03 ?4590次閱讀

自動駕駛和多模態大語言模型的發展歷程

多模態大語言模型(MLLM) 最近引起了廣泛的關注，其將 LLM 的推理能力與圖像、視頻和音頻數據相結合，通過多模態對齊使它們能夠更高效地執行各種任務，包括圖像分類、將文本與相應的視頻

發表于 12-28 11:45 ?520次閱讀

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如

發表于 12-28 11:19 ?1259次閱讀