色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文理解多模態大語言模型——上

jf_23871869 ? 來源:Sebastian Raschka 博士 ? 作者:Sebastian Raschka 博士 ? 2024-12-02 18:29 ? 次閱讀

作者:Sebastian Raschka 博士,

翻譯:張晶,Linux Fundation APAC Open Source Evangelist

編者按:本文并不是逐字逐句翻譯,而是以更有利于中文讀者理解的目標,做了刪減、重構和意譯,并替換了多張不適合中文讀者的示意圖。

原文地址:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

在過去幾個月中,OpenVINO?架構師 Yury閱讀了眾多有關多模態大語言模型的論文和博客,在此基礎上,推薦了一篇解讀多模態大語言模型的最佳文章《Understand Multimodal LLMs》--- 能讓讀者很好的理解大語言模型(LLMs)是如何演進為視覺語言模型(VLMs)的。

wKgaoWdD-e-ATu-MAAG9WSDq_VU336.png

閱讀本文之前,可以先在自己的電腦上運行當前最新視覺大語言模型Llama 3.2 Vision模型,感受一下視覺語言模型能干什么!

一,什么是多模態大語言模型

多模態大語言模型是能夠處理多種“模態”類型輸入的大語言模型,其中每個“模態”指的是特定類型的數據,例如:文本、聲音、圖像、視頻等,處理結果以文本類型輸出。

wKgZoWdD-fCAVnxiAADAr_jptRk907.png


多模態大語言模型的一個經典而直觀的應用是解讀圖片:輸入圖像和提示詞,模型生成該圖像的描述(文本),如下圖所示。

wKgaoWdD-fCAUDWaAAXMMpv5kdk153.png

當然,還有許多其他應用,例如:從圖片中提取信息并將其轉換為 LaTeX 或 Markdown。

wKgZoWdD-fCAXDNIAAKgO2sq_As332.png

二,構建多模態大語言模型的常見方式

構建多模態 LLM 有兩種主要方式:

方法 A:統一嵌入解碼器架構(Unified Embedding Decoder Architecture);

方法 B:跨模態注意架構(Cross-modality Attention Architecture approach)。

(順便說一句,Sebastian認為這些技術目前還沒有正式的術語,但如果您遇到過,請告訴他。例如,更簡短的描述可能是“僅解碼器(Decoder-Only)”和“基于交叉注意(Cross-Attention-Based)”)

wKgaoWdD-fGAbaF5AAOi-7emHU0404.png

如上圖所示,統一嵌入解碼器架構使用單個解碼器模型,與僅解碼器(Decoder-Only)的 LLM 架構(如 GPT-2 或 Llama 3.2)非常相似。在這種方法中,圖像被轉換為與原始文本分詞(本文將大語言模型語境下的Token,統一翻譯為分詞)具有相同嵌入大小的分詞,從而允許 LLM 在連接后同時處理文本和圖像輸入分詞。

跨模態注意架構采用交叉注意機制,將圖像和文本嵌入直接集成到注意層中。

三,統一嵌入解碼器架構

統一嵌入解碼器架構是一種將圖像向量和文本向量組合成嵌入向量后輸入給大語言模型的架構,其優點是:無需修改原有的大語言模型架構。

在統一嵌入解碼器架構中,圖像跟文本一樣,先被轉換為分詞(Token),然后被轉換為嵌入向量,最后跟文本嵌入向量一起,送入原來的大語言模型進行訓練或推理。

wKgZoWdD-fGAIEbvAADhxhNqEIo722.png

1,文本向量化

自然語言本文在輸入大語言模型前,會先經過分詞器(Tokenizer)變成分詞,然后經過嵌入層變成向量。

wKgaoWdD-fGAZhxRAACKqjT-4OE599.png

自然語言是非常高維的數據,因為每個可能的單詞都被視為一個特征。通過分詞化,可以將文本映射到一個固定大小的向量空間中(例如,GPT2模型用的分詞器算法是BPE,詞匯表大小是50,257),這有助于減少數據的維度,使得模型訓練更加高效。

分詞數據經過嵌入層(Embedding Layer)轉換成向量數據后,方便模型進行特征提取、捕捉豐富的語義信息和上下文關系,并提高模型的性能和計算效率。

將自然語言文本分詞化和向量化已經成為Transformer架構模型的標準數據預處理步驟。

2,圖像向量化

類似于文本的分詞化和向量化,圖像的向量化是通過圖像編碼器模塊(而不是分詞器)實現的。原始圖像首先會被分割成更小的塊(patches),這與分詞器(Tokenizer)將自然語言的單詞(Word)拆成分詞(Token)類似。

隨后,圖像編碼器會把這些塊由線性投影(Linear Projection)模塊和預訓練視覺轉換器(Vision Transformer)進行編碼,最終轉換成向量,其大小與文本向量相同。

wKgZO2dNjCKASw6FAAG_4qeOP7g896.png

上圖中的“線性投影”由一個單一的線性層(即全連接層)組成,這個層的目的是將被展平為向量的圖像塊投影到與變換器編碼器兼容的嵌入尺寸。

當前普遍使用的視覺變換器是CLIP或OpenCLIP等,負責把展平的圖像塊變換為圖像向量。由于圖像塊向量具有與文本分詞向量相同的向量維度,我們可以簡單地將它們串聯起來作為大語言模型的輸入,如本節開頭的圖片所示。

到此,統一嵌入解碼器架構(Unified Embedding Decoder Architecture)介紹完畢。

下一篇文章,我們將繼續介紹:跨模態注意架構(Cross-modality Attention Architecture approach)。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內容請關注“算力魔方?”!

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    520

    瀏覽量

    10268
收藏 人收藏

    評論

    相關推薦

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    能夠關注到輸入文本中的重要部分,從而提高預測的準確性和效率。這種機制允許模型在處理文本時同時考慮多個位置的信息,并根據重要性進行加權處理。 些關鍵技術 1. 上下文理解語言
    發表于 08-02 11:03

    如何利用LLM做模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發表于 05-11 17:09 ?901次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態</b>任務?

    邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT,為模態LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務上表現出驚人的能力。與此同時,模態大型語言
    的頭像 發表于 05-22 14:38 ?676次閱讀
    邱錫鵬團隊提出具有內生跨<b class='flag-5'>模態</b>能力的SpeechGPT,為<b class='flag-5'>多</b><b class='flag-5'>模態</b>LLM指明方向

    VisCPM:邁向多語言模態模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態模型
    的頭像 發表于 07-10 10:05 ?711次閱讀
    VisCPM:邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態模型開源,在模態序列中「補全切」

    當前學界和工業界都對模態模型研究熱情高漲。去年,谷歌的 Deepmind 發布了模態視覺語言
    的頭像 發表于 07-16 20:45 ?717次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全<b class='flag-5'>一</b>切」

    中科大&amp;字節提出UniDoc:統的面向文字場景的模態模型

    如上圖所示,UniDoc基于預訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、模態
    的頭像 發表于 08-31 15:29 ?1543次閱讀
    中科大&amp;字節提出UniDoc:統<b class='flag-5'>一</b>的面向文字場景的<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    DreamLLM:多功能模態大型語言模型,你的DreamLLM~

    由于固有的模態缺口,如CLIP語義主要關注模態共享信息,往往忽略了可以增強多模態理解模態特定知識。因此,這些研究并沒有充分認識到
    的頭像 發表于 09-25 17:26 ?738次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態</b>大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>,你的DreamLLM~

    探究編輯模態語言模型的可行性

    不同于單模態模型編輯,模態模型編輯需要考慮更多的模態信息。文章出發點依然從單
    發表于 11-09 14:53 ?503次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的可行性

    自動駕駛和模態語言模型的發展歷程

    模態語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態對齊使它們能夠更高效地執
    發表于 12-28 11:45 ?520次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的發展歷程

    機器人基于開源的模態語言視覺大模型

    ByteDance Research 基于開源的模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作
    發表于 01-19 11:43 ?408次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>語言</b>視覺大<b class='flag-5'>模型</b>

    韓國Kakao宣布開發模態語言模型“蜜蜂”

    韓國互聯網巨頭Kakao最近宣布開發了種名為“蜜蜂”(Honeybee)的模態大型語言模型。這種創新
    的頭像 發表于 01-19 16:11 ?682次閱讀

    李未可科技正式推出WAKE-AI模態AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新
    發表于 04-18 17:01 ?592次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?412次閱讀

    文理解模態語言模型——下

    /understanding-multimodal-llms ? 《文理解模態語言模型 -
    的頭像 發表于 12-03 15:18 ?114次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下

    商湯日日新模態模型權威評測第

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第
    的頭像 發表于 12-20 10:39 ?144次閱讀
    主站蜘蛛池模板: 日韩欧美三区| chinesevideos原创麻豆| 欧美精品成人一区二区在线观看| 成人人观看的免费毛片| 一个人日本的视频免费完整版| 日本XXXXZZX片免费观看| 久久re热在线视频精6| 国产成人女人在线视频观看| 2017必看无码作品| 亚洲精品无码不卡在线播HE| 人妖和美女玩| 男男腐文污高干嗯啊快点1V1| 国内卡一卡二卡三免费网站| 国产成人 免费观看| 爆乳啪啪无码成人二区亚洲欧美| 在线免费观看视频a| 亚洲国产夜色在线观看| 日日啪在线影院百度| 年轻老师毛茸茸自由性 | 欧美乱子YELLOWVIDEO| 久久操韩国自偷拍| 国产一区二区无码蜜芽精品| 岛国片在线看| 超级碰碰青草久热国产| 99精品视频一区在线视频免费观看| 亚洲日韩精品AV中文字幕| 校花被扒衣吸乳羞羞漫画| 色综合久久综合网观看| 区一区二视频免费观看| 暖暖 视频 免费 高清 在线观看| 老师扒开尿口男生摸尿口| 久草在线新是免费视频| 吉吉影音先锋av资源| 国产自拍视频在线一区| 国产亚洲精品福利视频| 国产欧美精品一区二区色综合| 国产WW高清大片免费看| 国产高清精品自在久久| 国产成年网站v片在线观看| 国产高清美女一级毛片久久| 国产99在线视频|