色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

單張消費級顯卡微調(diào)多模態(tài)大模型

深度學習自然語言處理 ? 來源:Smarter ? 2023-06-30 10:43 ? 次閱讀

把大模型的訓練門檻打下來!我們在單張消費級顯卡上實現(xiàn)了多模態(tài)大模型(LaVIN-7B, LaVIN-13B)的適配和訓練,這篇文章主要介紹一下用到的技術方案和技術細節(jié),供有需要的人參考。這里用到的模型是LaVIN(語言模型是LLaMA,視覺模型是ViT-L)。LaVIN通過參數(shù)高效的訓練能將LLaMA拓展到多模態(tài)來完成圖文問答、對話以及文本對話等等任務。

目前的結果:7B的多模態(tài)大模型訓練(LaVIN-7B)大約需要8~9G的顯存,13B的多模態(tài)大模型訓練(LaVIN-13B)大約需要13~14G顯存。目前的模型在單張消費級顯卡上已經(jīng)完全能夠完成訓練了,性能相較于fp16略有下降,但是仍然極具競爭力!未來預計65B的模型也能在單張A100(40G)上完成訓練,我們后續(xù)會公布結果。

技術方案

我們的技術方案結合了LaVIN和qlora,主要分為以下幾點:

參數(shù)高效的多模態(tài)適配 (大概減少了一大半顯存)

4bit量化訓練 (大概減少了3~8G的固定顯存)

梯度累計+gradient checkpointing (大概減少了一半多的顯存)

Paged Optimizer (作用不是很明顯)

參數(shù)高效的多模態(tài)適配。

bdc7c850-1692-11ee-962d-dac502259ad0.png

在此之前,我先簡單介紹一下之前的工作《Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models》。我們在這個工作中提出了一種參數(shù)高效的適配方法,能夠在將整個LLM參數(shù)凍住的情況下實現(xiàn):

參數(shù)高效的多模態(tài)大模型適配(僅花費3~6M額外參數(shù))

端到端高效訓練 (減少2/3的訓練時間)

單模態(tài)和多模態(tài)的自動切換(兼容不同模態(tài))

通過這種方式,我們在ScienceQA上達到了接近SOTA的性能,同時實現(xiàn)了文本模態(tài)和圖文模態(tài)的同時適配。這種參數(shù)高效的訓練方式,實際上節(jié)約了大部分的顯存。以LLaVA為比較對象,在完全微調(diào)大模型的情況下,LLaVA-13B在A100(80G)上會爆顯存。相比之下,LaVIN-13B僅僅需要大約55G的顯存開銷。考慮到LLaVA還使用了gradient checkpointing,LaVIN-13B至少節(jié)省了一半的顯存開銷(估計),同時訓練速度會更快。相比于現(xiàn)有的參數(shù)高效的方法,我們的方案在性能和適配性上有顯著優(yōu)勢,具體參考論文,這里不贅述了。但是由于deepspeed好像不支持參數(shù)高效的訓練方式,所以實際中顯存開銷其實和加滿優(yōu)化的LLaVA差不多,甚至略多一點。

4bit量化訓練

4bit量化訓練主要參考了qlora。簡單來說,qlora把LLM的權重量化成了4bit來存儲,同時在訓練過程中反量化成16bit來保證訓練精度。通過這種方式,能夠大大降低訓練過程中的顯存開銷(訓練速度應該區(qū)別不大)。這種方法非常適合和參數(shù)高效的方法進行結合。但是原文中針對的是單模態(tài)的LLM,同時代碼已經(jīng)封在了huggingface的庫里。因此,我們把核心代碼從huggingface的庫里抽取出來,同時遷移到了LaVIN的代碼里。主要原理就是將LLM中所有的線性層替換成4bit的量化層,感興趣的可以去參考一下我們的寫法,在quantization.py以及mm_adaptation.py中大概十來行代碼。

4bit量化訓練之后,顯存在bs>1的時候下降的不是特別明顯。LaVIN-7B大概下降了4~6G的樣子,但是這部分的顯存下降是固定的,其實非常有價值。到這里我也很好奇qlora怎么把模型塞到單卡里的,這個時候LaVIN-7B的顯存開銷大概還在36+G的水平。后面check了一下他們的代碼發(fā)現(xiàn)了接下來的關鍵設置。

梯度累計+gradient checkpointing

這里的關鍵就在于時間換空間。通過batch size (bs)=1+梯度累計以及gradient checkpointing的方式能夠大大降低顯存開銷。這也是qlora訓練時的一大核心(其實光靠量化訓練很難做到顯存的極致壓縮)。我們的實驗結果大概是這樣:LaVIN-7B在bs=4改成batch size (bs)=1+梯度累計之后顯存降低到了25G左右。經(jīng)過gradient checkpointing,顯存降低到9~10G左右。到這里,顯存從原來的上百G壓縮到了10G左右,已經(jīng)非常可觀了。但是這一步的代價是訓練速度明顯變慢了,但其實和qlora原文中的速度下降比例差不多。相比于原來完全訓不了的情況來說,這些額外的時間開銷顯得非常微不足道。

Paged Optimizer

Paged Optimizer的作用是在快爆顯存的時候,會將optimizer中的一部分權重遷移到cpu上,從而保證訓練的正常進行。實際使用中,沒有感覺到太大的區(qū)別。我猜測是在顯存開銷和顯卡顯存非常接近的時候,這個設置能救下急。正常情況下,好像沒有什么太大的幫助。感興趣的可以試一下8 bit的optimizer,或許幫助更明顯。

性能比較

ScienceQA(多模態(tài)科學問答數(shù)據(jù)集):在ScienceQA上,我們單卡的情況下完成了4bit訓練并和16bit的方法進行了比較,結果如下:

bde233e8-1692-11ee-962d-dac502259ad0.jpg

可以看到LaVIN-lite性能仍然遠超參數(shù)高效的方法LLaMA-Adapter,但是相比較16bit訓練的LaVIN,性能出現(xiàn)了略微的下降。我們猜測原因是4bit訓練的時候可能需要插入更多的adapter來進行適配,也歡迎大家基于這個基線來進行進一步探索和比較。

最后,在解決訓練的問題之后,我們會持續(xù)推進模型能力的提升以及應用場景的創(chuàng)新。另外,多模態(tài)對話模型我們也在持續(xù)迭代中,未來也會以技術報告的形式來進行分享。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 適配器
    +關注

    關注

    8

    文章

    1951

    瀏覽量

    68000

原文標題:LaVIN-lite:單張消費級顯卡微調(diào)多模態(tài)大模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    簡單的模型進行流固耦合的模態(tài)分析

      本次分享,對一個簡單的模型進行流固耦合的模態(tài)分析,有限元科技小編主要給大家演示如何使用Hypermesh與Nastran對流固耦合的結構進行模態(tài)分析,以及了解聲腔對結構模態(tài)的影響。
    發(fā)表于 07-07 17:15

    VisCPM:邁向多語言模態(tài)模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進,模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?711次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補全一切」

    當前學界和工業(yè)界都對模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型
    的頭像 發(fā)表于 07-16 20:45 ?717次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    中科大&amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的模態(tài)模型

    如上圖所示,UniDoc基于預訓練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、模態(tài)理解等四個任務,通過多模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?1544次閱讀
    中科大&amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    模態(tài)模型企業(yè),智子引擎全國總部落戶南京江北

    智子引擎主要從事新一代人工智能低層引擎和模態(tài)模型的研究開發(fā)和商業(yè)化運營。本項目開發(fā)了應用水平模態(tài)chatgpt產(chǎn)品“元乘象ChatIm
    的頭像 發(fā)表于 10-10 11:03 ?1055次閱讀

    北大&amp;華為提出:模態(tài)基礎大模型的高效微調(diào)

    深度學習的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預訓練模型在文本、視覺和模態(tài)領域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個明顯
    的頭像 發(fā)表于 11-08 16:20 ?948次閱讀
    北大&amp;華為提出:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎大<b class='flag-5'>模型</b>的高效<b class='flag-5'>微調(diào)</b>

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單
    發(fā)表于 11-09 14:53 ?503次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的可行性

    模型+模態(tài)的3種實現(xiàn)方法

    我們知道,預訓練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態(tài)的信息,讓其變得更強大、更通用呢?本節(jié)將介紹“大
    的頭像 發(fā)表于 12-13 13:55 ?1693次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)方法

    從Google模態(tài)模型看后續(xù)大模型應該具備哪些能力

    前段時間Google推出Gemini模態(tài)模型,展示了不凡的對話能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1259次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>看后續(xù)大<b class='flag-5'>模型</b>應該具備哪些能力

    機器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發(fā)表于 01-19 11:43 ?408次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言視覺大<b class='flag-5'>模型</b>

    模型為什么要微調(diào)?大模型微調(diào)的原理

    難以達到最佳性能。為了提升模型在特定任務上的表現(xiàn),微調(diào)(Fine-tuning)成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調(diào)以及微調(diào)
    的頭像 發(fā)表于 07-10 10:43 ?3909次閱讀

    云知聲推出山海模態(tài)模型

    在人工智能技術的浩瀚星海中,模態(tài)交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨運的山海模態(tài)
    的頭像 發(fā)表于 08-27 15:20 ?387次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態(tài)之間的關聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?412次閱讀

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言
    的頭像 發(fā)表于 12-03 15:18 ?114次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——下

    商湯日日新模態(tài)模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權威綜合評測權威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?144次閱讀
    主站蜘蛛池模板: 有码在线播放| 亚欧视频在线观看| 日日操日日射| 视频一区国产在线二区| 午夜天堂一区人妻| 一个人免费视频在线观看| 2020年国产精品午夜福利在线观看| 97免费在线视频| 俄罗斯女人与马Z00Z视频| 国产免费人成在线视频有码| 精品国产九九| 欧美6O老妪与小伙交| 色欲久久99精品久久久久久AV| 亚洲成人mv| 2022年国产精品久久久久| 成人AV精品视频| 国产一区二区高清| 老师湿乎乎两半嫩| 日韩AV爽爽爽久久久久久 | 久久这里只精品热在线99| 男女高潮又爽又黄又无遮挡 | 亚洲免费一区| 97国产在线播放| 国产精品av免费观看| 久久r视频| 日韩a视频在线观看| 亚洲三级视频在线| mxgs-877痉挛媚药按摩| 国产亚洲精品A久久777777| 美女裸露100%奶头视频| 偷偷鲁手机在线播放AV| 116美女写真成人午夜视频| 福利视频一二三在线观看| 久久99蜜桃精品麻豆| 色狠狠色狠狠综合天天| 樱桃BT在线观看| 国产成人a一在线观看| 狼人射综合| 午夜aaaa| blacked黑人战小美女| 精品第一国产综合精品蜜芽|