色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一張RTX 2080Ti搞定大模型訓練!算力節省136倍!

CVer ? 來源:機器之心 ? 2023-01-03 11:12 ? 次閱讀

任何 transformer 變體、任何數據集都通用。

在一塊消費級 GPU 上只用一天時間訓練,可以得到什么樣的 BERT 模型?

最近一段時間,語言模型再次帶火了 AI 領域。預訓練語言模型的無監督訓練屬性使其可以在海量樣本基礎上進行訓練,并獲得大量語義語法知識,不論分類還是問答,似乎沒有 AI 解決不了的問題。

然而,大模型既帶來了技術突破,也對算力提出了無窮無盡的需求。

最近,來自馬里蘭大學的 Jonas Geiping、Tom Goldstein 討論了所有關于擴大計算規模的研究,深入探討了縮小計算規模的改進方向。他們的研究引發了機器學習社區的關注。

在新研究中,作者對于單塊消費級 GPU(RTX 2080Ti)能訓練出什么樣的語言模型進行了討論,并獲得了令人興奮的結果。讓我們看看它是如何實現的:

模型規模的擴展

在自然語言處理(NLP)領域,基于 Transformer 架構的預訓練模型已經成為主流,并帶來諸多突破性進展。很大程度上,這些模型性能強大的原因是它們的規模很大。隨著模型參數量和數據量的增長,模型的性能會不斷提高。因此,NLP 領域內掀起了一場增大模型規模的競賽。

然而,很少有研究人員或從業者認為他們有能力訓練大型語言模型(LLM),通常只有行業內的科技巨頭擁有訓練 LLM 的資源。

為了扭轉這一趨勢,來自馬里蘭大學的研究者進行了一番探索。

論文《Cramming: Training a Language Model on a Single GPU in One Day》:

d9c064ee-8a02-11ed-bfe3-dac502259ad0.jpg

論文鏈接:https://arxiv.org/abs/2212.14034

這個問題對于大多數研究人員和從業者來說具有重要意義,因為這將成為模型訓練成本的參考,并有望打破 LLM 訓練成本超高的瓶頸。該研究的論文迅速在推特上引發關注和討論。

d9cf5918-8a02-11ed-bfe3-dac502259ad0.png

IBM 的 NLP 研究專家 Leshem Choshen 在推特上評價道:「這篇論文總結了所有你能想到的大模型訓練 trick。」

d9e0d062-8a02-11ed-bfe3-dac502259ad0.png

馬里蘭大學的研究者認為:如果按比例縮小的模型預訓練是大型預訓練的可行模擬,那么這將開啟一系列目前難以實現的大規模模型的進一步學術研究。

此外,該研究嘗試對過去幾年 NLP 領域的整體進展進行基準測試,而不僅僅局限于模型規模的影響。

該研究創建了一項稱為「Cramming」的挑戰 —— 在測試前一天學習整個語言模型。研究者首先分析了訓練 pipeline 的方方面面,以了解哪些修改可以實際提高小規模模擬模型的性能。并且,該研究表明,即使在這種受限環境中,模型性能也嚴格遵循在大型計算環境中觀察到的擴展定律。

雖然較小的模型架構可以加快梯度計算,但隨著時間的推移,模型改進的總體速度幾乎保持不變。該研究嘗試利用擴展定律在不影響模型大小的情況下通過提高梯度計算的有效率獲得性能提升。最后,該研究成功訓練出性能可觀的模型 —— 在 GLUE 任務上接近甚至超過 BERT—— 而且訓練成本很低。

資源有限

為了模擬普通從業者和研究人員的資源環境,該研究首先構建了一個資源受限的研究環境:

一個任意大小的基于 transformer 的語言模型,完全從頭開始使用掩碼語言建模(masked-language modeling)進行訓練;

pipeline 中不能包含現有的預訓練模型;

任何原始文本(不包括下游數據)都可以包含在訓練中,這意味著可以通過明智地選擇如何以及何時對數據進行采樣來實現加速,前提是采樣機制不需要預訓練模型;

原始數據的下載和預處理不計入總預算,這里的預處理包括基于 CPU 的 tokenizer 構造、tokenization 和 filtering,但不包括表征學習;

訓練僅在單塊 GPU 上進行 24 小時;

下游性能在 GLUE 上進行評估,GLUE 上的下游微調僅限于僅使用下游任務的訓練數據進行簡單訓練(5 個 epoch 或者更少),并且需要使用為所有 GLUE 任務設置的全局超參數,下游微調不計算在總預算中。

該研究與一些經典大模型的具體訓練設置比較如下表所示:

d9efb37a-8a02-11ed-bfe3-dac502259ad0.png

改進方法

研究人員實施并測試了已有工作提出的一些修改方向,包括通用實現和初始數據設置,并嘗試了修改架構、訓練以及改動數據集的方法。

實驗在 PyTorch 中進行,不使用特質化的實現以盡量公平,所有內容都保留在 PyTorch 框架的實現級別上,只允許可應用于所有組件的自動運算符融合,另外只有在選擇了最終的架構變體之后,才會重新啟用高效注意力內核。

d9ffe3d0-8a02-11ed-bfe3-dac502259ad0.jpg

圖 1:不同 transformer 架構變體 MLM 損失函數與 token 對比的情況。左:全局視圖。右圖:放大到 10e8 和更多 token 情況下。所有模型都用相同算力成本訓練,我們可以看到:通過架構重塑實現的改進微乎其微。

有關提升性能,我們最先想到的方法肯定是修改模型架構。從直覺上,較小 / 較低容量的模型似乎在一日一卡式的訓練中是最優的。然而在研究了模型類型與訓練效率之間的關系后,研究人員發現縮放法則為縮小規模設置了巨大的障礙。每個 token 的訓練效率在很大程度上取決于模型大小,而不是 transformer 的類型。

此外,較小的模型學習效率較低,這在很大程度上減緩了吞吐量的增加。幸運的是,在相同大小的模型中,訓練效率幾乎保持不變這一事實,意味著我們可以在參數量類似的架構中尋找合適的,主要根據影響單個梯度步驟的計算時間來做出設計選擇。

da100f80-8a02-11ed-bfe3-dac502259ad0.jpg

圖 2:學習率 Schedule。盡管在全局范圍內行為相似,但在中間的放大圖里可以看到差異確實存在。

在該工作中,作者研究了訓練超參數對 BERT-base 架構的影響。可以理解的是,原始 BERT 訓練方法的模型在 Cramming 式訓練要求中的表現不佳,因此研究人員重新審視了一些標準選擇。

作者也研究了優化數據集的思路。擴展法則阻礙了通過架構修改取得重大收益的方式(超出計算效率),但縮放定律并不妨礙我們在更好的數據上進行訓練。如果想在在每秒訓練更多的 token,我們應該尋求在更好的 token 上訓練。

da1c92e6-8a02-11ed-bfe3-dac502259ad0.jpg

圖 3:在 bookcorpus-wikipedia 數據的 Cramming 式訓練中訓練的模型的詞匯量與 GLUE 分數和 MNLI 準確性。

在 GLUE 上的表現

研究人員系統地評估了 GLUE 基準的性能和 WNLI,并注意到在前面的部分中只使用了 MNLI (m),并且沒有根據完整的 GLUE 分數調整超參數。在新研究中對于 BERT-base 作者微調了 5 個 epoch 的所有數據集,batch size 為 32,學習率為 2 × 10-5。對于 Cramming 訓練的模型這不是最優的,其可以從 16 的 batch size 和 4 × 10?5 的學習率以及余弦衰減中獲得微小的改進(此設置不會改進預訓練的 BERT check point)。

表 3 和表 4 描述了此設置在 GLUE 下游任務上的性能。作者比較了原始的 BERT-base check point、在達到算力上限后停止的 BERT 預訓練設置、Izsak 等人 2021 年研究中描述的設置和修改后的設置,為每塊 GPU 設置訓練一天。總體而言,性能出奇地好,尤其是對于 MNLI、QQP、QNLI 和 SST-2 等較大的數據集,下游微調可以消除完整 BERT 模型和 Cramming 設置變體之間的剩余差異。

此外,作者發現新方法與算力有限的普通 BERT 訓練及 Izsak 等人描述的方法相比都有很大改進。對于 Izsak 等人的研究,其描述的方法最初是為一個完整的 8 GPU 刀片服務器設計的,并且在新的場景中,將其中的 BERT-large 模型壓縮到較小的 GPU 上是導致大部分性能下降的原因。

da2ae74c-8a02-11ed-bfe3-dac502259ad0.jpg

表格 3:基線 BERT 與 Cramming 版本模型的 GLUE-dev 性能比較。其中所有任務的超參數都是固定的,epoch 限制為 5 個,缺失值為 NaN。是為 8 GPU 刀片服務器設計的,而在這里,所有計算被塞進了一塊 GPU。

da38d7da-8a02-11ed-bfe3-dac502259ad0.jpg

表格 4:基線 BERT 與填充模型的 GLUE-dev 性能比較。

總體而言,使用論文中的方法,訓練結果已經非常接近原版 BERT,但要知道后者使用的總 FLOPS 是新方法 45-136 倍(在 16 塊 TPU 上要花費四天時間)。而當訓練時間延長 16 倍時(在 8 塊 GPU 上訓練兩天),新方法的性能實際上比原始 BERT 提高了很多,達到了 RoBERTa 的水平。

總結

在該工作中,人們討論了基于 transformer 的語言模型在計算量非常有限的環境中可以實現多少性能,值得慶幸的是,幾條修改方向可以讓我們在 GLUE 上獲得不錯的下游性能。研究人員表示,希望這項工作可以為進一步的改進提供一個基線,并進一步給近年來為 transformer 架構提出的許多改進和技巧提供理論支撐。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4743

    瀏覽量

    129006
  • 自然語言處理

    關注

    1

    文章

    618

    瀏覽量

    13573
  • 算力
    +關注

    關注

    1

    文章

    985

    瀏覽量

    14848
  • 大模型
    +關注

    關注

    2

    文章

    2476

    瀏覽量

    2816

原文標題:重磅!一張RTX 2080Ti搞定大模型訓練!算力節省136倍!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    浪潮信息與智源研究院攜手共建大模型多元生態

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰略合作協議,雙方將緊密合作,共同構建大模型多元開源創新生態。 此次合作旨在提升大模型創新研發的
    的頭像 發表于 12-31 11:49 ?225次閱讀

    從零開始訓練個大語言模型需要投資多少錢?

    關于訓練技巧和模型評估的文章,但很少有直接告訴你如何估算訓練時間和成本的。前面分享了些關于大模型/本地知識庫的安裝部署方法,無需編寫代碼,
    的頭像 發表于 11-08 14:15 ?231次閱讀
    從零開始<b class='flag-5'>訓練</b><b class='flag-5'>一</b>個大語言<b class='flag-5'>模型</b>需要投資多少錢?

    AI時代的重要性及現狀:平衡發展與優化配置的挑戰

    瓦時的電力。訓練次擁有1746億參數的GPT-3模型,所需的更是高達3640PFlops,耗資466萬美元。
    的頭像 發表于 11-04 11:45 ?445次閱讀

    模型訓練時代,九章云極DataCanvas公司打造普惠服務新范式

    在數據存儲與處理的關鍵環節,大模型訓練模式對系統的安全性提出了更高要求,以確保資源能夠無縫且安全地融入各類業務系統。依托業務系統與互聯網的海量數據資源,以任務為驅動,大
    的頭像 發表于 09-14 16:00 ?439次閱讀
    大<b class='flag-5'>模型</b>后<b class='flag-5'>訓練</b>時代,九章云極DataCanvas公司打造普惠<b class='flag-5'>算</b><b class='flag-5'>力</b>服務新范式

    摩爾線程GPU底座助力大模型產業發展

    以大模型為代表的新代人工智能技術是引領新輪科技革命和產業變革的戰略性技術和重要驅動力量,隨著對需求的日益高漲,人工智能
    的頭像 發表于 08-27 16:15 ?620次閱讀

    模型時代的需求

    現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型,以及相關的穩定性和性能,是
    發表于 08-20 09:04

    名單公布!【書籍評測活動NO.41】大模型時代的基礎架構:大模型中心建設指南

    工作日內未聯系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之。大模型蓬勃發展的基礎,是針對其需求設計的及基礎架
    發表于 08-16 18:33

    萬卡集群解決大模型需求,建設面臨哪些挑戰

    解決大模型訓練需求的巨大增長問題,尤其是現在模型參數量從百億級、千億級邁向萬億級。 ? 國內外企業積極構建萬卡集群 ? 目前,在國際上
    的頭像 發表于 06-02 06:18 ?4769次閱讀
    萬卡集群解決大<b class='flag-5'>模型</b>訓<b class='flag-5'>算</b><b class='flag-5'>力</b>需求,建設面臨哪些挑戰

    訓練模型,不浪費丁點計算資源

    政府也投入到LLM的計算資源整合中來,從而不至于落后這輪新的全球技術軍備戰。同樣的計算資源競爭也發生在超領域,而兩者的計算資源存在定的重合,不少人開始借助超算來進行LLM的開發。 ? 超
    的頭像 發表于 05-20 07:08 ?813次閱讀

    摩爾線程建中:以國產助力數智世界,滿足大模型需求

    摩爾線程創始人兼CEO建中在會上透露,為了滿足國內對AI的迫切需求,他們正在積極尋求與國內頂尖科研機構的深度合作,共同推動更大規模的AI智集群項目。
    的頭像 發表于 05-10 16:36 ?972次閱讀

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    訓練數據時,數量、質量和多樣性三者缺不可。 數據的多樣性對于大語言模型至關重要,這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的語言表達特征,如官方知識型數據、口語化表達的論壇
    發表于 05-07 17:10

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發效率提升10

    的潞晨科技Colossal-AI系統,用戶可實現在本地平臺訓練、微調、推理、部署大模型,將大模型
    的頭像 發表于 03-01 09:43 ?496次閱讀
    潞晨科技Colossal-AI + 浪潮信息AIStation,大<b class='flag-5'>模型</b>開發效率提升10<b class='flag-5'>倍</b>

    智能規模超通用,大模型對智能提出高要求

    電子發燒友網報道(文/李彎彎)是設備通過處理數據,實現特定結果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發表于 02-06 00:08 ?6394次閱讀

    科大訊飛發布“訊飛星火V3.5”:基于全國產訓練的全民開放大模型

    科大訊飛,作為中國領先的智能語音和人工智能公司,近日宣布推出首個基于全國產訓練的全民開放大模型“訊飛星火V3.5”。
    的頭像 發表于 02-04 11:28 ?1521次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發布于 :2024年01月25日 14:54:52
    主站蜘蛛池模板: 9420高清免费观看在线大全| 高清一区二区亚洲欧美日韩| 久草网国产自偷拍| 青青久久精品| 57PAO强力打造高清免费| 一级做a爰片久久毛片苍井优| 亚洲精品动漫免费二区| 伊人热| 国产精品一区第二页| 九九热视频免费观看| 国产强奷伦奷片| 双性诱受灌满哭求饶BL| 日韩精品特黄毛片免费看| 无人视频在线观看免费播放影院| 亚洲天堂久久久| 国产在线精品亚洲观看不卡欧美| 久久日本精品在线热| 漂亮的保姆3集电影免费观看中文| 午夜深情在线观看免费| 姉调无修版ova国语版| 伊人久久大香线蕉综合亚洲| 亚洲视频在线观看网站| 夜色伊甸园| 久久vs国产综合色| 摥管专用动态图399期| 最近中文字幕在线中文视频 | 久久久青青| 三级aa久久| 国产成人无码WWW免费视频在线| 国产成人免费片在线观看| 久久精品国产欧美成人| 日韩一区精品视频一区二区| 亚洲欧美日韩国产精品26u| abp-146| 日日夜夜影院在线播放| 武侠艳妇屈辱的张开双腿| 国产精品亚洲国产三区| 久久爱狠狠综合网| 午夜片无码区在线观看| GAY2022空少被体育生暴菊| chinese东北老年tv视频|