Microsoft開源了零冗余優化器版本2（ZeRO-2）

Microsoft開源了零冗余優化器版本2（ZeRO-2），這是一種分布式深度學習優化算法，可根據集群大小進行超線性擴展。與以前的分布式學習技術相比，Microsoft使用ZeRO-2培訓了10倍的1000億參數自然語言處理（NLP）模型。

程序經理Rangan Majumder和杰出的工程師Wang Junhua在博客中寫道，描述了該算法及其實驗。ZeRO-2是Microsoft開源DeepSpeed庫的一部分，用于深度學習培訓優化。ZeRO-2優化了訓練過程中的內存消耗，允許對多達1，700億個參數的模型進行分布式訓練。該算法還減少了分布式集群中工作節點之間的通信，實現了超線性并行加速，從而將培訓時間減少了多達10倍。DeepSpeed團隊在1，024個GPU的集群上使用ZeRO-2，達到了創紀錄的44分鐘的時間來訓練BERT自然語言模型，比NVIDIA的結果提高了30%以上。

NLP研究的最新趨勢表明，通過在較大數據集上訓練的較大模型，可以提高準確性。OpenAI提出了一套“縮放定律”，表明模型精度與模型大小具有冪律關系，并且最近通過創建具有1750億個參數的GPT-3模型對該想法進行了測試。由于這些模型太大而無法容納單個GPU的內存，因此對其進行訓練需要一堆機器和模型并行訓練技術，以在整個集群中分配參數。有幾種實現有效的模型并行性的開源框架，包括GPipe和NVIDIA的Megatron，但是由于集群節點之間的通信開銷，它們具有次線性加速，并且使用框架通常需要模型重構。

ZeRO-2使用以下三種策略來減少訓練所需的內存：減少模型狀態內存需求，將層激活卸載到CPU以及減少內存碎片。ZeRO-2可以通過在并行進程之間劃分梯度和參數，將模型狀態內存需求減少多達8倍。層激活值是從前向訓練過程中保存的，以便稍后在后向過程中使用，但是ZeRO-2將它們暫時從GPU的內存移動到主機CPU的內存。最后，即使可用內存不連續，即使內存可用，內存分配也可能失敗。ZeRO-2通過為連續用途（例如激活和漸變）預先分配連續的內存塊來減少碎片。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

深度學習

深度學習

+關注

關注
73

文章
5506

瀏覽量
121259
自然語言處理

自然語言處理

+關注

關注
1

文章
619

瀏覽量
13579
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22052

智譜GLM-Zero深度推理模型預覽版正式上線

近日，智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴展強化學習技術訓練的推理模型，標志著智譜在AI推理領域邁出了重要一步

發表于 01-02 10:55 ?102次閱讀

開源鴻蒙5.0 Release版本關鍵特性解讀

概述開源鴻蒙 5.0 Release版本是開源鴻蒙操作系統的一個里程碑，在系統能力、性能優化等多個方面進一步增強。本文將從系統功能、性能優化

發表于 12-23 13:58 ?435次閱讀

PCM1680這個zero1/2 out是個什么應用場景？不接有什么問題嗎？

PCM16801680這個zero1/2out是個什么應用場景？不接有沒什么問題？

發表于 12-11 06:32

?Banana Pi BPi-M4 Zero 開源硬件開發板評測試: 全志科技H618 方案設計

Banana Pi 推出了全志 H618 開發系統的第二個版本，標記為 V2.0，名稱為 BPi-M4 Zero，采用 Raspberry Pi Zero 格式。不久前，我們寫過BPi-M4

發表于 12-03 17:58 ?401次閱讀

OrangePi?Zero 2W基準測試：與OPi 3B、樹莓派3A+、樹莓派?Zero2W等進行對比

。OrangePiZero2W是OrangePiZero系列中最新、最小的成員。Zero系列都是小尺寸SBC，非常適合空間有限的項目。它采用全志H618，這是一款64位四核SoC，擁有四個運

發表于 11-07 18:04 ?544次閱讀

?Banana Pi BPi-M4 Zero 開源硬件開發板評測試

還具有額外的特殊功能：100 MB 以太網、一個 USB 2.0 和1 個紅外通訊。情況與 Orange Pi Zero 2W 類似，事實上，使用 OPi，您可以購買帶有帶狀電纜和所有連接器的附加板

發表于 10-15 12:06

優化多相穩壓器的高端FET電壓振鈴(第2部分)

電子發燒友網站提供《優化多相穩壓器的高端FET電壓振鈴(第2部分).pdf》資料免費下載

發表于 09-25 10:12 ?0次下載

DiSEqC? 2.x濾波器優化

電子發燒友網站提供《DiSEqC? 2.x濾波器優化.pdf》資料免費下載

發表于 09-24 10:41 ?0次下載

微軟更新Windows 11 24H2版本,優化相關二進制文件

及Copilot+ PC功能進行了定制化更新。最新動態中，微軟發布了編號為KB5041178的Windows 11 24H2專項更新，此次更新的焦點在于優化Windows設置相關的二進制文件及支持功能更新的關鍵組件。

發表于 08-08 17:29 ?734次閱讀

華秋DFM新版本 #持續優化 #服務升級

鑼密鼓地響應市場反饋，致力于為廣大工程師用戶帶來更穩定、更高效的功能體驗。在此次4.2新版本中，我們不僅優化了一系列核心功能，大幅提升了軟件性能，還根據大家的反饋新增了幾項實用工具，力求讓大家

發表于 07-04 18:44

BEMF比較器輸出PH_ZC_STS與TLE9893配置向導中用于檢查下降和上升過零檢測的中斷不匹配，怎么解決？

我在配置向導中為所有相位的上升沿和下降沿配置了零交叉中斷，但該中斷與 BEMF 比較器輸出 PHx_ZC_STS 不匹配。以下波形顯示 Phase1_zerocross (PH1_ZC_STS

發表于 07-03 08:23

龍芯2K0300蜂鳥板支持OpenHarmony 4.0 Release版本操作系統

龍芯2K0300蜂鳥板是基于龍芯中科自研的LoongArch架構2K0300處理器設計的，整體結構小巧緊湊，功能豐富齊全。龍芯2K0300蜂鳥板采用核心板加擴展底板的模塊化設計方式，有

發表于 06-20 10:02

微軟將推出Win11 24H2更新，RTM版本預計數月內敲定

值得一提的是，Microsoft 近數周發布的Canary及Dev版更新主要聚焦于Bug修正，顯示出24H2更新的研發正處收官階段。同時，Microsoft已在Dev渠道中啟動推送以檢測Win11 24H

發表于 03-25 11:00 ?1063次閱讀

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 發布的 LLaMA 2，是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本，并且具有商業許可證。

發表于 02-21 16:00 ?1133次閱讀

什么是PLC的軟冗余和硬冗余？PLC不做性能冗余可不可以？

什么是PLC的軟冗余和硬冗余？PLC不做性能冗余可不可以？軟冗余和硬冗余都是指在PLC（可編程邏輯控制

發表于 02-02 16:58 ?2008次閱讀

精選推薦
更多

文章

資料

帖子

直擊CES2025：英特爾發布新一代Core Ultra芯片，為2025移動計算確立新標準

章鷹觀察
1小時前

210 閱讀

基于FPGA的實時時鐘設計

FPGA技術江湖
19小時前

309 閱讀

數模轉換器的應用和工作原理

巨霖
19小時前

365 閱讀

圖像顯示專用驅動芯片ZDP1440系列小技巧-如何提升環形進度條幀率

立功科技
20小時前

299 閱讀

擴頻時鐘技術分享：SSC技術是什么、SSC對測試高速總線信號的影響

美國力科TeledyneLeCroy
23小時前

350 閱讀

新穎交流開關變換器的建模和仿真分析

靚仔峰
225

5積分

22下載

drv3205-q1負電壓應力對源引腳_英版

皇城√丿灬簡★
141 KB

1積分

0下載

關于手持式智能化故障診斷儀的實現

0.19 MB

免費

11下載

yuzu任天堂Switch模擬器

蒲泛粟
5.55 MB

2積分

3下載

SPTECH硅NPN功率晶體管2SC3318英文手冊

z5bin
0.17 MB

免費

1下載

ads8168內參考問題

jf_22903213
11小時前

42 閱讀

飛凌嵌入式-ELFBOARD-ELF 2硬件知識分享之Debug

jf_02372380
11小時前

82 閱讀

進迭時空 K1 系列 8 核 64 位 RISC - V AI CPU 芯片介紹

ben111
1天前

267 閱讀

HarmonyOS NEXT 應用開發練習：AI智能語音播報

李洋水蛟龍
1天前

203 閱讀

大神幫忙給看看這個電路

jf_90500147
1天前

520 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Microsoft開源了零冗余優化器版本2（ZeRO-2）

評論

智譜GLM-Zero深度推理模型預覽版正式上線

開源鴻蒙5.0 Release版本關鍵特性解讀

PCM1680這個zero1/2 out是個什么應用場景？不接有什么問題嗎？

?Banana Pi BPi-M4 Zero 開源硬件開發板評測試: 全志科技H618 方案設計

OrangePi?Zero 2W基準測試：與OPi 3B、樹莓派3A+、樹莓派?Zero2W等進行對比

?Banana Pi BPi-M4 Zero 開源硬件開發板評測試

優化多相穩壓器的高端FET電壓振鈴(第2部分)

DiSEqC? 2.x濾波器優化

微軟更新Windows 11 24H2版本,優化相關二進制文件

華秋DFM新版本 #持續優化 #服務升級

BEMF比較器輸出PH_ZC_STS與TLE9893配置向導中用于檢查下降和上升過零檢測的中斷不匹配，怎么解決？

龍芯2K0300蜂鳥板支持OpenHarmony 4.0 Release版本操作系統

微軟將推出Win11 24H2更新，RTM版本預計數月內敲定

LLaMA 2是什么？LLaMA 2背后的研究工作

什么是PLC的軟冗余和硬冗余？PLC不做性能冗余可不可以？