色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPipe是什么,效果如何?為什么要對跨加速器的模型進行分區?

DPVg_AI_era ? 來源:lp ? 2019-03-06 09:04 ? 次閱讀

加速DNN模型訓練速度方法中,數據并行受到單個加速器可支持模型大小的限制;而模型并行因為DNN順序性導致大量算力浪費。目前Google推出GPipe,將兩種方法的優勢進行結合,解決了兩者的劣勢,成功提升訓練速度。

深度神經網絡(DNN)已經推動了許多機器學習任務,比如語音識別,視覺識別和語言處理。

BigGan、Bert和GPT2.0的最新進展表明,越大的DNN模型,越能帶來更好的性能。

而視覺識別任務的過去進展也表明,模型大小和分類準確性之間,存在很強的相關性。

例如2014年ImageNet視覺識別挑戰賽中,獲勝者GoogleNet使用400萬參數,精確度達到了74.8%。

而2017年ImageNet挑戰賽的獲勝者Squeeze-and-Excitation Networks,使用1.5億參數,精確度達到了82.7%。

僅僅3年,數據處理能力翻了36番。而在同一時期,GPU內存僅增加了約3倍。

當前最先進的圖像模型,已經達到了云TPUv2內存的可用上限。因此,迫切需要一種更高效、可擴展的基礎設施,以實現大規模深度學習,并克服當前加速器的內存限制。

ImageNet精度和模型大小之間的強相關性

基于以上目的,Google推出了GPipe。

GPipe是什么,效果如何?

GPipe是一個分布式機器學習、可擴展的管道并行庫,可以學習巨型深度神經網絡。

使用同步隨機梯度下降和管道并行性進行訓練,適用于由多個連續層組成的任何DNN。

GPipe允許研究人員輕松部署更多加速器來訓練更大的模型,并在不調整超參數的情況下,達到提升性能的效果。

GPipe將跨加速器和管道執行的網絡層進行分區,以便實現對硬件更高的利用率,同時利用重新計算來將激活的內存使用降至最低。

例如,使用8個加速器的分區,GPipe就可以訓練25倍大神經網絡。

而GPipe也幾乎實現了線性加速。使用4倍數量的加速器,處理同一個模型的速度提升了3.5倍;16倍加速器速度提升11倍。

同時它也要保證計算的梯度和分區的數量保持一致,從而在不對模型的參數做任何改動的前提下,都能保持線性加速。

目前,核心GPipe庫已在Lingvo框架下開源。

為什么要對跨加速器的模型進行分區?

有兩種標準方法可以加速DNN模型:

數據并行方法,使用更多的機器并將輸入數據分開

模型并行性。將模型移動到如GPU或TPU等具有加速模型訓練的特殊硬件

然而加速器的內存、與主機的通信帶寬均有限。因此模型并行性就需要將模型進行分割,將不同的分區分配給不通過的加速器。

可是由于由于DNN的順序性,這種樸素的策略可能導致在計算期間,只有一個加速器處于激活狀態,導致大量算力的浪費。

而標準數據并行方法是允許在多個加速器上,同時訓練不同輸入數據的相同模型,但每個加速器可支持模型大小又有限制。

GPipe的做法是將模型分割,并劃分給不同的加速器,自動將小Batch拆分為更小的微Batch,這樣就實現了跨多個加速器的高效訓練。

此外,因為梯度一直在微批次中累積,所以分區數量不會影響模型質量。

Time部分:由于網絡的連續性,幼稚模型并行策略導致嚴重的未充分利用。 一次只有一個加速器處于活動狀態

Bubble部分:GPipe將輸入小批量分成較小的微批次,使不同的加速器可以同時在單獨的微批次上工作

使用GPipe和不使用,之間的差異有多大?

一個TPUv2有8個加速器核心和64GB內存(每個加速器8GB),由于內存限制,單個加速器可以訓練的參數量上限是8200萬。

借助反向傳播和批量分割中的重新計算,GPipe將中間激活內存從6.26GB減少到3.46GB,將單個加速器參數處理上限提升至3.18億個。

我們還看到,通過管道并行性,最大模型大小與分區數成正比,如預期的那樣。

通過GPipe,AmoebaNet能夠在云TPUv2的8個加速器上加入18億個參數,比沒有GPipe的情況下多25倍。

Google測量了GPipe對AmoebaNet-D模型吞吐量的影響。效率和加速器的數量幾乎是呈線性加速,8個加速器+8個分區,比2個加速器+2個分區快2.5倍。

TPUv3效果更好。在1024個令牌句子上啟用了80億個參數Transformer語言模型,16個加速器將速度提升了11倍

使用GPipe加速AmoebaNet-D,這種模型不適合一個加速器

基線naive-2是將模型拆分為兩個分區時本機分區方法的性能

Pipeline-k指的是GPipe的性能,它將模型分成帶有k個加速器的k個分區

GPipe還可以通過使用更多加速器來擴展訓練,而無需更改超參數。因此,它可以與數據并行性相結合,以互補的方式使用更多的加速器來擴展神經網絡訓練。

GPipe精確度能達到多少?

前面我們提到,處理的數據量越大,獲得的精度就越高。

Google在ImageNet ILSVRC-2012數據集上,使用Cloud TPUv2訓練了一個有5.57億參數、480 x 480輸入圖像尺寸的AmoebaNet-B模型。

該網絡被分成4個分區,這個巨型模型在多個流行數據集上表現良好,在沒有任何外部數據的情況下,精度達到了最先進的84.3% top-1,以及97% top-5的single-crop驗證準確度。

大型神經網絡不僅適用于ImageNet等數據集,還通過遷移學習,與其他數據集息息相關。

目前我們已知ImageNet模型越好,遷移就越好。Google在CIFAR10和CIFAR100數據集上進行了遷移學習實驗,將最佳公布的CIFAR-10精度提高到99%,將CIFAR-100精度提高到91.3%。

哪里能獲取到GPipe?

Github:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 加速器
    +關注

    關注

    2

    文章

    804

    瀏覽量

    37983
  • 神經網絡
    +關注

    關注

    42

    文章

    4777

    瀏覽量

    100974
  • 機器學習
    +關注

    關注

    66

    文章

    8430

    瀏覽量

    132858

原文標題:谷歌開源效率怪獸GPipe,速度提升25倍,CIFAR-10精度達到99%

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉達AI加速器新藍圖:集成硅光子I/O,3D垂直堆疊 DRAM 內存

    冷板。 在英偉達給出的模型中,每個 AI 加速器復合體包含 4 個 GPU 模塊,每個 GPU 模塊與 6 個小型 DRAM 內存
    的頭像 發表于 12-13 11:37 ?264次閱讀
    英偉達AI<b class='flag-5'>加速器</b>新藍圖:集成硅光子I/O,3D垂直堆疊 DRAM 內存

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創意加速器

    加速器
    龍智DevSecOps
    發布于 :2024年11月26日 13:42:47

    IBM將在云平臺部署AMD加速器

    IBM與AMD近期宣布了一項重要合作協議,根據協議,IBM將在其云平臺上部署AMD Instinct MI300X加速器。這一舉措旨在提升企業客戶在生成式AI模型方面的性能和能效,進一步推動AI技術的創新與應用。
    的頭像 發表于 11-19 16:24 ?248次閱讀

    IBM與AMD攜手將在IBM云上部署AMD Instinct MI300X加速器

    近日,全球領先的科技企業IBM與AMD共同宣布了一項重要合作。雙方計劃在IBM云上部署AMD的Instinct MI300X加速器服務,以滿足企業客戶對于高性能和高效能AI模型的需求。 據悉,這項
    的頭像 發表于 11-19 11:03 ?485次閱讀

    深度學習GPU加速效果如

    圖形處理(GPU)憑借其強大的并行計算能力,成為加速深度學習任務的理想選擇。
    的頭像 發表于 10-17 10:07 ?223次閱讀

    具有邊沿速率加速器的TXB和TXS電壓電平轉換的注意事項

    電子發燒友網站提供《具有邊沿速率加速器的TXB和TXS電壓電平轉換的注意事項.pdf》資料免費下載
    發表于 09-04 09:52 ?0次下載
    具有邊沿速率<b class='flag-5'>加速器</b>的TXB和TXS電壓電平轉換<b class='flag-5'>器</b>的注意事項

    利用邊沿速率加速器和自動感應電平轉換

    電子發燒友網站提供《利用邊沿速率加速器和自動感應電平轉換.pdf》資料免費下載
    發表于 09-02 11:58 ?1次下載
    利用邊沿速率<b class='flag-5'>加速器</b>和自動感應電平轉換<b class='flag-5'>器</b>

    什么是神經網絡加速器?它有哪些特點?

    神經網絡加速器是一種專門設計用于提高神經網絡計算效率的硬件設備。隨著深度學習技術的快速發展和廣泛應用,神經網絡模型的復雜度和計算量急劇增加,對計算性能的要求也越來越高。傳統的通用處理(CPU
    的頭像 發表于 07-11 10:40 ?545次閱讀

    “白地板”方案,智算中心加速器

    明德源能白地板方案,智算中心加速器
    的頭像 發表于 06-21 11:54 ?829次閱讀

    Hailo獲1.2億美元新融資,首發AI加速器Hailo-10,助力邊緣設備實現生成式人工智能

    摘要:隨著Hailo推出最新的人工智能加速器,其融資總額現已突破3.4億美元。這款專為個人計算機和汽車行業打造的人工智能加速器,以出色的低功耗性能處理大型語言模型(LLM),成功將生成式人工智能技術
    的頭像 發表于 04-03 11:57 ?357次閱讀

    Hitek Systems開發基于PCIe的高性能加速器以滿足行業需求

    Hitek Systems 使用開放式 FPGA 堆棧 (OFS) 和 Agilex 7 FPGA,以開發基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在滿足網絡、計算和高容量存儲應用的需求。
    的頭像 發表于 03-22 14:02 ?680次閱讀
    Hitek Systems開發基于PCIe的高性能<b class='flag-5'>加速器</b>以滿足行業需求

    瑞薩發布下一代動態可重構人工智能處理加速器

    瑞薩最新發布的動態可重構人工智能處理(DRP-AI)加速器,在業界引起了廣泛關注。這款加速器擁有卓越的10 TOPS/W高功率效率,相比傳統技術,效率提升了驚人的10倍。其獨特之處在于,它能在低功耗的傳統嵌入式處理
    的頭像 發表于 03-08 13:45 ?807次閱讀

    SD-WAN專線加速效果如何?企業如何選擇SD-WAN加速專線方案?

    在數字化時代,企業的網絡需求日益增長,對于網絡性能和安全性的要求也越來越高。SD-WAN專線加速技術應運而生,成為企業提升網絡效率和保障數據安全的重要工具。本文將探討SD-WAN專線加速效果,以及
    的頭像 發表于 02-28 15:31 ?407次閱讀

    家居智能化,推動AI加速器的發展

    提高了系統的運算能力和數據處理能力,還為用戶帶來了更加智能化、個性化的生活體驗。 ? AI 加速器的發展 ? 在人工智能和機器學習任務變得日益復雜和密集之前,傳統的CPU和GPU已經足以處理這些任務。然而,隨著深度學習模型的出現,對計算能力的需求急劇增加,
    的頭像 發表于 02-23 00:18 ?4630次閱讀

    回旋加速器原理 回旋加速器的影響因素

    回旋加速器(Cyclotron)是一種用于加速帶電粒子的可再生粒子加速器。它的工作原理基于帶電粒子在恒定強磁場中的運動。本文將詳細介紹回旋加速器的原理以及影響因素。 一、回旋
    的頭像 發表于 01-30 10:02 ?4463次閱讀
    主站蜘蛛池模板: 艳照门在线观看| 青青草原亚洲| 男女边吃奶边做边爱视频| 亚洲AV国产精品无码精| sihu国产精品永久免费| 久久高清免费视频| 午夜福利92看看电影80| 成人毛片手机版免费看| 欧美最猛性XXXXX肛交| jizzhd中国| 女bbbbxxx孕妇| av在线色| 青青娱乐网| 果冻传媒AV精品一区| 性一交一乱一色一视频| 国产综合18久久久久久软件| 玉娇龙续集春雪瓶txt免费阅读| 精品一区二区三区在线成人| 一个人HD在线观看免费高清视频 | 国产精品外围在线观看| 天美传媒 免费观看| 荡乳乱公小说| 乌克兰xxxxx| 红色机尾快播| 中国老头oldday tv| 男人的天堂黄色片| 成人免费网址在线| 一点色成人| 涩涩电影网| 国产精品一区二区亚瑟不卡| 中文字幕在线免费视频| 男女一边摸一边做羞羞的事情免费| 国产精品1区2区| 亚洲国产精品久久人人爱 | 人曽交Z00Z0OA片| 大香伊人久久| 中文字幕亚洲无线码在线| 西西人体大胆牲交PP6777| 啪啪后入内射日韩| 老司机试看午夜| thermo脱色摇床安卓下载|