色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA SHARP網(wǎng)絡(luò)計(jì)算提升系統(tǒng)性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-11-13 11:42 ? 次閱讀

AI 和科學(xué)計(jì)算是分布式計(jì)算問題的典型示例。這些問題通常計(jì)算量巨大,計(jì)算很密集,無法在單臺(tái)機(jī)器上完成。于是,這些計(jì)算被分解為并行任務(wù),由分布在數(shù)千個(gè) CPUGPU 的計(jì)算引擎上運(yùn)行。

為了實(shí)現(xiàn)可擴(kuò)展的性能,需要把工作負(fù)載劃分在多個(gè)節(jié)點(diǎn),如訓(xùn)練數(shù)據(jù)、模型參數(shù)或兩者一起劃分。然后,這些節(jié)點(diǎn)之間需要頻繁交換信息,例如模型訓(xùn)練中反向傳播期間新處理的模型計(jì)算的梯度。這些通信往往需要高效的集合通信,如 all-reduce、broadcast 以及 gather 和 scatter 等操作。

這些集合通信模式可確保整個(gè)分布式計(jì)算中模型參數(shù)的同步和收斂。這些操作的效率對(duì)于最大限度地減少通信開銷和最大限度地提高并行計(jì)算效率至關(guān)重要,優(yōu)化不佳的集合通信可能會(huì)導(dǎo)致瓶頸,限制可擴(kuò)展性。

瓶頸源于以下幾個(gè)因素:

延遲和帶寬限制:集合操作依賴于節(jié)點(diǎn)間的高速數(shù)據(jù)傳輸,而這些高速數(shù)據(jù)傳輸受到物理網(wǎng)絡(luò)延遲和帶寬的限制。隨著系統(tǒng)規(guī)模的增加,要交換的數(shù)據(jù)量也隨之增加,通信所花費(fèi)的時(shí)間成為至關(guān)重要的因素。

同步開銷:許多集合操作需要同步點(diǎn),確保所有參與的節(jié)點(diǎn)必須先達(dá)到相同的狀態(tài),才能繼續(xù)下一步操作。如果某些節(jié)點(diǎn)速度較慢,將拖累整個(gè)系統(tǒng)延遲,從而導(dǎo)致效率低下,被稱為 stragglers

網(wǎng)絡(luò)爭(zhēng)用:隨著越來越多的節(jié)點(diǎn)試圖同時(shí)通信,網(wǎng)絡(luò)變得更加擁塞,對(duì)帶寬和網(wǎng)絡(luò)資源的爭(zhēng)奪也在增加,這進(jìn)一步降低了集合操作的性能。

非優(yōu)化通信模式:一些集合通信算法(例如基于樹的歸約操作或基于 Ring 的 all-reduce 操作)并非始終針對(duì)大規(guī)模系統(tǒng)進(jìn)行了良好優(yōu)化,導(dǎo)致可用資源的低效利用和延遲增加。

克服這一瓶頸需要先進(jìn)的網(wǎng)絡(luò)技術(shù)(例如 InfiniBand 和 RDMA)和算法優(yōu)化(例如分層 all-reduce 或流水線技術(shù)),以最大限度地減少同步延遲、減少資源爭(zhēng)用并優(yōu)化分布式系統(tǒng)之間的數(shù)據(jù)流。

創(chuàng)建 NVIDIA SHARP

關(guān)鍵的集合通信使所有計(jì)算引擎能夠相互交換數(shù)據(jù)。在網(wǎng)卡或服務(wù)器上管理這類通信需要交換大量數(shù)據(jù),并且會(huì)受到延遲或集合性能差異的影響,稱為服務(wù)器抖動(dòng)。

將管理和執(zhí)行這些集合通信的任務(wù)遷移到網(wǎng)絡(luò)交換機(jī)上,可以將傳輸?shù)臄?shù)據(jù)量減半,并最大限度地減少抖動(dòng)。NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)技術(shù)實(shí)現(xiàn)了這一理念,并引入了網(wǎng)絡(luò)計(jì)算概念。它集成在交換機(jī) ASIC 中,旨在加速分布式計(jì)算系統(tǒng)中的集合通信。

SHARP 已隨著NVIDIA InfiniBand網(wǎng)絡(luò)一起推出,可將集合通信操作(如 all-reduce、reduce 和 broadcast 等)從服務(wù)器的計(jì)算引擎卸載到網(wǎng)絡(luò)交換機(jī)。通過直接在網(wǎng)絡(luò)中執(zhí)行歸約(如求和、平均等),SHARP 可以顯著改進(jìn)這些操作并提升整體應(yīng)用程序性能。

NVIDIA SHARP 代際演進(jìn)

第一代 SHARP 專為科學(xué)計(jì)算應(yīng)用而設(shè)計(jì),側(cè)重于小消息歸約操作。它隨著NVIDIA EDR 100Gb/s 交換機(jī)產(chǎn)品推出,并迅速得到行業(yè)領(lǐng)先 MPI 通訊庫的支持。SHARPv1 小消息歸約可以并行支持多個(gè)科學(xué)計(jì)算應(yīng)用。

MVAPICH2 是 MPI 標(biāo)準(zhǔn)的開源實(shí)現(xiàn),專為 HPC 場(chǎng)景而設(shè)計(jì)。負(fù)責(zé) MVAPICH MPI 通信庫的俄亥俄州立大學(xué)團(tuán)隊(duì)在德克薩斯先進(jìn)計(jì)算中心 Frontera 超級(jí)計(jì)算機(jī)上驗(yàn)證了 SHARP 的性能。MPI AllReduce 的性能提高了 5 倍,而 MPI Barrier 集合通信的性能則提高了 9 倍。

第二代 SHARP 隨著NVIDIA HDR 200Gb/s Quantum InfiniBand 交換機(jī)推出,增加了對(duì) AI 工作負(fù)載的支持。SHARPv2 支持大消息規(guī)約操作,每次支持一個(gè)工作負(fù)載。這一版本進(jìn)一步提升了該技術(shù)的可擴(kuò)展性和靈活性,支持更復(fù)雜的數(shù)據(jù)類型和集合操作。

2021 年 6 月 NVIDIA MLPerf 提交的結(jié)果展示了 SHARPv2 的性能優(yōu)勢(shì),其中 BERT 的訓(xùn)練性能提高了 17%。掃描二維碼,參閱技術(shù)博客:

NVIDIA 副總裁兼人工智能系統(tǒng)首席架構(gòu)師 Michael Houston在加州大學(xué)伯克利分校的機(jī)器學(xué)習(xí)系統(tǒng)課程中介紹了 SHARPv2 的 AllReduce 性能優(yōu)勢(shì)。

SHARPv2 將 AllReduce 的帶寬性能提高了一倍,將 BERT 訓(xùn)練性能提高了 17%。

ecc62460-a0ef-11ef-93f3-92fbcf53809c.png

圖 1.加州大學(xué)伯克利分校機(jī)器學(xué)習(xí)系統(tǒng)課程示例(來源:分布式深度學(xué)習(xí),第 II 部分:擴(kuò)展約束)

第三代 SHARP 隨著NVIDIA Quantum-2 NDR 400G InfiniBand平臺(tái)推出。SHARPv3 支持多租戶 AI 工作負(fù)載網(wǎng)絡(luò)計(jì)算,與 SHARPv2 的單工作負(fù)載相比,可同時(shí)支持多個(gè) AI 工作負(fù)載的并行使用。

Microsoft Azure 首席軟件工程師 Jithin Jose 在“Transforming Clouds to Cloud-Native Supercomputing:Best Practices with Microsoft Azure”專題會(huì)議上展示了 SHARPv3 性能。Jithin 介紹了 InfiniBand 網(wǎng)絡(luò)計(jì)算技術(shù)在 Azure 上的應(yīng)用,并展示了 AllReduce 在延遲方面取得數(shù)量級(jí)的性能優(yōu)勢(shì)。

ecca4b12-a0ef-11ef-93f3-92fbcf53809c.png

圖 2. SHARPv3 的 AllReduce 延遲性能

端到端 AI 系統(tǒng)優(yōu)化

SHARP 強(qiáng)大功能的經(jīng)典示例是 allreduce 運(yùn)算。在模型訓(xùn)練期間,多個(gè) GPU 或節(jié)點(diǎn)之間需要進(jìn)行梯度求和,SHARP 在網(wǎng)絡(luò)中實(shí)現(xiàn)梯度求和,從而無需在 GPU 之間或節(jié)點(diǎn)之間進(jìn)行完整的數(shù)據(jù)集傳送。這縮短了通信時(shí)間,從而加快 AI 工作負(fù)載的迭代速度并提高吞吐量。

在網(wǎng)絡(luò)計(jì)算和 SHARP 時(shí)代到來之前,NVIDIA Collective Communication Library(NCCL)通信軟件會(huì)從圖中復(fù)制所有模型權(quán)重,執(zhí)行 all-reduce 運(yùn)算來計(jì)算權(quán)重之和,然后將更新的權(quán)重寫回圖,從而產(chǎn)生多次數(shù)據(jù)復(fù)制。

2021 年,NCCL 團(tuán)隊(duì)開始集成 SHARP,引入了用戶緩沖區(qū)注冊(cè)。這使 NCCL 集合操作能夠直接使用指針,從而消除了在此過程中來回復(fù)制數(shù)據(jù)的需求,提高了效率。

如今,SHARP 已與廣泛用于分布式 AI 訓(xùn)練框架的 NCCL 緊密集成。經(jīng)過優(yōu)化的 NCCL 充分利用 SHARP 的能力,將關(guān)鍵的集合通信操作卸載到網(wǎng)絡(luò),從而顯著提高分布式深度學(xué)習(xí)工作負(fù)載的可擴(kuò)展性和性能。

SHARP 技術(shù)有助于提高分布式計(jì)算應(yīng)用程序的性能。SHARP 正被 HPC 超級(jí)計(jì)算中心用于科學(xué)計(jì)算工作負(fù)載,也被人工智能(AI)超級(jí)計(jì)算機(jī)用于 AI 應(yīng)用程序。SHARP 已成為實(shí)現(xiàn)競(jìng)爭(zhēng)優(yōu)勢(shì)的“秘訣”。一家大型服務(wù)提供商使用 SHARP 將其內(nèi)部 AI 工作負(fù)載的性能提高了 10% 到 20%。

SHARPv4

SHARPv4 引入了新算法,可支持更多種類的集合通信,這些通信類型已用于領(lǐng)先的人工智能訓(xùn)練應(yīng)用。

SHARPv4 將隨著NVIDIA Quantum-X800 XDR InfiniBand 交換機(jī)平臺(tái)一起發(fā)布,從而將網(wǎng)絡(luò)計(jì)算能力提升至更高水平。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10854

    瀏覽量

    211574
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4978

    瀏覽量

    102987
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7553

    瀏覽量

    88729
  • Sharp
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    8984

原文標(biāo)題:利用 NVIDIA SHARP 網(wǎng)絡(luò)計(jì)算提升系統(tǒng)性能

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    最新可用隔離元件的性能提升如何幫助替代架構(gòu)在不影響安全性的前提下提升系統(tǒng)性能

    本文探討了系統(tǒng)架構(gòu)選擇對(duì)電源和控制電路設(shè)計(jì)以及系統(tǒng)性能的影響。本文還將說明最新可用隔離元件的性能提升如何幫助替代架構(gòu)在不影響安全性的前提下提升
    的頭像 發(fā)表于 10-13 06:12 ?7843次閱讀
    最新可用隔離元件的<b class='flag-5'>性能</b><b class='flag-5'>提升</b>如何幫助替代架構(gòu)在不影響安全性的前提下<b class='flag-5'>提升</b><b class='flag-5'>系統(tǒng)性能</b>

    HPC 研究人員借助 NVIDIA BlueField DPU 為網(wǎng)絡(luò)計(jì)算的未來打下堅(jiān)實(shí)基礎(chǔ)

    全球的超級(jí)計(jì)算中心都在紛紛利用?NVIDIA Quantum InfiniBand?網(wǎng)絡(luò)上的NVIDIA BlueField DPU?將加速
    的頭像 發(fā)表于 05-31 14:58 ?1087次閱讀
    HPC 研究人員借助 <b class='flag-5'>NVIDIA</b> BlueField DPU 為<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>計(jì)算</b>的未來打下堅(jiān)實(shí)基礎(chǔ)

    NVIDIA火熱招聘深度學(xué)習(xí)/高性能計(jì)算解決方案架構(gòu)師

    目前NVIDIA在中國熱招解決方案架構(gòu)師, 該崗位致力于協(xié)同客戶經(jīng)理將NVIDIA最新的深度學(xué)習(xí)/高性能計(jì)算解決方案與技術(shù)帶給我們的客戶, 幫助客戶通過實(shí)施
    發(fā)表于 08-25 17:02

    NVIDIA火熱招聘GPU高性能計(jì)算架構(gòu)師

    這邊是NVIDIA HR Allen, 我們目前在上海招聘GPU高性能計(jì)算架構(gòu)師(功能驗(yàn)證)的崗位,有意向的朋友歡迎發(fā)送簡(jiǎn)歷到 allelin@nvidia
    發(fā)表于 09-01 17:22

    多核和多線程技術(shù)怎么提升Android網(wǎng)頁瀏覽性能

    用戶體驗(yàn)。因?yàn)?b class='flag-5'>提升系統(tǒng)性能不僅是硬件方面的問題,軟件也必須能充分利用并行硬件資源。然而軟件一直在改變 —— 系統(tǒng)變得越來越復(fù)雜,以至于在許多情況下,多個(gè)進(jìn)程和線程在同時(shí)運(yùn)行;同時(shí),應(yīng)用
    發(fā)表于 03-25 08:08

    鏡像對(duì)系統(tǒng)性能的影響有哪些?

    鏡像抑制基礎(chǔ)知識(shí)可減少AD9361和AD9371中正交不平衡的技術(shù)鏡像的來源、含義及對(duì)系統(tǒng)性能的影響
    發(fā)表于 03-29 07:59

    如何提高FPGA的系統(tǒng)性能

    本文基于Viitex-5 LX110驗(yàn)證平臺(tái)的設(shè)計(jì),探索了高性能FPGA硬件系統(tǒng)設(shè)計(jì)的一般性方法及流程,以提高FPGA的系統(tǒng)性能
    發(fā)表于 04-26 06:43

    如何利用鉭電容和氧化鈮電容提高汽車系統(tǒng)性能

    如何利用鉭電容和氧化鈮電容提高汽車系統(tǒng)性能?鉭電容和氧化鈮電容與其它電容技術(shù)相比有什么優(yōu)勢(shì)?
    發(fā)表于 05-13 07:00

    感知系統(tǒng)性能評(píng)估分析解決方案 精選資料分享

    智能駕駛的快速發(fā)展離不開感知系統(tǒng)性能提升,同時(shí)感知系統(tǒng)性能的優(yōu)劣也制約著智能駕駛方案的實(shí)際落地。在感知系統(tǒng)研發(fā)過程中,每時(shí)每刻都需要進(jìn)行性能
    發(fā)表于 07-27 06:45

    優(yōu)化BIOS設(shè)置提高系統(tǒng)性能

    BIOS設(shè)置對(duì)系統(tǒng)性能的影響非常大,優(yōu)化的BIOS設(shè)置,可大大提高PC整體性能,不恰當(dāng)?shù)脑O(shè)置會(huì)導(dǎo)致系統(tǒng)性能下降,運(yùn)行不穩(wěn)定,甚至出現(xiàn)死機(jī)等現(xiàn)象。下面就BIOS中影響系統(tǒng)性能
    發(fā)表于 10-10 14:27 ?43次下載

    配置控制器局域網(wǎng)絡(luò)(CAN)位時(shí)序,優(yōu)化系統(tǒng)性能

    配置控制器局域網(wǎng)絡(luò)(CAN)位時(shí)序,優(yōu)化系統(tǒng)性能
    發(fā)表于 01-07 16:18 ?0次下載

    現(xiàn)代DAC和DAC緩沖器有助于提升系統(tǒng)性能、簡(jiǎn)化設(shè)計(jì)

    現(xiàn)代DAC和DAC緩沖器有助于提升系統(tǒng)性能、簡(jiǎn)化設(shè)計(jì)
    發(fā)表于 01-04 17:50 ?0次下載

    利用NVIDIA BlueField DPU將加速計(jì)算提升到新的水平

    全球的超級(jí)計(jì)算中心都在紛紛利用 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)上的 NVIDIA BlueField DPU 將加
    的頭像 發(fā)表于 06-01 10:29 ?1222次閱讀

    利用NVIDIA RAPIDS加速DolphinDB Shark平臺(tái)提升計(jì)算性能

    DolphinDB 是一家高性能數(shù)據(jù)庫研發(fā)企業(yè),也是 NVIDIA 初創(chuàng)加速計(jì)劃成員,其開發(fā)的產(chǎn)品基于高性能分布式時(shí)序數(shù)據(jù)庫,是支持復(fù)雜計(jì)算和流數(shù)據(jù)分析的實(shí)時(shí)
    的頭像 發(fā)表于 09-09 09:57 ?453次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> RAPIDS加速DolphinDB Shark平臺(tái)<b class='flag-5'>提升</b><b class='flag-5'>計(jì)算</b><b class='flag-5'>性能</b>

    單臂螺旋天線:提升無線通信系統(tǒng)性能的關(guān)鍵

    深圳探測(cè)器|單臂螺旋天線:提升無線通信系統(tǒng)性能的關(guān)鍵
    的頭像 發(fā)表于 12-02 09:05 ?191次閱讀
    主站蜘蛛池模板: 高中生被C到爽哭视频免费| 久久婷五月综合色啪首页| 美艳人妻在厨房翘着屁股| 天天射天天爱天天干| 6080yy亚洲久久无码| 国产品无码一区二区三区在线| 免费精品美女久久久久久久久久| 校花被扒衣吸乳羞羞漫画| cctv官网| 久久精品黄色| 性满足久久久久久久久| gogo亚洲肉体艺术照片9090| 久久国产主播福利在线| 午夜在线视频国产极品片 | 99国产精品久久| 国产亚洲精品首页在线播放| 漂亮的保姆5电影免费观看完整版中文 | 且试天下芒果免费观看| 一本道本线中文无码| 国产精品一区二区人妻无码| 漂亮的保姆3中文版完整版| 中文字幕精品视频在线| 国内精品久久久久久西瓜色吧| 日本最新免费区中文| 99re久久热在线播放8| 久久精品国产色蜜蜜麻豆国语版 | 牛牛精品专区在线| 樱花草动漫www| 国产专区_爽死777| 手机看片国产免费久久网| 99久久精品国产自免费| 久久青草影院| 亚洲熟伦熟女专区| 国产午夜精品久久理论片小说| 日本亚洲电影| FREE另类老女人| 免费毛片a在线观看67194| 中文人妻熟妇精品乱又伦| 精品AV综合导航| 香蕉97超级碰碰碰碰碰久| 国产AV国片精品无套内谢无码|