色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA多個DPU加速HPC集群中的科學應用

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-30 07:20 ? 次閱讀

高性能計算( HPC )和人工智能已經將超級計算機作為主要的數據處理引擎,廣泛應用于商業領域,使研究、科學發現和產品開發成為可能。這些系統可以進行復雜的模擬,開啟軟件編寫軟件的人工智能新時代。

超級計算領導力是指科學和創新領導力,它解釋了許多政府、研究機構和企業為構建更快、更強大的超級計算平臺而進行的投資。從超級計算系統中提取盡可能高的性能,同時實現高效利用,傳統上與現代云計算的安全、多租戶體系結構不兼容。

一個云本地超級計算平臺首次提供了兩全其美,將峰值性能和集群效率與安全隔離和多租戶的現代零信任模型結合起來。實現這種架構轉換的關鍵元素是 NVIDIA BlueField 數據處理單元( DPU )。 DPU 是一個完全集成的片上數據中心平臺,為每個超級計算節點注入了兩種新功能:

基礎設施控制平面處理器 – 保護用戶訪問、存儲訪問、網絡和計算節點的生命周期編排,減輕主計算處理器的負擔并實現裸機多租戶。

硬件加速的隔離線速率數據通路 – 實現裸機性能。

HPC 和 AI 通信框架和庫對延遲和帶寬敏感,它們在決定應用程序性能方面起著關鍵作用。將庫從主機 CPUGPU 卸載到 BlueField DPU 為通信和計算的并行進程創建了最高程度的重疊。它還減少了操作系統抖動的負面影響,顯著提高了應用程序性能。

云本地超級計算機體系結構的開發基于開放社區開發,包括商業公司、學術組織和政府機構。這個不斷增長的社區對于開發下一代超級計算至關重要。

我們在本文中分享的一個例子是 MVAPICH2- DPU 庫,由 X-ScaleSolutions 設計和開發。 MVAPICH2- DPU 庫包含了消息傳遞接口( MPI )標準的非阻塞集合的卸載。這篇文章概述了這種卸載背后的基本概念,以及最終用戶如何使用 MVAPICH2- DPU MPI 庫來加速科學應用程序的執行,特別是使用密集的非阻塞 all-to-all 操作。

BlueField DPU

圖 1 顯示了 BlueField DPU 體系結構及其與主機計算平臺的連接的概述。 DPU 通過 ConnectX-6 適配器具有 InfiniBand 網絡連接。此外,它還有一組 Arm 內核。 Bluefield-2 DPU 有一組 8 個 Arm 內核,每個內核的工作頻率為 2 。 0ghz 。 Arm 內核還有 16GB 的共享內存。

MVAPICH2- DPU MPI 庫

MVAPICH2- DPU MPI 庫是 MVMPI 庫 的派生。該庫經過優化,可利用 InfiniBand 網絡充分發揮 BlueField DPU 的潛力。

poYBAGJlFmWABebUAAC0yuqJ7Os775.png

圖 1 BlueField DPU 的體系結構及其與主機平臺的連接

最新的 MVAPICH2- DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2 。 3 。 6 ,符合 MPI 3 。 1 標準

支持 MV2 。 3 。 6 版本 提供的所有功能

將非阻塞集合卸載到 DPU 的新框架

將非阻塞 Alltoall ( MPI \ Ialltoall )卸載到 DPU

所有非阻塞集合的計算重疊率為 100%

使用 MPI Ialltoall 非阻塞集合加速科學應用

MVAPICH2- DPU MPI 庫入門

MVAPICH2- DPU 庫可從 X-ScaleSolutions 獲得:

發送電子郵件至 contactus@x-scalesolutions.com

填寫聯系人 形式

有關更多信息,請參閱 MVAPICH2-DPU 產品頁。

OSU 微基準的示例執行

OSU MPI 微基準 的副本與 MVAPICH2- DPU MPI 包集成在一起。 OMB 基準套件由非阻塞集體操作的基準組成。這些基準旨在評估非阻塞 MPI 集合使用的計算和通信之間的重疊能力。

可以執行 OMB 包中的非阻塞集體基準,以評估以下指標:

重疊功能

啟動非阻塞集合后立即合并計算步驟時的總執行時間

在 HPC-AI 咨詢委員會集群上運行了一組 OMB 實驗,其中 32 個節點與支持 HDR 200Gb / s InfiniBand 連接的 32 個 BlueField DPU s 相連。每個主機節點都有雙插槽 Intel Xeon 16 核 CPU E5-2697A V4 @ 2 。 60 GHz 。每個 Bluefield-2 DPU 有 8 個 Arm 核@ 2 。 0ghz 和 16gb 內存。

圖 2 顯示了分別運行 512 個( 32 個節點,每個節點有 16 個進程( PPN ))和 1024 個( 32 個節點,每個節點有 32 個 PPN ) MPI 進程的 MPI \ u ialtoall 非阻塞集合基準的性能結果。隨著消息大小的增加, MVAPICH2- DPU 庫可以顯示計算和 MPI Ialltoall 非阻塞集合之間的峰值( 100% )重疊。相比之下,沒有這種 DPU 卸載功能的 MVAPICH2 默認庫可以在計算和 MPI (所有非阻塞)集合之間提供很少的重疊。

pYYBAGJlFmeAUXXVAACO987vgLM434.png

圖 2 MVAPICH2- DPU 庫提取主機和服務器上發生的計算之間的峰值重疊的能力 MPI_Ialltoall 通信

當 MPI 應用程序中的計算步驟以重疊方式與 MPI Ialltoall 非阻塞集合操作一起使用時, MVAPICH2- DPU MPI 庫在整個程序執行時間內提供了顯著的性能優勢。這是可能的,因為 DPU 中的 Arm 內核可以實現非阻塞的 all-to-all 操作,而主機上的 Xeon 內核正在執行峰值重疊的計算(圖 2 )。

圖 3 顯示,與基本的 MVAPICH2 MPI 庫相比, MVAPICH2- DPU MPI 庫可以提供高達 23% 的性能優勢。這是在 32 節點的 OMB-MPI-Iall 基準測試中跨消息大小和 ppn 的測試。

poYBAGJlFmiALO45AACbkHIwDY0000.png

圖 3 當計算步驟與 MPI_Ialltoall 以重疊方式進行非阻塞集體操作

加速 P3DFFT 應用程序內核

P3DFFT 是一種常見的 MPI 內核,用于許多使用快速傅立葉變換( FFT )的終端應用程序。這個 MPI 內核的一個版本是由 P3DFFT 開發人員設計的,它使用非阻塞的 all-to-all 集合操作和計算步驟來利用最大的重疊。

P3DFFT MPI 內核的增強版本在 32 節點 HPC-AI 集群上使用 MVAPICH2- DPU MPI 庫進行了評估。圖 4 顯示了 MVAPICH2- DPU MPI 庫將 P3DFFT 應用程序內核的總體執行時間減少了 21% ,適用于各種網格大小和 ppn 。

pYYBAGJlFmiAbxLCAACQMsGnHiA766.png

圖 4 MVAPICH2- DPU 庫減少 P3DFFT 應用程序總執行時間的能力。

概括

NVIDIA DPU 體系結構提供了新的功能,可以將任何中間件的功能卸載到 DPU 上的可編程 Arm 內核。必須重新設計 MPI 庫,以利用這些功能加速科學應用。

MVAPICH2- DPU MPI 庫是利用這種 DPU 功能的領先庫。 MVAPICH2- DPU 庫的初始版本提供了對 MPI \ u ialtoall nonblocking collectives 的卸載支持,顯示了計算和非阻塞 alltoall collective 之間 100% 的重疊。在 1024mpi 進程運行時,它可以將 P3DFFT 應用程序內核執行時間縮短 21% 。

這項研究證明了使用 MVAPICH2- DPU MPI 庫的 DPU 體系結構具有很強的 ROI 。隨著 DPU 體系結構的進步,即將發布的其他 MPI 功能的附加卸載功能將顯著加快云本地超級計算系統上的科學應用。

關于作者

Gilad Shainer 擔任 NVIDIA Mellanox networking 的營銷高級副總裁,專注于高性能計算、人工智能和 InfiniBand 技術。

Dhabaleswar K (DK) Panda 是 X-SaleSalOffice 的創始人和 CEO ,也是俄亥俄州立大學計算機科學教授和杰出學者。

Nick Sarkauskas 是俄亥俄州立大學計算機科學與工程系博士學位的軟件工程師。他目前在 X-ScaleSolutions 的工作是設計和開發 MVAPICH2- DPU 軟件堆棧。他的研究興趣包括高性能計算、高性能互連和并行算法。 Nick Sarkauskas 于 2020 年從 OSU 獲得計算機科學與工程學士學位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4981

    瀏覽量

    102997
  • 人工智能
    +關注

    關注

    1791

    文章

    47208

    瀏覽量

    238284
  • 應用程序
    +關注

    關注

    37

    文章

    3267

    瀏覽量

    57683
收藏 人收藏

    評論

    相關推薦

    云計算HPC軟件關鍵技術

    云計算HPC軟件關鍵技術涉及系統架構、處理器技術、操作系統、計算加速、網絡技術以及軟件優化等多個方面。下面,AI部落小編帶您探討云計算HPC軟件的關鍵技術。
    的頭像 發表于 12-18 11:23 ?75次閱讀

    NVIDIA發布cuPyNumeric加速計算庫

    加速計算庫幫助科研人員無縫地擴展到強大的計算集群,并且無需修改 Python 代碼,推進科學發現。
    的頭像 發表于 11-21 10:05 ?247次閱讀

    NVIDIA加速計算如何推動醫療健康

    近日,NVIDIA 企業平臺副總裁 Bob Pette 在 AI Summit 一場演講重點談論了 NVIDIA 加速計算如何推動醫療健康、網絡安全和制造等行業實現轉型。他表示,
    的頭像 發表于 11-20 09:10 ?291次閱讀

    日本企業借助NVIDIA產品加速AI創新

    日本領先企業和大學正在使用 NVIDIA NeMo、NIM 微服務和 NVIDIA Isaac 加速 AI 創新。
    的頭像 發表于 11-19 14:34 ?284次閱讀

    科研計算HPC平臺是什么

    高性能計算平臺(HPC平臺)是一個利用由成千上萬個處理器核心組成的超級計算機或計算機集群來執行復雜計算任務的平臺。
    的頭像 發表于 10-21 10:43 ?181次閱讀

    NVIDIA與思科合作打造企業級生成式AI基礎設施

    NVIDIA 加速計算平臺、NVIDIA AI Enterprise 軟件和 NVIDIA NIM 推理微服務加持的思科 Nexus HyperFabric AI
    的頭像 發表于 10-10 09:35 ?341次閱讀

    NVIDIA突破美國禁令,將在中東部署其高性能AI/HPC GPU加速

    Ooredoo達成合作協議,將在中東地區部署其高性能AI/HPC GPU加速卡。這一舉動不僅標志著NVIDIA在中東市場的戰略布局取得了重大突破,也引發了外界對于如何防止這些先進技術流向中國的廣泛討論。
    的頭像 發表于 06-24 14:47 ?844次閱讀

    借助NVIDIA DOCA 2.7增強AI 云數據中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架為開發者提供了豐富的庫、驅動和 API,以便為 NVIDIA BlueField DPU 和 SuperNIC 創建高性能的應用程序和服務。
    的頭像 發表于 05-29 09:22 ?486次閱讀

    NVIDIA DPU編程入門開課儀式在澳門科技大學成功舉辦

    5 月 24 日,NVIDIA DPU 編程入門開課儀式在澳門科技大學成功舉辦。作為首個在中國開設 NVIDIA DPU 編程相關課程的高校,來自澳門科技大學不同院系的師生共同見證了本
    的頭像 發表于 05-28 09:40 ?393次閱讀

    高性能計算集群的能耗優化

    高性能計算(HighPerformanceComputing,HPC)是指利用大規模并行計算機集群來解決復雜的科學和工程問題的技術。高性能計算集群的應用領域非常廣泛,包括天氣預報、生物
    的頭像 發表于 05-25 08:27 ?419次閱讀
    高性能計算<b class='flag-5'>集群</b>的能耗優化

    助力科學發展,NVIDIA AI加速HPC研究

    科學家和研究人員正在利用 NVIDIA 技術將生成式 AI 應用于代碼生成、天氣預報、遺傳學和材料科學領域的 HPC 工作。
    的頭像 發表于 05-14 09:17 ?409次閱讀
    助力<b class='flag-5'>科學</b>發展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    SAP與NVIDIA攜手加速生成式AI在企業應用的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企業客戶在 SAP 云解決方案和應用組合利用數據和生成式 AI 的變革力量。
    的頭像 發表于 03-22 10:02 ?598次閱讀

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?576次閱讀

    什么是HPC高性能計算

    高性能計算(HighPerformanceComputing,簡稱HPC),是指利用集群、網格、超算等計算機技術,通過合理地組織計算機資源以及運用適合的算法和程序,提高計算效率和處理能力,實現對大量
    的頭像 發表于 02-19 13:27 ?844次閱讀
    什么是<b class='flag-5'>HPC</b>高性能計算

    《數據處理器:DPU編程入門》DPU計算入門書籍測評

    , 數據加速應用實踐 。 分別介紹了DPU技術和英偉達DPU技術: DPU的誕生 現代計算架構及問題 數據解耦及大帶寬數據應用 英偉達DPU
    發表于 12-24 10:54
    主站蜘蛛池模板: 日日噜噜夜夜爽爽| 色欲AV亚洲情无码AV蜜桃| 色欲无码国产喷水AV精品| 亚洲精品一卡二卡三卡四卡2021| 中文字幕国产在线观看| 丁香美女社区| 久久精品国产欧美成人| 强行撕开衣服捏胸黄文| 亚洲 欧美无码原创区| 99久久爱看免费观看| 国产色无码精品视频国产| 蜜芽tv在线www| 午夜伦理 第1页| 99久久麻豆AV色婷婷综合| 国产在线精品视频免费观看| 欧美一区二区三区久久综| 亚洲午夜久久久精品电影院| 岛国大片在线观看免费版| 久久精品无码一区二区日韩av| 色AV色婷婷66人妻久久久| 2020亚洲 欧美 国产 日韩| 国产亚洲精品久久精品69| 漂亮的保姆6在线观看中文| 一个色综合久久| 国产精品久久久久一区二区三区 | 国产成人免费高清视频| 伦理片97影视网| 亚洲精品无码AAAAAA片| 成年人深夜福利| 理论片午午伦夜理片2021| 性色AV乱码一区二区三区视频| seba51久久精品| 老司机深夜福利ae 入口网站 | 五花大绑esebdsm国产| 99热久久这里只有精品| 九九99热久久精品在线6| 同桌别揉我奶了嗯啊| 扒开她的黑森林让我添动态图| 久久婷婷色香五月综合激情| 亚洲AV午夜精品麻豆AV| 国产成人精品精品欧美|