超級計算機是一項重要的投資,對于研究人員和科學家來說,它們是必不可少的寶貴工具。為了有效和安全地共享這些數據中心的計算能力, NVIDIA 引入了云原生超級計算架構。它結合了裸機性能、多租戶和性能隔離統(tǒng)一為超級計算服務。
Magnum IO 是數據中心的 I / O 子系統(tǒng),它引入了新的增強功能,以加速多租戶數據中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云原生超級計算架構。
它由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網卡。
這種進化環(huán)境的挑戰(zhàn)是什么?
基于 GPU 的高性能計算已經通過機器學習和模擬計算大幅改變了科學和實驗。在GPU 上運行的這些深度學習框架和模擬工具可能會消耗 PB 級的數據,并在整個數據中心內造成擁塞和瓶頸。更復雜的是,這些應用程序的多個實例在共享的超級計算設施上常常同時運行并互相影響,因而造成運行性能的抖動,從而導致無法預測的運行時間。
面向云原生超級計算體系結構設計的 Magnum IO 帶來新的增強功能,以減輕最終用戶在多租戶環(huán)境中運行應用帶來的性能負面影響。它提供確定性的性能,就好像它們的應用程序是獨占網絡運行。
第三代 NVIDIA SHARP
(可擴展分層聚合和規(guī)約協(xié)議)
通過將集合操作從主機 CPU 卸載到交換機網絡,SHARP 技術有效消除了端點之間多次發(fā)送數據的需求,從而提高了 MPI 操作的性能。這種方法大幅減少了到達聚合節(jié)點的網絡流量,并顯著減少了 MPI 操作時間。
在網絡中實現集合通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。
最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機為大型數據聚合提供了強大的可擴展性。由于每個交換機支持幾乎無限的小消息聚合和多個大消息聚合流,在共享系統(tǒng)上運行多租戶應用程序可以充分利用 SHARP 的優(yōu)勢。
性能隔離
多租戶超級計算實現在共享資源上運行很多用戶的應用程序,可能造成物理服務器、存儲、網絡以及I / O流量模型的復用 。
NVIDIA Quantum InfiniBand 一直以來支持擁塞控制管理,當檢測到網絡擁塞時在源端實施控制以緩解擁塞。但在多租戶場景,用戶應用可能無意識地與相鄰用戶流量產生干擾,因此需要隔離以提供可預期的性能級別。
借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創(chuàng)新的主動監(jiān)控和擁塞管理提供了良好的流量隔離。這幾乎完全消除了性能抖動,并確保了預期的性能,就像應用程序運行在專用系統(tǒng)上一樣。
專為安全、多租戶、裸機性能而打造
NVIDIA Cloud-Native Supercomputing 體系結構使用 Magnum IO 在多租戶環(huán)境中實現最高的性能、安全性和編排。
此外,實現這種架構轉換的另一個核心元素是數據處理器( DPU ),也即 BlueField 。作為一個完全集成的片上數據中心平臺, BlueField 從主機處理器卸載和管理數據中心基礎設施,實現超級計算機的安全和編排。
它還能夠提供額外的通信框架卸載,可達到 100% 的通信計算重疊,實現 MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結合最新的 NVIDIA Quantum-2 平臺時,該體系結構在安全的多節(jié)點體系結構中展示性能隔離實現裸金屬性能。
Magnum IO 消除了 I / O 瓶頸,拓展了硬件級加速引擎、網絡計算和擁塞控制等最新技術,成為支持當今高性能裸金屬多租戶數據中心的必備利器。
責任編輯:haq
-
NVIDIA
+關注
關注
14文章
5198瀏覽量
105557 -
云計算
+關注
關注
39文章
7958瀏覽量
139135 -
人工智能
+關注
關注
1804文章
48515瀏覽量
245395
原文標題:使用 Magnum IO 加速云原生超級計算
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
云原生在汽車行業(yè)的優(yōu)勢
云原生AI服務怎么樣
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個人AI超級計算機設計NVIDIA GB10超級芯片
云原生LLMOps平臺作用
如何選擇云原生機器學習平臺
什么是云原生MLOps平臺
k8s微服務架構就是云原生嗎?兩者是什么關系
NVIDIA助力丹麥發(fā)布首臺AI超級計算機
云原生和非云原生哪個好?六大區(qū)別詳細對比
基于Arm架構的Azure虛擬機助力云原生應用開發(fā)
京東云原生安全產品重磅發(fā)布

從積木式到裝配式云原生安全

借助NVIDIA超級計算機加速量子計算發(fā)展
基于DPU與SmartNic的云原生SDN解決方案

評論