十多年來,傳統的云數據中心一直是計算基礎設施的基石,滿足了各種用戶和應用程序的需求。然而,近年來,為了跟上技術的進步和對 AI 驅動的計算需求的激增,數據中心進行了發展。本文探討了網絡在塑造數據中心的未來和推動 AI 時代方面發揮的關鍵作用。
專用數據中心:AI 工廠和 AI 云
目前正在涌現兩類不同的數據中心:AI 工廠和 AI 云。這兩類數據中心都是為滿足 AI 工作負載的獨特需求而定制的,其特點是都依賴于加速計算。
AI 工廠旨在處理大語言模型(LLM)和其他基礎 AI 模型等大規模算法模型,這些模型是構建更先進 AI 系統的基礎模組。因此,為了實現擁有數千個 GPU 的集群可以無縫擴展和資源的高效利用,強大的高性能網絡勢在必行。
AI 云擴展了傳統云基礎設施的功能,以支持大規模生成式人工智能應用程序。生成式 AI 超越了傳統的 AI 系統,它基于其訓練的數據創建新的內容,例如圖像、文本和音頻。管理擁有數千名用戶的 AI 云需要高級管理工具和網絡基礎設施,以便高效處理各種工作負載。
AI 和分布式計算
AI 工作負載具有計算密集型,尤其是涉及 ChatGPT 和 BERT 等大型復雜模型的工作負載。為了加速模型訓練和對大量數據集的處理,AI 從業者已轉向分布式計算。這種方法涉及將工作負載分配到多個通過高速、低延時網絡連接的服務器節點上。
分布式計算是 AI 取得成功的關鍵,而網絡的可擴展性和處理越來越多節點的能力至關重要。高度可擴展的網絡使 AI 研究人員能夠利用更多的計算資源,從而更快、更出色地提升性能。
在為 AI 數據中心構建網絡架構時,必須優先創建以分布式計算為核心的集成解決方案。需要數據中心架構師必須認真考慮網絡設計,根據他們計劃部署的 AI 工作負載的獨特需求定制解決方案。
NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是兩個專為應對 AI 數據中心的網絡挑戰而設計的網絡平臺,每個平臺都有自己獨特的功能和創新。
InfiniBand 提升 AI 性能
InfiniBand 技術一直是大規模復雜分布式科學計算部署應用的驅動力。它已成為 AI 工廠網絡的事實標準。憑借超低延遲,InfiniBand 已成為加速當今主流高性能計算(HPC)和 AI 應用的關鍵。高效 AI 系統所需的許多關鍵網絡功能均原生于 NVIDIA Quantum-2 InfiniBand 平臺。
InfiniBand 的網絡計算是將基于硬件的計算引擎集成到網絡中,利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)(一種網絡內聚合機制)。SHARP 支持多個并發集合操作,可將數據帶寬翻倍,以增強集群性能,卸載大量復雜的計算到網絡上來。
InfiniBand 自適應路由能夠以最佳方式分散流量,從而緩解擁塞并提高資源利用率。在子網管理器的管理下,InfiniBand 會根據網絡條件選擇無擁塞的路由,從而在不影響數據包到達順序的情況下最大限度地提高效率。
InfiniBand 擁塞控制架構可確保確定性帶寬和延遲。它使用三個階段來管理擁塞,從而防止 AI 工作負載中遇到性能瓶頸。
這些固有的優化使 InfiniBand 能夠滿足 AI 應用的需求,最終實現卓越的性能和效率。
在以太網中探索 AI 部署
為 AI 基礎架構部署以太網產品首先需要滿足以太網協議的特定需求。但是,隨著時間的推移,為了滿足各種網絡場景的需求,以太網融入了非常廣泛而復雜的功能。
因此,開箱即用的傳統以太網并非專為高性能而設計。使用傳統以太網絡搭建的 AI 云只能實現部署了優化過以太網絡的 AI 云所能實現的一小部分性能。
在多個 AI 作業同時運行的多租戶環境中,性能隔離對于防止性能降低至關重要。如果出現鏈路故障,傳統以太網可能會導致 AI 集群性能減半。這是因為傳統以太網主要針對日常企業工作流程進行了優化,而不是為了滿足那些依賴于 NVIIDA Collective Communication Library(NCCL)的高性能 AI 應用程序的需求而設計的。
這些性能問題是由傳統以太網的固有因素造成的,包括:
-
分立的交換機 Buffer 架構,這可能會導致帶寬不公平
-
負載均衡缺乏針對 AI 工作負載生成的大型流進行了二次優化
-
缺乏性能隔離而導致相鄰噪聲問題嚴重
Spectrum-X 網絡平臺解決了這些問題以及更多其他問題。Spectrum–X 基于標準以太網協議構建,支持 RDMA over Converged Ethernet(RoCE)協議,可提高 AI 的性能。Spectrum-X 網絡平臺利用 InfiniBand 原生的最佳實踐,并為以太網帶來了自適應路由和擁塞控制等創新。
Spectrum-X 是唯一一款能夠為多租戶生成式 AI 云提供高效帶寬和性能隔離的以太網平臺,這得益于 Spectrum-4 和 NVIDIA BlueField-3 DPU。
總結
AI 時代已然來臨,而網絡是其成功的基石。為了充分發揮 AI 的潛力,數據中心架構師必須仔細考慮網絡設計,并根據 AI 工作負載的獨特需求定制這些設計。解決網絡問題是釋放 AI 技術潛力和推動數據中心行業創新的關鍵。
NVIDIA Quantum InfiniBand 憑借超低延時、可擴展性能和先進的功能集,成為 AI 工廠的理想選擇。而 NVIDIA Spectrum-X 則憑借專為 AI 打造的技術創新,為構建基于以太網的 AI 云的組織提供了突破性解決方案。
掃描下方二維碼,查看更多有關NVIDIA Spectrum-X 的信息。
掃描下方二維碼,查看更多有關NVIDIA Quantum-2 InfiniBand 的信息。

更多精彩內容 新的 MLPerf 推理網絡部分展現 NVIDIA InfiniBand 網絡和 GPUDirect RDMA 的強大能力
借助 NVIDIA Spectrum 以太網最大限度地提高存儲網絡性能
使用 NVIDIA Spectrum-X 網絡平臺加速生成式 AI 工作負載
原文標題:適用于數據中心和 AI 時代的網絡
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3872瀏覽量
92448
原文標題:適用于數據中心和 AI 時代的網絡
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
Meta AI數據中心網絡用了哪家的芯片

適用于實現VR13.HC Vccin規范的數據中心應用的負載點解決方案

數據中心應用中適用于Intel Xeon Sapphire Rapids可擴展處理器的負載點解決方案

數據中心應用中適用于Intel? Xeon? Sapphire Rapids可擴展處理器的負載點解決方案

適用于符合VR13.HC VCCIN規范的數據中心應用的負載點解決方案

適用于數據中心應用中的硬件加速器的直流/直流轉換器解決方案

哪些是數據中心的重要系統?
AI時代,我們需要怎樣的數據中心?AI重新定義數據中心

評論