英偉達 DGX 服務器內部細節詳解

Nvidia 上個禮拜發布了迄今為止最強大的 DGX 服務器。120kW 機架規模系統使用?NVLink?將 72 個新型 Blackwell 加速器拼接在一起，形成一個本質上能夠提供超過 1.4 exaFLOPS 性能的大型 GPU（無論如何，在 FP4 精度下）。

在這里，我們仔細研究機架規模系統，Nvidia 聲稱該系統可以支持大量訓練工作量以及對高達 27 萬億個參數的模型進行推理，但目前還沒有任何模型有這么大。

該系統被稱為 DGX GB200 NVL72，是 Nvidia在 11 月份展示的基于 Grace-Hopper Superchip 的機架系統的演變。然而，這個處理器的 GPU 數量是其兩倍多。

計算堆棧

雖然 1.36 公噸（3,000 磅）機架系統作為一個大型 GPU 進行銷售，但它由 18 個 1U 計算節點組裝而成，每個節點都配備了兩個 Nvidia 的 2,700W Grace-Blackwell Superchips (GB200)。

大量部件使用 Nvidia 的 900GBps NVLink-C2C 互連將 72 核 Grace CPU 與一對頂級規格的 Blackwell GPU 結合在一起。

總體而言，每個 Superchip 均配備 864GB 內存（480GB LPDDR5x 和 384GB HBM3e），根據 Nvidia 的說法，可以推動 40 petaFLOPS 的稀疏 FP4 性能。這意味著每個計算節點能夠產生 80 petaFLOPS 的人工智能計算，整個機架可以執行 1.44 exaFLOPS 的超低精度浮點數學運算。

系統前端是四個 InfiniBand NIC（請注意機箱面板左側和中心的四個 QSFP-DD 籠），它們構成了計算網絡。該系統還配備了 BlueField-3 DPU，我們被告知它負責處理與存儲網絡的通信。

除了幾個管理端口之外，該機箱還具有四個小型 NVMe 存儲盒。

憑借兩個 GB200 超級芯片和五個 NIC，我們估計每個節點的功耗為 5.4kW 到 5.7kW。絕大多數熱量將通過直接芯片 (DTC) 液體冷卻方式帶走。Nvidia 在 GTC 上展示的 DGX 系統沒有冷板，但我們確實看到了合作伙伴供應商的幾個原型系統，例如聯想的這個系統。

然而，與我們從 HPE Cray 或聯想的?Neptune?系列中看到的以液體冷卻所有設備的一些以 HPC 為中心的節點不同，Nvidia 選擇使用傳統的 40mm 風扇來冷卻 NIC 和系統存儲等低功耗外圍設備。

將它們縫合在一起

在他的主題演講中，首席執行官兼皮夾克愛好者 Jensen Huang 將 NVL72 描述為一個大型 GPU。這是因為所有 18 個超密集計算節點都通過位于機架中間的九個 NVLink 交換機堆棧相互連接。

Nvidia 的 HGX 節點也使用了相同的技術來使其 8 個 GPU 發揮作用。但是，NVL72 中的 NVLink 開關并不是像下面所示的 Blackwell HGX 那樣將 NVLink 開關烘焙到載板上，而是一個獨立的設備。

這些交換機設備內部有一對 Nvidia 的 NVLink 7.2T ASIC，總共提供 144 100 GBps 鏈路。每個機架有 9 個 NVLink 交換機，可為機架中 72 個 GPU 中的每個 GPU 提供 1.8 TBps（18 個鏈路）的雙向帶寬。

NVLink 交換機和計算底座均插入盲插背板，并具有超過 2 英里（3.2 公里）的銅纜布線。透過機架的背面，您可以隱約看到一大束電纜，它們負責將 GPU 連接在一起，以便它們可以作為一個整體運行。

堅持使用銅纜而不是光纖的決定似乎是一個奇怪的選擇，特別是考慮到我們正在討論的帶寬量，但顯然支持光學所需的所有重定時器和收發器都會在系統已經巨大的基礎上再增加 20kW電力消耗。

這可以解釋為什么 NVLink 交換機底座位于兩個計算組之間，因為這樣做可以將電纜長度保持在最低限度。

電源、冷卻和管理

在機架的最頂部，我們發現了幾個 52 端口?Spectrum?交換機 — 48 個千兆位 RJ45 和四個 QSFP28 100Gbps 聚合端口。據我們所知，這些交換機用于管理和傳輸來自構成系統的各個計算節點、NVLink 交換機底座和電源架的流式遙測。

這些交換機的正下方是從 NVL72 前面可見的六個電源架中的第一個 - 三個位于機架頂部，三個位于底部。我們對它們了解不多，只知道它們負責為 120kW 機架提供電力。

根據我們的估計，六個 415V、60A PSU 就足以滿足這一要求。不過，Nvidia 或其硬件合作伙伴可能已經在設計中內置了一定程度的冗余。這讓我們相信它們的運行電流可能超過 60A。我們已向 Nvidia 詢問有關電源架的更多詳細信息；我們會讓您知道我們的發現。

不管他們是怎么做的，電力都是由沿著機架背面延伸的超大規模直流母線提供的。如果仔細觀察，您可以看到母線沿著機架中間延伸。

當然，冷卻 120kW 的計算并不是小事。但隨著芯片變得越來越熱和計算需求不斷增長，我們看到越來越多的比特倉（包括 Digital Realty 和 Equinix）擴大了對高密度 HPC 和 AI 部署的支持。

就 Nvidia 的 NVL72 而言，計算交換機和 NVLink 交換機均采用液體冷卻。據 Huang 介紹，冷卻劑以每秒 2 升的速度進入 25 攝氏度的機架，離開時溫度升高 20 度。

橫向擴展

如果 DGX GB200 NVL72 的 13.5 TB HBM3e 和 1.44 exaFLOPS 稀疏 FP4 還不夠，那么可以將其中的 8 個網絡連接在一起，形成一個具有 576 個 GPU 的大型 DGX Superpod。

果您需要更多計算來支持大型訓練工作負載，則可以添加額外的 Superpod 以進一步擴展系統。這正是 Amazon Web Services 通過Project Ceiba所做的事情。這款 AI 超級計算機最初于 11 月宣布，現在使用 Nvidia 的 DGX GB200 NVL72 作為模板。據報道，完成后該機器將擁有 20,736 個 GB200 加速器。然而，該系統的獨特之處在于，Ceiba 將使用 AWS 自主開發的 Elastic Fabric Adapter (EFA) 網絡，而不是 Nvidia 的?InfiniBand?或以太網套件。

英偉達表示，其 Blackwell 部件，包括機架規模系統，將于今年晚些時候開始投放市場。

審核編輯：黃飛

閱讀全文