Nvidia 上個(gè)禮拜發(fā)布了迄今為止最強(qiáng)大的 DGX 服務(wù)器。120kW 機(jī)架規(guī)模系統(tǒng)使用?NVLink?將 72 個(gè)新型 Blackwell 加速器拼接在一起,形成一個(gè)本質(zhì)上能夠提供超過(guò) 1.4 exaFLOPS 性能的大型 GPU(無(wú)論如何,在 FP4 精度下)。
在這里,我們仔細(xì)研究機(jī)架規(guī)模系統(tǒng),Nvidia 聲稱該系統(tǒng)可以支持大量訓(xùn)練工作量以及對(duì)高達(dá) 27 萬(wàn)億個(gè)參數(shù)的模型進(jìn)行推理,但目前還沒(méi)有任何模型有這么大。
該系統(tǒng)被稱為 DGX GB200 NVL72,是 Nvidia在 11 月份展示的基于 Grace-Hopper Superchip 的機(jī)架系統(tǒng)的演變。然而,這個(gè)處理器的 GPU 數(shù)量是其兩倍多。
計(jì)算堆棧
雖然 1.36 公噸(3,000 磅)機(jī)架系統(tǒng)作為一個(gè)大型 GPU 進(jìn)行銷(xiāo)售,但它由 18 個(gè) 1U 計(jì)算節(jié)點(diǎn)組裝而成,每個(gè)節(jié)點(diǎn)都配備了兩個(gè) Nvidia 的 2,700W Grace-Blackwell Superchips (GB200)。
大量部件使用 Nvidia 的 900GBps NVLink-C2C 互連將 72 核 Grace CPU 與一對(duì)頂級(jí)規(guī)格的 Blackwell GPU 結(jié)合在一起。
總體而言,每個(gè) Superchip 均配備 864GB 內(nèi)存(480GB LPDDR5x 和 384GB HBM3e),根據(jù) Nvidia 的說(shuō)法,可以推動(dòng) 40 petaFLOPS 的稀疏 FP4 性能。這意味著每個(gè)計(jì)算節(jié)點(diǎn)能夠產(chǎn)生 80 petaFLOPS 的人工智能計(jì)算,整個(gè)機(jī)架可以執(zhí)行 1.44 exaFLOPS 的超低精度浮點(diǎn)數(shù)學(xué)運(yùn)算。
系統(tǒng)前端是四個(gè) InfiniBand NIC(請(qǐng)注意機(jī)箱面板左側(cè)和中心的四個(gè) QSFP-DD 籠),它們構(gòu)成了計(jì)算網(wǎng)絡(luò)。該系統(tǒng)還配備了 BlueField-3 DPU,我們被告知它負(fù)責(zé)處理與存儲(chǔ)網(wǎng)絡(luò)的通信。
除了幾個(gè)管理端口之外,該機(jī)箱還具有四個(gè)小型 NVMe 存儲(chǔ)盒。
憑借兩個(gè) GB200 超級(jí)芯片和五個(gè) NIC,我們估計(jì)每個(gè)節(jié)點(diǎn)的功耗為 5.4kW 到 5.7kW。絕大多數(shù)熱量將通過(guò)直接芯片 (DTC) 液體冷卻方式帶走。Nvidia 在 GTC 上展示的 DGX 系統(tǒng)沒(méi)有冷板,但我們確實(shí)看到了合作伙伴供應(yīng)商的幾個(gè)原型系統(tǒng),例如聯(lián)想的這個(gè)系統(tǒng)。
然而,與我們從 HPE Cray 或聯(lián)想的?Neptune?系列中看到的以液體冷卻所有設(shè)備的一些以 HPC 為中心的節(jié)點(diǎn)不同,Nvidia 選擇使用傳統(tǒng)的 40mm 風(fēng)扇來(lái)冷卻 NIC 和系統(tǒng)存儲(chǔ)等低功耗外圍設(shè)備。
將它們縫合在一起
在他的主題演講中,首席執(zhí)行官兼皮夾克愛(ài)好者 Jensen Huang 將 NVL72 描述為一個(gè)大型 GPU。這是因?yàn)樗?18 個(gè)超密集計(jì)算節(jié)點(diǎn)都通過(guò)位于機(jī)架中間的九個(gè) NVLink 交換機(jī)堆棧相互連接。
Nvidia 的 HGX 節(jié)點(diǎn)也使用了相同的技術(shù)來(lái)使其 8 個(gè) GPU 發(fā)揮作用。但是,NVL72 中的 NVLink 開(kāi)關(guān)并不是像下面所示的 Blackwell HGX 那樣將 NVLink 開(kāi)關(guān)烘焙到載板上,而是一個(gè)獨(dú)立的設(shè)備。
這些交換機(jī)設(shè)備內(nèi)部有一對(duì) Nvidia 的 NVLink 7.2T ASIC,總共提供 144 100 GBps 鏈路。每個(gè)機(jī)架有 9 個(gè) NVLink 交換機(jī),可為機(jī)架中 72 個(gè) GPU 中的每個(gè) GPU 提供 1.8 TBps(18 個(gè)鏈路)的雙向帶寬。
NVLink 交換機(jī)和計(jì)算底座均插入盲插背板,并具有超過(guò) 2 英里(3.2 公里)的銅纜布線。透過(guò)機(jī)架的背面,您可以隱約看到一大束電纜,它們負(fù)責(zé)將 GPU 連接在一起,以便它們可以作為一個(gè)整體運(yùn)行。
堅(jiān)持使用銅纜而不是光纖的決定似乎是一個(gè)奇怪的選擇,特別是考慮到我們正在討論的帶寬量,但顯然支持光學(xué)所需的所有重定時(shí)器和收發(fā)器都會(huì)在系統(tǒng)已經(jīng)巨大的基礎(chǔ)上再增加 20kW電力消耗。
這可以解釋為什么 NVLink 交換機(jī)底座位于兩個(gè)計(jì)算組之間,因?yàn)檫@樣做可以將電纜長(zhǎng)度保持在最低限度。
電源、冷卻和管理
在機(jī)架的最頂部,我們發(fā)現(xiàn)了幾個(gè) 52 端口?Spectrum?交換機(jī) — 48 個(gè)千兆位 RJ45 和四個(gè) QSFP28 100Gbps 聚合端口。據(jù)我們所知,這些交換機(jī)用于管理和傳輸來(lái)自構(gòu)成系統(tǒng)的各個(gè)計(jì)算節(jié)點(diǎn)、NVLink 交換機(jī)底座和電源架的流式遙測(cè)。
這些交換機(jī)的正下方是從 NVL72 前面可見(jiàn)的六個(gè)電源架中的第一個(gè) - 三個(gè)位于機(jī)架頂部,三個(gè)位于底部。我們對(duì)它們了解不多,只知道它們負(fù)責(zé)為 120kW 機(jī)架提供電力。
根據(jù)我們的估計(jì),六個(gè) 415V、60A PSU 就足以滿足這一要求。不過(guò),Nvidia 或其硬件合作伙伴可能已經(jīng)在設(shè)計(jì)中內(nèi)置了一定程度的冗余。這讓我們相信它們的運(yùn)行電流可能超過(guò) 60A。我們已向 Nvidia 詢問(wèn)有關(guān)電源架的更多詳細(xì)信息;我們會(huì)讓您知道我們的發(fā)現(xiàn)。
不管他們是怎么做的,電力都是由沿著機(jī)架背面延伸的超大規(guī)模直流母線提供的。如果仔細(xì)觀察,您可以看到母線沿著機(jī)架中間延伸。
當(dāng)然,冷卻 120kW 的計(jì)算并不是小事。但隨著芯片變得越來(lái)越熱和計(jì)算需求不斷增長(zhǎng),我們看到越來(lái)越多的比特倉(cāng)(包括 Digital Realty 和 Equinix)擴(kuò)大了對(duì)高密度 HPC 和 AI 部署的支持。
就 Nvidia 的 NVL72 而言,計(jì)算交換機(jī)和 NVLink 交換機(jī)均采用液體冷卻。據(jù) Huang 介紹,冷卻劑以每秒 2 升的速度進(jìn)入 25 攝氏度的機(jī)架,離開(kāi)時(shí)溫度升高 20 度。
橫向擴(kuò)展
如果 DGX GB200 NVL72 的 13.5 TB HBM3e 和 1.44 exaFLOPS 稀疏 FP4 還不夠,那么可以將其中的 8 個(gè)網(wǎng)絡(luò)連接在一起,形成一個(gè)具有 576 個(gè) GPU 的大型 DGX Superpod。
果您需要更多計(jì)算來(lái)支持大型訓(xùn)練工作負(fù)載,則可以添加額外的 Superpod 以進(jìn)一步擴(kuò)展系統(tǒng)。這正是 Amazon Web Services 通過(guò)Project Ceiba所做的事情。這款 AI 超級(jí)計(jì)算機(jī)最初于 11 月宣布,現(xiàn)在使用 Nvidia 的 DGX GB200 NVL72 作為模板。據(jù)報(bào)道,完成后該機(jī)器將擁有 20,736 個(gè) GB200 加速器。然而,該系統(tǒng)的獨(dú)特之處在于,Ceiba 將使用 AWS 自主開(kāi)發(fā)的 Elastic Fabric Adapter (EFA) 網(wǎng)絡(luò),而不是 Nvidia 的?InfiniBand?或以太網(wǎng)套件。
英偉達(dá)表示,其 Blackwell 部件,包括機(jī)架規(guī)模系統(tǒng),將于今年晚些時(shí)候開(kāi)始投放市場(chǎng)。
審核編輯:黃飛
?
評(píng)論
查看更多