一本大道香蕉大69,五月性,伊人久久青草青青综合

今年早些時(shí)候，NVIDIA首席執(zhí)行官黃仁勛發(fā)布了NVIDIA? DGX-2?服務(wù)器，并稱(chēng)其為“全球最大GPU”。DGX-2在單一系統(tǒng)中包含了16個(gè)NVIDIA Tesla? V100 32 GB GPU和其他頂級(jí)組件（兩個(gè)24核Xeon CPU、1.5 TB DDR4 DRAM內(nèi)存和30 TB NVMe存儲(chǔ)），通過(guò)基于NVSwitch的NVLink結(jié)構(gòu)連接，可提供2 petaFLOPS的性能，堪稱(chēng)最強(qiáng)大的超級(jí)計(jì)算機(jī)之一。

NVSwitch使DGX-2成為了最大的GPU，這意味著其總體并非各部分的簡(jiǎn)單加成。事實(shí)證明，讓DGX-2服務(wù)器能夠稱(chēng)得上“全球最大GPU”的，正是其中看似最不起眼的部分。讓我們來(lái)看看創(chuàng)新NVIDIA NVSwitch?芯片及其他工程特性如何使DGX-2成為了全球最大的GPU。

注：本文中的信息來(lái)自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大會(huì)上的專(zhuān)題演示“NVSwitch and DGX?2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

單一GPU

讓我們先看看單一多核GPU如何與CPU交互，如圖1所示。程序員通過(guò)NVIDIA CUDA?技術(shù)明確地展現(xiàn)了并行工作。工作流經(jīng)PCIe I / O端口進(jìn)入GPU，其中數(shù)據(jù)由GPU驅(qū)動(dòng)程序分發(fā)到可用的圖形處理群集（GPC）和流式多處理器（SM）內(nèi)核。XBAR的采用讓GPU / SM內(nèi)核能夠在L2高速緩存和高帶寬GPU內(nèi)存（HBM2）上交換數(shù)據(jù)。

GPC和GPU內(nèi)存之間的高帶寬可實(shí)現(xiàn)大規(guī)模計(jì)算能力和快速同步，但規(guī)模受限，因其要求數(shù)據(jù)必須適合本地GPU內(nèi)存，才能有效使用XBAR提供的高帶寬。

圖1. 連接到CPU的單一GPU

雙GPU（PCIe和NVLink）

圖2顯示了添加另一個(gè)GPU是如何增加可用GPU內(nèi)存量的。在所示配置中，GPU只能以PCIe提供的32 GBps的最大雙向帶寬，訪問(wèn)其他GPU上的內(nèi)存。此外，這些交互會(huì)與總線上的CPU操作競(jìng)爭(zhēng)，甚至進(jìn)一步占用可用帶寬。

圖2. 通過(guò)PCIe總線連接的雙GPU

NVIDIA NVLink?技術(shù)使GPC無(wú)需通過(guò)PCIe總線即可訪問(wèn)遠(yuǎn)程GPU內(nèi)存，如圖3所示。NVLinks實(shí)現(xiàn)了XBAR之間的有效橋接。V100 GPU上最多可采用六個(gè)NVLink，GPU之間的雙向帶寬可達(dá)300 GBps。但是，在具有兩個(gè)以上GPU的系統(tǒng)中，六個(gè)可用的NVLink必須先分成較小的鏈接組，每個(gè)組專(zhuān)用于訪問(wèn)不同的特定單一GPU。這就限制了可使用直接連接來(lái)構(gòu)建的機(jī)器規(guī)模，并降低了每對(duì)GPU之間的帶寬。

圖3. 通過(guò)NVLink技術(shù)連接的雙GPU

Super Crossbar將GPU連接在一起

理想的情況是提供某種交叉，讓更多GPU能夠訪問(wèn)所有GPU內(nèi)存，所有GPU都可能在單一GPU驅(qū)動(dòng)程序?qū)嵗目刂葡拢鐖D4所示。有了這樣的交叉，可在沒(méi)有其他進(jìn)程干預(yù)的情況對(duì)GPU內(nèi)存進(jìn)行訪問(wèn)，且可用帶寬將足夠高，可提供類(lèi)似于上文所述的雙GPU情況下的性能擴(kuò)展。

圖4. 尋找交叉開(kāi)關(guān)設(shè)備

最終目標(biāo)是提供以下所有內(nèi)容：

更大的問(wèn)題規(guī)模容量。大小受整個(gè)GPU集合的GPU內(nèi)存容量限制，而非單一GPU容量。

強(qiáng)大的可擴(kuò)展性。與現(xiàn)有解決方案相比，NUMA效應(yīng)將大大降低。總內(nèi)存帶寬實(shí)際上會(huì)隨GPU數(shù)量而增長(zhǎng)。

使用便利。針對(duì)較少數(shù)量的GPU編寫(xiě)的應(yīng)用程序?qū)⒏子谝浦病４送猓S富的資源可助力快速開(kāi)展實(shí)驗(yàn)。

以上16-GPU配置（假設(shè)有32GB V100 GPU）產(chǎn)生的總?cè)萘渴蛊淠軌蚯八从械剡\(yùn)行“一個(gè)超強(qiáng)GPU”的計(jì)算。

NVIDIA NVSwitch介紹

NVSwitch（圖5）是一款GPU橋接設(shè)備，可提供所需的NVLink交叉網(wǎng)絡(luò)。端口邏輯模塊中的數(shù)據(jù)包轉(zhuǎn)換使得進(jìn)出多GPU的流量看似是通過(guò)單一GPU的。

圖5. 帶有標(biāo)注的NVSwitch芯片裸片

NVSwitch芯片并行運(yùn)行，以支持?jǐn)?shù)量日益增加的GPU之間的互連。可使用三個(gè)NVSwitch芯片構(gòu)建一個(gè)8 GPU封閉系統(tǒng)。兩條NVLink路徑將每個(gè)GPU連接至每臺(tái)交換機(jī)，流量在所有NVLink和NVSwitch之間交叉。 GPU使用任意對(duì)之間的300 GBps雙向帶寬成對(duì)通信，因?yàn)镹VSwitch芯片提供了從任何源到任何目的地的唯一路徑。

圖6. NVSwitch框圖

實(shí)現(xiàn)了對(duì)分帶寬

讓每個(gè)GPU從另一個(gè)GPU讀取數(shù)據(jù)，而不會(huì)有兩個(gè)GPU從同一遠(yuǎn)程GPU讀取數(shù)據(jù)，就實(shí)現(xiàn)了無(wú)干擾的成對(duì)通信能力。使用16個(gè)GPU實(shí)現(xiàn)的1.98 TBps讀取帶寬與128B傳輸在理論上80％的雙向NVLink效率相匹配。

圖7. 實(shí)現(xiàn)的對(duì)分帶寬結(jié)果

使用cuFFT（16K X 16K）

實(shí)現(xiàn)更強(qiáng)大的可擴(kuò)展性

通過(guò)在越來(lái)越多的GPU上（更高的GFLOPS，相應(yīng)的總運(yùn)行時(shí)間卻更短）、以及搭載V100 GPU的NVIDIA DGX-1服務(wù)器上運(yùn)行“iso-problem instance”計(jì)算進(jìn)行對(duì)比，即能證明其強(qiáng)大的可擴(kuò)展性能，如圖8所示。如果沒(méi)有NVSwitch網(wǎng)絡(luò)提供的NVLink交叉，由于問(wèn)題分散在更多GPU上，傳輸數(shù)據(jù)所需的時(shí)間要長(zhǎng)于在本地對(duì)相同數(shù)據(jù)進(jìn)行簡(jiǎn)單計(jì)算所需的時(shí)間。

圖8. 使用NVLink與Hybrid Cube Mesh的cuFFT結(jié)果

全歸約基準(zhǔn)測(cè)試

圖9也體現(xiàn)了NVLink交叉的優(yōu)勢(shì)。全歸約基準(zhǔn)測(cè)試是對(duì)機(jī)器學(xué)習(xí)應(yīng)用程序中采用的重要通信原語(yǔ)進(jìn)行的測(cè)量。與兩臺(tái)配備八個(gè)GPU的服務(wù)器（通過(guò)InfiniBand連接）相比，NVLink交叉讓16 GPU DGX-2服務(wù)器能夠提供更高帶寬和更低延遲。針對(duì)較小的信息，NVLink網(wǎng)絡(luò)的效率明顯優(yōu)于InfiniBand。

圖9. 全歸約基準(zhǔn)測(cè)試結(jié)果顯示NVLink與InfiniBand帶寬效率的顯著差異

HPC和AI訓(xùn)練基準(zhǔn)測(cè)試的加速

圖10所示，與總GPU數(shù)相同的兩臺(tái)DGX-1（采用V100）服務(wù)器相比，HPC和AI訓(xùn)練基準(zhǔn)測(cè)試性能得以提升，速度達(dá)到了其2到2.7倍。對(duì)比所用的DGX-1服務(wù)器各采用了8個(gè)Tesla V100 32 GB GPU和雙槽Xeon E5 2698v4處理器。服務(wù)器通過(guò)四個(gè)EDR IB / GbE端口連接。

圖10. HPC和AI訓(xùn)練基準(zhǔn)測(cè)試的加速

總結(jié)

正因有了NVSwitch芯片，DGX-2才可謂全球最大GPU。NVSwitch是一種暢通無(wú)阻的設(shè)備，具有18個(gè)NVLink端口，每端口51.5 GBps，聚合雙向帶寬達(dá)928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的總?cè)萘浚槍?duì)特定應(yīng)用的性能表現(xiàn)超過(guò)InfiniBand連接的一對(duì)DGX-1服務(wù)器的兩倍。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴