一区二区在线看,亚洲欧美日韩精品久久亚洲区,亚洲天堂激情

今天的前沿高性能計(jì)算（ HPC ）系統(tǒng)包含數(shù)以萬(wàn)計(jì)的 GPU 。在 NVIDIA 系統(tǒng)中， GPU 通過 NVLink 擴(kuò)展互連在節(jié)點(diǎn)上連接，并通過 InfiniBand 等擴(kuò)展網(wǎng)絡(luò)跨節(jié)點(diǎn)連接。 GPU 用于并行通信、共享工作和高效運(yùn)行的軟件庫(kù)統(tǒng)稱為 NVIDIA Magnum IO ，是用于并行、異步和智能數(shù)據(jù)中心 IO 的架構(gòu)。

對(duì)于許多應(yīng)用，擴(kuò)展到這樣的大型系統(tǒng)需要 GPU 之間的細(xì)粒度通信的高效率。這對(duì)于以強(qiáng)伸縮性為目標(biāo)的工作負(fù)載尤其重要，因?yàn)樵诠ぷ髫?fù)載中添加了計(jì)算資源以減少解決給定問題的時(shí)間。

NVIDIA Magnum IO NVSHMEM 是一個(gè)基于 OpenSHMEM 規(guī)范的通信庫(kù)，它為 HPC 系統(tǒng)中所有 GPU 的存儲(chǔ)器提供分區(qū)全局地址空間（ PGAS ）數(shù)據(jù)訪問模型。

由于該庫(kù)支持 GPU 集成通信，因此對(duì)于以強(qiáng)擴(kuò)展為目標(biāo)的工作負(fù)載而言，它是一個(gè)特別適合且高效的工具。在這個(gè)模型中，數(shù)據(jù)是通過單邊讀、寫和原子更新通信例程訪問的。

由于與 GPU 架構(gòu)緊密集成，該通信模型通過 NVLink 實(shí)現(xiàn)了細(xì)粒度數(shù)據(jù)訪問的高效率。然而，由于主機(jī) CPU 需要管理通信操作，因此節(jié)點(diǎn)間數(shù)據(jù)訪問的高效率仍然是一個(gè)挑戰(zhàn)。

本文在 NVSHMEM 中介紹了一種新的通信方法，稱為 InfiniBand GPUDirect 異步（ IBGDA ），它建立在 GPUDirect Async 系列技術(shù)之上。 IBGDA 在 NVSHMEM 2.6.0 中引入，并在 NVSHMEM 2.7.0 和 2.8.0 中進(jìn)行了顯著改進(jìn)。它使 GPU 在發(fā)出節(jié)點(diǎn)間 NVSHMEM 通信時(shí)繞過 CPU ，而不會(huì)對(duì)現(xiàn)有應(yīng)用程序進(jìn)行任何更改。如我們所示，這將顯著提高使用 NVSHMEM 的應(yīng)用程序的吞吐量和擴(kuò)展能力。

代理啟動(dòng)的通信

圖 1 .使用 CPU 代理啟動(dòng) NIC 通信的 GPU 通信會(huì)導(dǎo)致通信瓶頸

使用 NVLink 進(jìn)行節(jié)點(diǎn)內(nèi)通信可以通過 GPU 流式多處理器（ SM ）啟動(dòng)的加載和存儲(chǔ)指令實(shí)現(xiàn)。然而，節(jié)點(diǎn)間通信涉及向網(wǎng)絡(luò)接口控制器（ NIC ）提交工作請(qǐng)求以執(zhí)行異步數(shù)據(jù)傳輸操作。

在引入 IBGDA 之前， NVSHMEM InfiniBand Reliable Connection （ IBRC ）傳輸使用 CPU 上的代理線程來(lái)管理通信（圖 1 ）。使用代理線程時(shí)， NVSHMEM 執(zhí)行以下操作序列：

應(yīng)用程序啟動(dòng) CUDA 內(nèi)核，在 GPU 內(nèi)存中生成數(shù)據(jù)。

應(yīng)用程序調(diào)用 NVSHMEM 操作（例如nvshmem_put）以與另一個(gè)處理元件（ PE ）通信。當(dāng)執(zhí)行細(xì)粒度或重疊通信時(shí)，可以在 CUDA 內(nèi)核內(nèi)調(diào)用此操作。 NVSHMEM 操作將工作描述符寫入主機(jī)內(nèi)存中的代理緩沖區(qū)。

NVSHMEM 代理線程檢測(cè)工作描述符并啟動(dòng)相應(yīng)的網(wǎng)絡(luò)操作。

以下步驟描述了與 NVIDIA InfiniBand 主機(jī)通道適配器（ HCA ）（如 ConnectX-6 HCA ）交互時(shí)代理線程執(zhí)行的操作順序：

CPU 創(chuàng)建一個(gè)工作描述符，并將其排入工作隊(duì)列（ WQ ）緩沖區(qū)，該緩沖區(qū)位于主機(jī)內(nèi)存中。

此描述符指示請(qǐng)求的操作（如 RDMA 寫入），并包含源地址、目標(biāo)地址、大小和其他必要的網(wǎng)絡(luò)信息。

CPU 更新主機(jī)內(nèi)存中的門鈴記錄（ DBR ）緩沖區(qū)。此緩沖區(qū)用于恢復(fù)路徑，以防 NIC 將寫入數(shù)據(jù)丟棄到其門鈴（ DB ）。

CPU 通過向其 DB （ NIC 硬件中的寄存器）寫入來(lái)通知 NIC 。

NIC 從 WQ 緩沖區(qū)讀取工作描述符。

NIC 使用 GPUDirect RDMA 直接從 GPU 內(nèi)存復(fù)制數(shù)據(jù)。

NIC 將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程節(jié)點(diǎn)。

NIC 通過將事件寫入主機(jī)存儲(chǔ)器上的完成隊(duì)列（ CQ ）緩沖區(qū)來(lái)指示網(wǎng)絡(luò)操作已完成。

CPU 輪詢 CQ 緩沖器以檢測(cè)網(wǎng)絡(luò)操作的完成。

CPU 通知 GPU 操作已完成。如果存在 GDRCopy ，則直接將通知標(biāo)志寫入 GPU 存儲(chǔ)器。否則，它會(huì)將該標(biāo)志寫入代理緩沖區(qū)。 GPU 在相應(yīng)的存儲(chǔ)器上輪詢工作請(qǐng)求的狀態(tài)。

雖然這種方法是便攜式的，可以為批量數(shù)據(jù)傳輸提供高帶寬，但它有兩個(gè)主要缺點(diǎn)：

CPU 周期被代理線程連續(xù)消耗。

由于代理線程存在瓶頸，您無(wú)法達(dá)到細(xì)粒度傳輸?shù)?NIC 吞吐量峰值。現(xiàn)代 NIC 每秒可以處理數(shù)以億計(jì)的通信請(qǐng)求。雖然 GPU 可以以這種速度生成請(qǐng)求，但 CPU 代理的處理速度要低幾個(gè)數(shù)量級(jí)，這為細(xì)粒度通信模式造成了瓶頸。

InfiniBand GPUDirect 異步

圖 2 .使用 IBGDA 的 GPU 通信啟用從 GPU SM 到 NIC 的直接控制路徑，并從關(guān)鍵路徑中刪除 CPU

與代理啟動(dòng)的通信不同， IBGDA 使用 GPUDirect Async – Kernel initiated （ GPUDirectAsync – KI ）使 GPU SM 能夠直接與 NIC 交互。這如圖 2 所示，涉及以下步驟。

應(yīng)用程序啟動(dòng) CUDA 內(nèi)核，在 GPU 內(nèi)存中生成數(shù)據(jù)。

應(yīng)用程序調(diào)用 NVSHMEM 操作（如nvshmem_put）以與另一個(gè) PE 通信。 NVSHMEM 操作使用 SM 創(chuàng)建 NIC 工作描述符，并將其直接寫入 WQ 緩沖區(qū)。與 CPU 代理方法不同，此 WQ 緩沖區(qū)駐留在 GPU 內(nèi)存中。

SM 更新 DBR 緩沖區(qū)，該緩沖區(qū)也位于 GPU 存儲(chǔ)器中。

SM 通過寫入 NIC 的 DB 寄存器來(lái)通知 NIC 。

NIC 使用 GPUDirect RDMA 讀取 WQ 緩沖區(qū)中的工作描述符。

NIC 使用 GPUDirect RDMA 讀取 GPU 內(nèi)存中的數(shù)據(jù)。

NIC 將數(shù)據(jù)傳輸?shù)竭h(yuǎn)程節(jié)點(diǎn)。

NIC 通過使用 GPUDirect RDMA 寫入 CQ 緩沖區(qū)來(lái)通知 GPU 網(wǎng)絡(luò)操作已完成。

如圖所示， IBGDA 從通信控制路徑中消除了 CPU 。使用 IBGDA 時(shí)， GPU 和 NIC 直接交換通信所需的信息。 WQ 和 DBR 緩沖區(qū)也移動(dòng)到 GPU 存儲(chǔ)器，以提高 SM 訪問時(shí)的效率，同時(shí)保留 NIC 通過 GPUDirect RDMA 的訪問。

Magnum IO NVSHMEM 評(píng)估

我們比較了 NVSHMEMIBGDA 傳輸和 NVSHMEMIBRC 傳輸?shù)男阅埽笳呤褂么砭€程來(lái)管理通信。這兩種傳輸都是標(biāo)準(zhǔn) NVSHMEM 分發(fā)的一部分。所有基準(zhǔn)測(cè)試和案例研究均在通過 NVIDIA ConnectX-6 200 Gb / s InfiniBand 網(wǎng)絡(luò)和 NVIDIA Quantum HDR 交換機(jī)連接的四臺(tái) DGX-A100 服務(wù)器上運(yùn)行。

為了突出 IBGDA 的效果，我們禁用了通過 NVLink 的通信。即使 PE 位于同一節(jié)點(diǎn)上，這也會(huì)強(qiáng)制通過 InfiniBand 網(wǎng)絡(luò)執(zhí)行所有傳輸。

單面輸入帶寬

我們首先運(yùn)行了shmem_put_bw基準(zhǔn)測(cè)試，該測(cè)試包含在 NVSHMEM 性能測(cè)試套件中，并使用nvshmem_double_put_nbi_block發(fā)布數(shù)據(jù)傳輸。該測(cè)試測(cè)量使用單邊寫入操作在一系列通信參數(shù)上傳輸固定數(shù)量的總數(shù)據(jù)時(shí)所獲得的帶寬。

對(duì)于節(jié)點(diǎn)間傳輸，此操作在執(zhí)行網(wǎng)絡(luò)通信時(shí)使用線程塊中的一個(gè)線程，而不管線程塊中有多少線程。這是已知的，也稱為協(xié)作線程陣列（ CTA ）。在不同的 DGX-A100 節(jié)點(diǎn)上啟動(dòng)了兩個(gè) PE 。設(shè)置為每個(gè)線程塊一個(gè)線程，每個(gè)線程塊有一個(gè) QP （ NIC 隊(duì)列對(duì)，包含 WQ 和 CQ ）。

圖 3 shmem_put_bwIBRC 顯示了當(dāng)您擴(kuò)展到更多的 QP 和 CTA 時(shí)， CPU 代理對(duì)小消息大小造成的帶寬上限

圖 4 shmem_put_bw IBGDA 證明，隨著 CTA 和 QPs 數(shù)量的增加，小消息大小的帶寬可以擴(kuò)展

圖 3 和圖 4 顯示了在不同數(shù)量的 CTA 和消息大小下，具有 IBRC 和 IBGDA 的shmem_put_bw的帶寬。如圖所示，對(duì)于具有大消息的粗粒度通信， IBGDA 和 IBRC 都可以達(dá)到峰值帶寬。當(dāng)應(yīng)用程序發(fā)出來(lái)自至少四個(gè) CTA 的通信時(shí)， IBRC 可以用小到 16KiB 的消息使網(wǎng)絡(luò)飽和。

進(jìn)一步增加 CTA 的數(shù)量不會(huì)減少我們觀察到峰值帶寬時(shí)的最小消息大小。限制較小消息帶寬的瓶頸在 CPU 代理線程中。雖然這里沒有顯示，但我們也嘗試增加 CPU 代理線程的數(shù)量，并觀察到類似的行為。

通過消除代理瓶頸，當(dāng) 64 個(gè) CTA 發(fā)出通信時(shí)， IBGDA 實(shí)現(xiàn)了峰值帶寬，消息小到 2 KiB 。這一結(jié)果突出了 IBGDA 支持更高級(jí)別通信并行性的能力以及由此帶來(lái)的性能改進(jìn)。

對(duì)于 IBRC 和 IBGDA ，每個(gè) CTA 中只有一個(gè)線程參與網(wǎng)絡(luò)操作。換句話說(shuō)，只需要 64 個(gè)線程（而不是 1024 × 64 個(gè)線程）就可以在 2 KiB 消息大小下實(shí)現(xiàn)峰值帶寬。

還表明， IBGDA 帶寬繼續(xù)隨著執(zhí)行通信的 CTA 的數(shù)量而擴(kuò)展，而 IBRC 代理在四個(gè) CTA 時(shí)達(dá)到其擴(kuò)展極限。因此， IBGDA 為消息大小小于 1 KiB 的 NVSHMEM 塊放入操作提供了高達(dá) 9.5 倍的吞吐量。

提高小郵件的吞吐量

shmem_p_bw基準(zhǔn)使用標(biāo)量nvshmem_double_p操作將數(shù)據(jù)直接從 GPU 寄存器發(fā)送到遠(yuǎn)程 PE 。此操作是線程范圍的，這意味著調(diào)用此操作的每個(gè)線程都傳輸一個(gè) 8 字節(jié)的數(shù)據(jù)字。

在接下來(lái)的實(shí)驗(yàn)中，我們?yōu)槊總€(gè) CTA 啟動(dòng)了 1024 個(gè)線程，并增加了 CTA 的數(shù)量，同時(shí)保持 QPs 的數(shù)量與 CTA 的數(shù)目相等。

圖 5 .國(guó)際復(fù)興開發(fā)銀行和國(guó)際銀行發(fā)展局之間的賣出率比較 shmem_p_bw 顯示了 IBGDA 在每秒發(fā)送數(shù)百萬(wàn)條小消息方面的性能優(yōu)勢(shì)

另一方面， IBGDA 的 put 速率可以達(dá)到 180 MOPS ，接近 215 MOPS 的峰值 NIC 消息速率限制。該圖還顯示，如果滿足聚結(jié)條件， IBGDA 可以達(dá)到幾乎 2000 MOPS 。

圖 5 顯示，無(wú)論 CTA 和 QP 的數(shù)量如何， IBRC 的投入率（單位：百萬(wàn)次操作/秒（ MOPS ））上限為 1.7 MOPS 左右。另一方面， IBGDA 的消息速率隨著 CTA 的數(shù)量而增加，接近 NVIDIA ConnectX-6 InfiniBand NIC 的 215 MOPS 硬件限制，只有 8 個(gè) CTA 。

在該配置中， IBGDA 會(huì)根據(jù)nvshmem_double_p操作向 NIC 發(fā)出一個(gè)工作請(qǐng)求。這突出了 IBGDA 在涉及大量小消息的細(xì)粒度通信中的優(yōu)勢(shì)。

IBGDA 還提供了當(dāng)目標(biāo)地址在同一扭曲內(nèi)連續(xù)時(shí)的自動(dòng)數(shù)據(jù)合并。此功能允許發(fā)送一條大消息，而不是 32 條小消息。對(duì)于希望將分散的數(shù)據(jù)直接從 GPU 寄存器傳輸?shù)侥康牡氐倪B續(xù)緩沖區(qū)的應(yīng)用程序來(lái)說(shuō)，它非常有用。

圖 5 顯示了當(dāng)滿足數(shù)據(jù)合并條件時(shí)， put 速率可以達(dá)到超過 NIC 峰值消息速率。

Jacobi 方法案例研究

分析了 NVSHMEM Jacobi 基準(zhǔn) 的性能，以證明 IBGDA 在實(shí)際應(yīng)用中的性能與 IBRC 相比。該存儲(chǔ)庫(kù)包括 Jacobi 解算器的兩個(gè) NVSHMEM 實(shí)現(xiàn)。

在第一個(gè)實(shí)現(xiàn)中，每個(gè)線程使用標(biāo)量nvshmem_p操作在數(shù)據(jù)可用時(shí)立即發(fā)送數(shù)據(jù)。眾所周知，該實(shí)現(xiàn)與 NVLink 配合使用效果良好，但與 IBRC 配合使用效果不佳。

第二種實(shí)現(xiàn)在每個(gè) CTA 調(diào)用nvshmem_put_nbi_block以發(fā)起通信之前將數(shù)據(jù)聚合到連續(xù)的 GPU 緩沖器中。這種數(shù)據(jù)聚合技術(shù)與 IBRC 配合使用很好，但增加了 NVLink 上的開銷，其中nvshmem_p操作可以將數(shù)據(jù)從寄存器直接存儲(chǔ)到遠(yuǎn)程 PE 的緩沖區(qū)。這種不匹配突出了優(yōu)化給定代碼以實(shí)現(xiàn)放大和縮小時(shí)的一個(gè)挑戰(zhàn)。

圖 6 .使用 P 和 PUT 以及 IBRC 和 IBGDA 的 Jacobi 實(shí)現(xiàn)的延遲比較

圖 6 顯示， IBGDA 對(duì)小消息通信效率的改進(jìn)有助于解決這些挑戰(zhàn)。該圖表顯示了強(qiáng)縮放實(shí)驗(yàn)中 Jacobi 內(nèi)核 1000 次迭代的延遲，其中 PE 的數(shù)量增加，同時(shí)保持固定的矩陣大小。使用 IBRC ，nvshmem_p版本的 Jacobi 的延遲是 nvshmem _ put 版本的 8 倍多。

另一方面，nvshmem_p和nvshmem_put版本均與 IBGDA 兼容，并與 NVLink 上nvshmem_p的效率相匹配。 IBGDA nvshmem_p版本與nvshmem_put與 IBRC 的延遲相匹配。

結(jié)果表明，與nvshmem_put相比，具有 IBGDA 的nvshmem_p具有略高的延遲。這是因?yàn)榕c發(fā)送許多小消息相比，發(fā)送一條大消息會(huì)導(dǎo)致較低的網(wǎng)絡(luò)開銷。

雖然這些開銷是網(wǎng)絡(luò)的基礎(chǔ)，但 IBGDA 可以通過并行向 NIC 提交許多小消息傳輸請(qǐng)求來(lái)使應(yīng)用程序隱藏這些開銷。

全對(duì)全延遲案例研究

圖 7.IBRC 和 IBGDA 之間 32 PE All to All 傳輸?shù)难舆t比較

圖 7 顯示了 IBRC 和 IBGDA 的 NVSHMEM 所有對(duì)所有集合操作的延遲，突出了 IBGDA 在小消息性能方面的優(yōu)勢(shì)。

對(duì)于 IBRC ，代理線程是來(lái)自設(shè)備的所有操作的序列化點(diǎn)。代理線程成批處理請(qǐng)求以減少開銷。然而，根據(jù)何時(shí)向設(shè)備提交操作，在設(shè)備上幾乎同時(shí)提交的操作可能會(huì)由代理線程的單獨(dú)循環(huán)處理。

代理的操作串行化會(huì)產(chǎn)生額外的延遲，并掩蓋 NIC 和 GPU 的內(nèi)部并行性。 IBGDA 結(jié)果顯示總體延遲更為一致，尤其是對(duì)于小于 16KiB 的消息。

Magnum IO NVSHMEM 提高了網(wǎng)絡(luò)性能

在本博客中，我們展示了 Magnum IO 如何提高小消息網(wǎng)絡(luò)性能，尤其是對(duì)于部署在 HPC 數(shù)據(jù)中心數(shù)百或數(shù)千個(gè)節(jié)點(diǎn)上的大型應(yīng)用程序。 NVSHMEM 2.6.0 引入了 InfiniBand GPUDirect Async ，它使 GPU 的 SM 能夠直接向 NIC 提交通信請(qǐng)求，繞過 CPU 在 NVIDIA InfiniBand 網(wǎng)絡(luò)上進(jìn)行網(wǎng)絡(luò)通信。

與管理通信的代理方法相比， IBGDA 可以在更小的消息大小下保持顯著更高的吞吐量。這些性能改進(jìn)對(duì)于需要強(qiáng)大擴(kuò)展性的應(yīng)用程序尤其重要，并且隨著工作負(fù)載擴(kuò)展到更大數(shù)量的 GPU ，消息大小往往會(huì)縮小。

IBGDA 還縮小了 NVLink 和網(wǎng)絡(luò)通信之間的小消息吞吐量差距，使您更容易優(yōu)化代碼，以在當(dāng)今 GPU 加速的 HPC 系統(tǒng)上進(jìn)行擴(kuò)展和擴(kuò)展。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5315

瀏覽量
106546
AI

AI

+關(guān)注

關(guān)注
88

文章
35318

瀏覽量
280710

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

在NVSHMEM中新的通信方法介紹

評(píng)論

電子發(fā)燒友