本文作者:
Ashraf EassaNVIDIA 加速計算部門高級產品營銷經理
Chris PorterNVIDIA HPC & AI 高級技術營銷經理
高性能計算(HPC)已經成為必不可少的科學研究工具。
無論是研發出拯救生命的新藥,還是抵御氣候變化,或是精確模擬我們的世界,這些解決方案都需要強大的處理能力,而且這一需求正在快速增長,日益超出傳統計算方法能夠應對的范疇。
因此,業界紛紛采用 NVIDIA 的 GPU 進行加速計算。結合 AI,它能帶來數百萬倍的性能加速,推動科學的進步。如今,已有 2700 個應用受益于 NVIDIA GPU 加速,而在日益增長的 300 萬開發者共同組成的社區支持下,這一數字仍在不斷攀升。
HPC 應用性能提升
為將所有 HPC 應用的速度提升數倍,我們需要在堆棧的每個層面進行不斷的創新,包括芯片、系統以及應用框架本身。
隨著架構和 NVIDIA 軟件棧整體上的不斷進步, NVIDIA 平臺的性能每年都會顯著提高。與六年前發布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩爾定律快 3 倍以上。
NVIDIA 平臺的核心是一個功能豐富的高性能軟件堆棧。為了方便各種 HPC 應用實現 GPU 加速,該平臺加入了 NVIDIA HPC SDK。SDK 使開發者能夠使用標準語言、導語指令以及 CUDA 來編寫和移植 GPU 加速應用,為開發者帶來了無與倫比的靈活性。
NVIDIA HPC SDK 的強大之處在于其龐大且高度優化的 GPU 加速數學庫,使用戶能夠充分發揮 NVIDIA GPU 的性能潛力。為了實現最佳的多 GPU 和多節點擴展性能, NVIDIA HPC SDK 還提供強大的通信庫:
NVSHMEM 為跨多個 GPU 內存的數據創建了一個全局地址空間。
NVIDIA 集合通信庫(NCCL)優化了 GPU 之間的通信。
總之,該平臺提供最高的性能和靈活性,為龐大的、不斷增長的 GPU 加速 HPC 應用提供支持。
HPC 的性能和能效
為了展示 NVIDIA 全棧創新如何助力加速 HPC 實現最高性能, 我們將一臺配備 4 顆 NVIDIA GPU 的慧與(HPE)服務器與一臺配備另一家廠商同等數量加速器模塊且配置相似的服務器進行了性能比較。
我們使用多種算例測試了廣泛使用的五個 HPC 應用。盡管在各個行業中有約 2700 個應用基于 NVIDIA 平臺實現了加速,但由于另一家廠商的加速器只支持部分軟件和應用版本,我們在此次比較中所能使用的應用有限。
對于除 NAMD (用于分子動力學模擬的軟件)以外的所有應用,我們首先獲得多個算例的結果,然后使用它們的幾何平均值作為計算結果,這樣可以將異常值的影響最小化并反映客戶的體驗。
我們還在多 GPU 和單 GPU 場景下測試了這些應用。
在多 GPU 場景中,測試系統中的所有加速器都被用來運行一個模擬,基于 A100 Tensor Core GPU 的服務器所提供的性能比起另一臺服務器高出 2.1 倍。
得益于計算性能的持續進步,分子動力學領域正朝著模擬更大的原子體系和更長的時間的方向發展。這使研究者能夠模擬越來越多的生物化學機制,例如光合電子傳遞和視覺信號轉導。對于此類過程,由于模擬這一主要驗證方式耗時過長,之前無法通過模擬來對其進行驗證,導致這類過程也一直引發科學界的爭論。
但我們認識到,并非所有用戶都會在每次模擬時使用多個 GPU 運行。為了獲得最佳吞吐量,最好的方法往往是為每次模擬分配一個 GPU。
當在單一加速器模塊( NVIDIA A100 上一個的完整 GPU 和另一款產品上的兩個計算芯片)上運行這些應用時,基于 NVIDIA A100 的系統提供了高達 1.9 倍的性能。
電力成本占據了數據中心和超級計算中心總擁有成本(TCO)中的很大一部分,這突出了高能效計算平臺的重要性。根據我們的測試, NVIDIA 平臺的每瓦吞吐量比其他產品高 2.8 倍。
多年來, 我們為了最大限度地提高應用性能和效率而堅持不懈地進行軟硬件協同優化,最終打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲進一步了解 NVIDIA Ampere 架構,請參見 NVIDIA A100 Tensor Core GPU 白皮書。
A100 在操作系統中也表現為一個單一的處理器,只需要啟動一個 MPI 線程就可以充分發揮它的性能。而且由于一個節點中所有 GPU 之間都采用 600-GB/s NVLink 互聯,因此 A100 可以提供出色的擴展性能。
AI 與 HPC 的融合
正如加速計算將模擬和仿真應用的速度提高了數倍, AI 和 HPC 的結合也將進一步提升性能,推動下一波科學研究的發展。
從我們首次提交 MLPerf 訓練結果到最近一次提交,已有三年的時間。在這三年里, NVIDIA 平臺在這套由同行評審的行業標準基準測試中將深度學習性能提高了 20 倍。這些成果來自于芯片、軟件和規模上的全面提高。
科學家和研究者已在使用 AI 大幅提升性能,加快科學研究的速度。
使識別引力波所需的時間減少為原來 10 萬分之一。
對呼吸道飛沫中的 Delta SARS-CoV-2 病毒(原子數超過 10 億)進行模擬的速度提高 1000 倍。
加速清潔聚變能源的發展。
為余熱鍋爐(HRSG)工廠創建預測性數字孿生。
世界各地的超級計算中心都在持續使用加速 AI 超級計算機。
阿貢領導力計算設施(ALCF)的 Polaris 超級計算機、美國國家能源研究科學計算中心(NERSC)的 Perlmutter、意大利多所大學組建的 CINECA 聯盟建設的 Leonardo,均采用 A100 Tensor Core GPU 加速。
即將在 2023 年上線的 Alps 超級計算機基于 NVIDIA 的 Grace Hopper 超級芯片打造而成。
計劃于 2023 年交付的洛斯阿拉莫斯國家實驗室的 Venado 系統,將包含 Grace Hopper 超級芯片以及 Grace CPU 超級芯片節點。
原文標題:NVIDIA 通過全棧創新推動高性能計算的發展
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
NVIDIA
+關注
關注
14文章
5072瀏覽量
103517 -
HPC
+關注
關注
0文章
322瀏覽量
23824 -
高性能計算
+關注
關注
0文章
83瀏覽量
13418
原文標題:NVIDIA 通過全棧創新推動高性能計算的發展
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論