基于云的 AI 超級計算機(包括 Microsoft Azure 和劍橋大學的新系統)正在世界上最強大的計算機的最新榜單上蓄勢待發
ISC 高性能計算大會 (ISC High Performance) 發布的 TOP500 榜單中,有 342 個系統采用了 NVIDIA 技術提供加速,其中包括70%的新系統,與排名前10的8個。
最新的全球最強系統榜單顯示出越來越多的高性能計算中心在使用 AI,也體現出用戶們在繼續擁抱NVIDIA AI與加速計算、網絡技術的組合來運行他們的科學和商業工作負載。
例如,榜單上使用 InfiniBand 的系統數量比去年增加了20%。隨著AI,HPC和模擬數據對于低延遲和加速的需求日益增加,InfiniBand已成為首選網絡。
此外,名單上的兩個新系統便是我們所稱的超級云 —— 一種新興的共享超級計算機,能夠同時滿足人工智能、高性能計算和云端的需求。
超級云的到來
Microsoft Azure 利用集群將公有云服務提升到一個新的水平,在 TOP500 榜單上連續占據第 26 位到第 29 位。它們是超級云的一部分,是一臺全球的人工智能超級計算機,如今地球上的任何用戶都可以按需使用。
在HPL基準測試(也成為了Linpack),四個 Azure 系統中的每一個都實現了 16.59 Petaflop 的計算性能。Linpack 是衡量 64 位浮點數學運算的高性能計算性能的傳統標準,也是 TOP500 榜單的參考依據。
邁入行業高性能計算時代
Azure 系統便是 NVIDIA 首席執行官黃仁勛所述“行業高性能計算革命”的一例,即 AI 與高性能計算和加速計算融合,正在推動科研和行業各個領域的發展。
在幕后,有 8 個 NVIDIA A100 Tensor Core GPU 為 Azure 系統的各個虛擬實例提供動力支持。每個芯片都有自己的 HDR 200G InfiniBand 通信接口,可以與 Azure 云中的數千個 GPU 建立快速連接。
英國研究人員采用云原生技術
劍橋大學首次成為英國最快的學術系統,其超級計算機在 Green500 世界上最節能的系統名單中排名第三,這是另一種超級云。它被稱為 Wilkes-3,是世界上第一臺云原生超級計算機,其使研究人員可以在不影響性能的情況下,共享具有隱私和安全性的虛擬資源。這要歸功于 經過優化的NVIDIA BlueField DPU可以執行安全、虛擬化和其他數據處理任務。
該系統使用 320 個連接在 HDR 200G Infiniband 網絡上的 A100 GPU,為學術研究以及探索科學和醫學前沿的商業合作伙伴加速模擬、人工智能和數據分析。
TOP500 榜單新秀采用 AI
榜單上許多由 NVIDIA 提供動力支持的新系統,凸顯了 AI 對于科研和商業用戶的高性能計算應用的重要性不斷提升。
國家能源研究科學計算中心 (NERSC) 的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5,部分歸功于其 6,144 個 A100 GPU。
該系統在最新版本的 HPL-AI 上提供了超過一半的 exaflops 性能。它是融合 HPC 和 AI 工作負載的新興基準,它使用混合精度數學——深度學習和許多科學和商業工作的基礎——同時仍然提供雙精度數學的完全準確性。
AI 性能變得越來越重要,因為 AI 是 “美國能源部的一個增長領域,其可行性已被驗證,正在計劃投入生產,” NERSC 數據和分析服務組代理負責人 Wahid Bhimji 表示。
HiPerGator AI 以 17.20 petaflops 排名第 22 位,在 Green500 榜單中排名第 2,使其成為世界上最節能的學術超級計算機。它與 Green500 的榜首位置相差甚遠——僅為 0.18 Gflops/Watt。
與最新名單上的其他 12 款系統一樣,該系統采用了 NVIDIA DGX SuperPOD 的模塊化架構,這一配置讓佛羅里達大學能夠快速部署世界上最強大的學術 AI 超級計算機之一。該系統還使其成為領先的AI大學,其既定目標是 在2030 年前有 30,000 名AI相關專業的畢業生。
盧森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。該系統是首批在歐洲國家超級計算機網絡中亮相的首個系統,,將用于在科研和商業應用中運用 AI 和數據分析。
Cambridge-1 在 500 強中排名第 42 位,達到 9.68 Linpack petaflops,成為英國最強大的系統,將為包括阿斯利康(AstraZeneca)、葛蘭素史克(GSK)和Oxford Nanopore在內的學術和商業組織的英國醫療保健研究人員提供服務。
BerzeLiUs 以 5.25 petaflops 排名第 83,成為瑞典最快的系統。BerzeLiUs在 200G 的 InfiniBand 網絡上連接了 60 個 NVIDIA DGX 系統,將HPC、AI 和數據分析用于學術和商業研究。是榜單上15個基于NVIDIA DGX的其中一個。
10 大系統助推 HPL-AI 采用
另一個跡象表明,AI 工作負載的重要性日益增加,榜單上有 10 個系統報告其 HPL-AI 得分是去年 6 月的 5 倍。大多數系統采用了 3 月發布的針對代碼的重大優化,這是自田納西大學的研究人員在 2018 年底發布該基準以來的首次升級。
新軟件簡化了通信,實現了 GPU 間鏈路,從而消除了等待主機 CPU 的時間。它還以 16 位代碼的形式實現通信,而不是在Linpack 上默認使用的較慢的 32 位代碼。
Azzam Haidar Ahmad 稱:“我們將芯片間通信的時間減少了一半,并使其他一些工作負載能夠并行運行,因此新代碼相較于原代碼平均改進了約 2.7 倍”。他幫助定義了該基準,現在是 NVIDIA 的高級工程師。
該基準測試雖然專注于混合精度數學計算,但仍然提供與 Linpack 相同的 64 位精度,這要歸功于 HPL-AI 的一種循環方法,它能迅速優化一些計算。
Summit 的 HPL-AI 得分超過 1 Exaflop
經過優化后,與去年使用早期版本的代碼所報告的得分相比,現在的得分大大高于基準線。
例如,橡樹嶺國家實驗室(Oak Ridge National Lab,ORNL)的 Summit 超級計算機是第一臺采用 HPL-AI 基準的超級計算機,其在 2019 年宣布使用第一版代碼的得分為 445 Petaflop。今年峰會上的測試使用最新版本的 HPL-AI 測試,得分達到 1.15 Exaflops。
采用該基準的其他超級計算機包括日本的 Fugaku(世界上最快的系統)、NVIDIA 的 Selene(世界上最快的商業系統)和德國的最強超級計算機 Juwels。
于利希超算中心 (Jülich Supercomputing Center) 主任 Thomas Lippert 稱:“我們使用 HPL-AI 基準,因為它能很好地衡量我們日益增多的 AI 和科研工作負載中的混合精度作業,而且能反映準確的 64 位浮點運算結果。”
編輯:jq
-
gpu
+關注
關注
28文章
4729瀏覽量
128890 -
超級計算機
+關注
關注
2文章
461瀏覽量
41942 -
AI
+關注
關注
87文章
30728瀏覽量
268886 -
HPC
+關注
關注
0文章
315瀏覽量
23754
原文標題:ISC2021 | 超級云:AI、云原生超級計算機躋身 TOP500 榜單
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論