隨著最新一代超級計算機日益與人工智能和云計算相結合,衡量這些機器的方式也在發生變化。
從科學模擬、可視化、數據分析再到機器學習,各種現代計算的工作負載正在推動超級計算中心、云服務提供商和企業重新思考他們的計算架構。 僅靠處理器、網絡或軟件優化已經無法滿足研究人員、工程師和數據科學家的最新需求。
數據中心取而代之,成為新的計算單元,因此企業必須關注整個技術堆棧。 全球最強系統的最新排名顯示,在新一代超級計算機中,這種使用全棧方法的趨勢還在持續。 在本周SC21高性能計算大會上最新發布的TOP500榜單上,NVIDIA技術為355套超級計算機系統提供加速,占榜單的70%以上,而新增系統中90% 以上都采用了NVIDIA 的技術。
對比6月份發布的TOP500榜單上342個系統(占榜單68%)使用NVIDIA技術,增長趨勢明顯。 NVIDIA在全球最節能系統Green500榜單上也繼續保持領先優勢,占據了榜單排名前25名系統中的23套,與6月份持平。平均來看,采用NVIDIA GPU的系統能耗效率比非GPU系統高3.5倍。
來自微軟的GPU加速Azure超級計算機在榜單上排名第十。這是基于云的系統首次躋身前10名,新一代云原生系統就此嶄露頭角。 人工智能正帶來一場科學計算的革命。近年來,研究高性能計算和機器學習的論文數量激增,從2018年的約600篇增長到2020年的近5000篇。
包括HPL-AI和MLPerf HPC在內的新基準也強調了高性能計算和AI工作負載的持續融合。 作為一個融合了高性能計算和人工智能工作負載的新基準,HPL-AI使用了深度學習和許多科學與商業工作的基礎——混合精度計算,同時還提供高性能計算基準傳統的標準標尺——雙精度計算的高度準確性。 MLPerf HPC基準適用于通過人工智能實現超級計算機模擬加速和增強的計算方式,主要被用來測試高性能計算中心天體物理學(Cosmoflow)、天氣(Deepcam)和分子動力學(Opencatalyst)三大關鍵工作負載的性能表現。 NVIDIA通過GPU加速處理、智能網絡、GPU優化應用程序和支持AI和高性能計算融合的庫來解決整個堆棧的問題。這一方法提升了工作負載的性能表現,并推動了科學突破。 讓我們來具體看一看NVIDIA是如何助力超級計算機實現性能提升的。
加速計算
GPU的并行處理能力再加上超過2500個GPU優化應用程序,在多數情況下可以讓用戶把高性能計算任務的時間從幾周減少到幾個小時。
NVIDIA一直在優化CUDA-X庫和GPU加速應用程序,所以用戶如果發現自己的GPU架構性能突然有了提升也很正常。 因此,應用范圍最廣的科學應用程序(我們稱之為“黃金套件”)的性能在過去6年里提高了16倍,而且還在不斷提升。
為幫助用戶快速提升性能,NVIDIA通過NGC目錄中的容器提供最新版本的人工智能和高性能計算軟件。用戶只需在數據中心或云端的超級計算機上拖拽并運行應用程序即可。
高性能計算與人工智能融合
人工智能在高性能計算中的應用能幫助研究人員加快模擬速度,同時保持傳統模擬方法的準確性。 為此,越來越多的研究人員開始利用人工智能來加快研究的速度,比如今年超算領域最有聲望的戈登·貝爾獎(GordonBell prize)決賽的四組晉級團隊。各大企業正在競相建造E級人工智能計算機,以支持這種融合高性能計算和人工智能的新模式。 一些相對較新的基準(如HPL-AI和MLPerf HPC)也印證了這一趨勢,強調了高性能計算和AI工作負載的持續融合。 為推動這一趨勢,上周NVIDIA推出了一系列用于高性能計算的先進的新的庫和軟件開發工具套件。 圖是現代數據科學中的一個關鍵數據結構。通過一個名為深度圖庫(DGL)的新型Python包,用戶現在可以把圖投影到深度神經網絡框架中。
NVIDIA Modulus構建并訓練了一個內嵌物理信息的機器學習模型,可以用來學習并遵循物理定律。 NVIDIA推出了三個新庫:
ReOpt – 可提高規模高達10萬億美元的物流行業的運營效率。
cuQuantum – 可加速量子計算研究。
cuNumeric – 為Python社區的科學家、數據科學家、機器學習和人工智能研究人員加速NumPy。
NVIDIA的虛擬世界模擬和3D工作流協作平臺NVIDIA Omniverse負責把一切整合到一起。
Omniverse可用來模擬倉庫、工廠、物理和生物系統、5G邊緣、機器人、自動駕駛汽車甚至是虛擬形象的數字孿生。
NVIDIA上周宣布,將利用Omniverse構建一臺名為Earth-2的超級計算機,通過創建一個數字孿生地球來預測氣候變化。
云原生超級計算
隨著超級計算機在數據分析、人工智能、模擬和可視化方面承擔越來越多的工作負載,CPU不得不在大型復雜的系統上支持更多的通信任務。 DPU(數據處理器)可以卸載多種操作,有效減輕這一壓力。 作為一個完全集成的片上數據中心平臺,NVIDIA BlueField DPU可以卸載和管理數據中心的基礎設施任務,釋放主機的處理器資源,從而實現更強的安全性和更高效的超級計算編排工作。 與NVIDIA Quantum InfiniBand平臺相結合,該架構可提供最佳裸機性能,同時原生支持多節點租戶隔離。
NVIDIA的Quantum InfiniBand平臺提供可預測的裸機性能隔離。并且采用零信任安全防護,因而這些新系統也更加安全。
BlueField DPU將用戶應用與基礎設施任務隔離開來。最新的BlueField軟件平臺NVIDIA DOCA 1.2支持下一代分布式防火墻和更廣泛的線速數據加密。而NVIDIA Morpheus則會假設入侵者已經進入數據中心,將利用基于深度學習的數據科學來實時檢測入侵者的活動。 新的網絡技術則會加速上述這些趨勢場景。 上周NVIDIA還發布了NVIDIA Quantum-2。這是一個400Gbps InfiniBand平臺,由Quantum-2交換機、ConnectX-7網卡、BlueField-3DPU以及用于新網絡架構的軟件組成。 NVIDIA Quantum-2提供了裸機高性能和安全多租戶優勢,可以讓下一代超級計算機實現安全性、云原生以及更高的效率。
編輯:jq
-
計算機
+關注
關注
19文章
7488瀏覽量
87852 -
網卡
+關注
關注
4文章
307瀏覽量
27374 -
交換機
+關注
關注
21文章
2637瀏覽量
99535 -
數據中心
+關注
關注
16文章
4761瀏覽量
72034
原文標題:SC21 | 全球最快超級計算機正飛速發生變化
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論