電子發(fā)燒友網報導(文/程文智)GTC大會自2020年開始舉辦后,成為了AI開發(fā)者非常關注的一個會議,每次會議,NVIDIA的CEO黃仁勛都會發(fā)布一個主題演講,會介紹NVIDIA最新的進展,以及重磅新品。本次GTC 2022春季大會也不例外。
GTC2022依然是在線上舉辦,NVIDIA首席執(zhí)行官黃仁勛在數字孿生技術支持下的虛擬NVIDIA總部大樓里發(fā)表了主題演講。在他看來,隨著AI技術的發(fā)展,AI的發(fā)展方向也在發(fā)生著改變,“第一波AI學習是感知和推理,比如圖像識別、語音理解、推薦視頻或商品;下一波AI的發(fā)展方向將是機器人,也就是使用AI來規(guī)劃行動,數字機器人、虛擬形象和實體機器人將完成感知、規(guī)劃,并采取行動。”
AI正在各個方向加速發(fā)展,包括新的架構、新的學習策略、更大和更可靠的模型,同時,AI也在很多新的科學、新的應用、新的行業(yè)等方面加速發(fā)展。比如說,如今的AI不僅學習理解圖像、聲音和語言,還正在學習生物學、化學,甚至是量子物理學等等。
“數據中心規(guī)模的加速計算于機器學習相結合,可以將計算速度提高百萬倍。正式由于加速計算的推動,像Transfermer這樣的革命性AI模型和自監(jiān)督學習成為了可能?!秉S仁勛特別指出,“各公司都在處理和完善自己的數據、開發(fā)AI軟件,并使自己成為智能的生產商。他們 數據中心正在逐步演變?yōu)锳I工廠?!边@也意味著AI工廠時代的來臨。
為了應對AI工廠時代對AI的需求,NVIDIA帶來了全新的Hopper架構H100 GPU芯片、Grace CPU超級芯片、DGX H100系統(tǒng)、DGX SuperPOD、融合加速器H100 CNX、AI 超級計算機NVIDIA Eos、Spectrum-4、Jetson AGX Orin開發(fā)者套件等一系列新品。下面就讓我們來看一看這些新品都有什么特別之處。
H100 GPU:全新Hopper架構,800億個晶體管
NVIDIA H100 GPU集成了800億個晶體管,它也是NVIDIA發(fā)布的首款采用Hopper架構的GPU。Hopper架構是以美國計算機領域的先驅科學家Grace Hopper 的名字命名的,它將取代兩年前推出的 NVIDIA Ampere架構。
據黃仁勛介紹,H100 是全球范圍內最大的性能出眾的加速器,擁有革命性的 Transformer 引擎和高度可擴展的 NVIDIA NVLink互連技術等突破性功能,可推動龐大的 AI 語言模型、深度推薦系統(tǒng)、基因組學和復雜數字孿生的發(fā)展。
從技術角度來看,H100帶來了6項突破性創(chuàng)新:
● 強大的性能—— H100 由 800 億個晶體管構建而成,這些晶體管采用了專為 NVIDIA 加速計算需求設計的TSMC 4N工藝,因而能夠顯著提升AI、HPC、顯存帶寬、互連和通信的速度,并能夠實現近 5TB/s 的外部互聯帶寬。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可實現 3TB/s 的顯存帶寬。20個 H100 GPU 便可承托相當于全球互聯網的流量,使其能夠幫助客戶推出先進的推薦系統(tǒng)以及實時運行數據推理的大型語言模型。
● 新的 Transformer 引擎—— Transformer 現在已成為自然語言處理的標準模型方案,也是深度學習模型領域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影響精度的情況下,將這些網絡的速度提升至上一代的六倍。
● 第二代安全多實例 GPU —— MIG 技術支持將單個 GPU 分為七個更小且完全獨立的實例,以處理不同類型的作業(yè)。與上一代產品相比,在云環(huán)境中 Hopper 架構通過為每個 GPU 實例提供安全的多租戶配置,將 MIG 的部分能力擴展了 7 倍。
● 機密計算—— H100 是全球首款具有機密計算功能的加速器,可保護 AI 模型和正在處理的客戶數據。客戶還可以將機密計算應用于醫(yī)療健康和金融服務等隱私敏感型行業(yè)的聯邦學習,也可以應用于共享云基礎設施。
● 第 4 代 NVIDIA NVLink —— 為加速大型 AI 模型,NVLink 結合全新的外接 NVLink Switch,可將 NVLink 擴展為服務器間的互聯網絡,最多可以連接多達 256 個 H100 GPU,相較于上一代采用 NVIDIA HDR Quantum InfiniBand網絡,帶寬高出9倍。
● DPX 指令—— 新的 DPX 指令可加速動態(tài)規(guī)劃,適用于包括路徑優(yōu)化和基因組學在內的一系列算法,與 CPU 和上一代 GPU 相比,其速度提升分別可達 40 倍和 7 倍。Floyd-Warshall 算法與 Smith-Waterman 算法也在其加速之列,前者可以在動態(tài)倉庫環(huán)境中為自主機器人車隊尋找最優(yōu)線路,而后者可用于 DNA 和蛋白質分類與折疊的序列比對。
具體來說,H100 將支持聊天機器人使用功能超強大的monolithic Transformer 語言模型 Megatron 530B,吞吐量比上一代產品高出 30 倍,同時滿足實時對話式 AI 所需的次秒級延遲。利用 H100,研究人員和開發(fā)者能夠訓練龐大的模型,如包含 3950 億個參數的混合專家模型,訓練速度加速高達9倍,將訓練時間從幾周縮短到幾天。
H100將提供SXM和PCIe兩種規(guī)格,可滿足各種服務器設計需求。NVIDIA H100 SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服務器主板,主要用于高性能服務器,可助力企業(yè)將應用擴展至一臺服務器和多臺服務器中的多個 GPU。H100 PCIe相對來說更加實惠,用于主流服務器。與上一代相比,這兩種外形尺寸的功率要求都顯著提高。
NVIDIA為SXM版本的顯卡提供了700W TDP,比A100官方的400W TDP高出了75%。官方推薦的冷卻方式是風冷和液冷兩種。但在如此功率下,估計液冷會更受用戶青睞,畢竟這個價格不菲,要是由于散熱問題而導致出問題就不劃算了。
同時,H100 PCIe卡的TDP提高到了350W,冷卻方式也是風冷和液冷兩種。當然,如果像降低散熱壓力,也可以通過配置方式來降低顯卡的功耗,只是這么做就要犧牲一些性能了。
為了將Hopper的強大算力引入主流服務器,英偉達推出了全新的融合加速器H100 CNX。它將網絡與GPU直接相連,耦合H100 GPU與英偉達ConnectX-7 400Gb/s InfiniBand和以太網智能網卡,使網絡數據通過DMA以50GB/s的速度直接傳輸到H100,能夠避免帶寬瓶頸,為I/O密集型應用提供更強勁的性能。
Grace CPU超級芯片:144個CPU核心
除了GPU產品,NVIDIA還發(fā)布了其第一款轉為數據中心設計的,基于Arm Neoverse的數據中心專屬CPU------GraceCPU超級芯片,其可提供最高的性能,是當今領先服務器芯片內存帶寬和能效的兩倍。
NVIDIA Grace CPU超級芯片由兩個CPU芯片組成,它們之間通過NVLink-C2C互連在一起。NVLink-C2C 是一種新型的高速、低延遲、芯片到芯片的互連技術。
Grace CPU超級芯片是去年NVIDIA發(fā)布的首款由 CPU-GPU 集成的“Grace Hopper 超級芯片”的模塊,它將與基于 NVIDIA Hopper架構的 GPU一同應用于大型 HPC 和AI 應用。這兩款超級芯片采用相同的底層 CPU 架構及 NVLink-C2C 互連。
Grace CPU 超級芯片專為提供最高的性能而打造,能夠在單個插座(socket)中容納 144 個 Arm 核心。NVIDIA宣稱,在SPECrate 2017_int_base基準測試中,Grace CPU超級芯片的模擬性能得分為740,據NVIDIA實驗室使用同類編譯器估算,這一結果相比當前DGX A100搭載的雙CPU高1.5倍以上。
Grace CPU 超級芯片依托帶有糾錯碼的LPDDR5x 內存組成的創(chuàng)新的內存子系統(tǒng),可實現速度和功耗的最佳平衡。LPDDR5x 內存子系統(tǒng)提供兩倍于傳統(tǒng)DDR5設計的帶寬,可達到每秒1 TB ,同時功耗也大幅降低 ,CPU加內存整體功耗僅500瓦。
此外,Grace CPU 超級芯片基于最新的數據中心架構 Arm v9,具備最高的單線程核心性能,并支持 Arm 新一代矢量擴展。
Grace CPU超級芯片可運行所有的英偉達計算軟件棧,結合NVIDIA ConnectX-7網卡,能夠靈活地配置到服務器中,或作為獨立的純CPU系統(tǒng),或作為GPU加速服務器,可以搭配1塊、2塊、4塊或8塊基于Hopper的GPU。
也就是說,用戶只維護一套軟件棧,就能針對自身特定的工作負載做好性能優(yōu)化。
NVIDIA正在通過 Grace CPU超級芯片擴展其目標市場,現在涵蓋超大規(guī)模計算、云、數據分析、HPC 和 AI 工作負載,有效地瞄準了通用服務器市場。Grace CPU超級芯片支持NVIDIA的整個CUDA 堆棧,并將運行NVIDIA的所有應用程序,包括NVIDIA RTX、NVIDIA AI、HPC 和 Omniverse。
關于出貨方面,GraceCPU超級芯片將于 2023 年上半年開始出貨。
DGX H100系統(tǒng):企業(yè)級AI基礎設施
第四代NVIDIA DGX系統(tǒng),是全球首個基于全新 NVIDIA H100 Tensor Core GPU的AI平臺。該系統(tǒng)能夠滿足大型語言模型、推薦系統(tǒng)、醫(yī)療健康研究和氣候科學的大規(guī)模計算需求。每個DGX H100 系統(tǒng)配備8塊 NVIDIA H100 GPU,并由 NVIDIA NVLink 連接,能夠在新的 FP8 精度下達到 32 Petaflop 的 AI 性能,比上一代系統(tǒng)性能高 6 倍。
DGX H100 系統(tǒng)是新一代 NVIDIA DGX POD 和 NVIDIA DGX SuperPOD AI 基礎設施平臺的構建模塊。新的 DGX SuperPOD 架構采用了一個全新的 NVIDIA NVLink Switch 系統(tǒng),通過這一系統(tǒng)最多可連接 32 個節(jié)點,總計 256 塊 H100 GPU。
新一代DGX SuperPOD 提供 1 Exaflops 的 FP8 AI 性能,比上一代產品性能高 6 倍,能夠運行具有數萬億參數的龐大 LLM 工作負載,從而推動 AI 的前沿發(fā)展。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“AI 已經從根本上改變了軟件的功能和產出方式。利用 AI 來革新自身所處行業(yè)的公司也意識到了自身 AI 基礎設施的重要性。NVIDIA 全新 DGX H100 系統(tǒng)將賦能企業(yè) AI 工廠,助力其從數據中提煉出我們最具價值的資源,即‘智能’。"
除了8塊H100 GPU 以及總計 6400 億個晶體管之外,每個 DGX H100 系統(tǒng)還包含兩個 NVIDIA BlueField-3 DPU,以用于卸載、加速和隔離高級網絡、存儲及安全服務。
8個NVIDIA ConnectX-7 Quantum-2 InfiniBand 網卡能夠提供 400 GB/s 的吞吐量,可用于連接計算和存儲,這一速度比上一代系統(tǒng)提升了一倍。第四代 NVLink 與 NVSwitch相結合,能夠在每個 DGX H100 系統(tǒng)中的各個 GPU 之間實現 900 GB/s 的連接速度,是上一代系統(tǒng)的 1.5 倍。
DGX H100 系統(tǒng)使用雙 x86 CPU,能夠與 NVIDIA 網絡和 NVIDIA 合作伙伴提供的存儲設備相結合,使 DGX POD 能夠靈活用于各種規(guī)模的 AI 計算。
借助DGX H100 系統(tǒng),DGX SuperPOD 可成為具有可擴展性的卓越的企業(yè)級 AI 中心。DGX SuperPOD 中的 DGX H100 節(jié)點和 H100 GPU 由 NVLink Switch 系統(tǒng)和 NVIDIA Quantum-2 InfiniBand 連接,帶寬速度可達 70 TB/s,比上一代產品高 11 倍。NVIDIA 合作伙伴提供的存儲設備將經過測試和認證,以滿足 DGX SuperPOD AI 計算的需求。
多個DGX SuperPOD 單元可組合使用,為汽車、醫(yī)療健康、制造、通信、零售等行業(yè)提供開發(fā)大型模型所需的 AI 性能。
NVIDIA Eos:運行速度最快的超計算機
NVIDIA 將使用突破性的新型 AI 架構來構建 DGX SuperPOD,賦能 NVIDIA 研究人員的研究工作,推動氣候科學、數字生物學和 AI 未來的發(fā)展。
“Eos”超級計算機將于今年晚些時候開始運行,共配備 576 臺 DGX H100 系統(tǒng),共計 4608 塊 DGX H100 GPU,有望成為全球運行速度最快的 AI 系統(tǒng)。
NVIDIA Eos 預計將提供 18.4 Exaflops 的 AI 計算性能,比日本的 Fugaku 超級計算機快 4 倍,后者是目前運行速度最快的系統(tǒng)。在傳統(tǒng)的科學計算方面,Eos 預計將提供 275 Petaflop 的性能。
對于NVIDIA 及其 OEM 和云計算合作伙伴,Eos 將成為其先進 AI 基礎設施的藍圖。
其他新品
NVIDIA早已經不是一個單純的芯片供應商了,它們已經轉型成了一個全棧公司,除了GPU之外,還提供CPU、DPU產品,甚至還會跟很多OEM等合作伙伴,把整個系統(tǒng)都做出來,而且提供各種加速引擎,或者SDK,針對不同的領域提供不同的解決方案。比如醫(yī)療領域的Clara、智慧城市的Metropolis,自動駕駛領域的Drive等等。
在本次GTC大會上,NVIDIA也介紹了相關行業(yè)的一些解決方案,比如Clara Holoscan MGX,這是一個可供醫(yī)療設備行業(yè)在邊緣開發(fā)和部署實時AI 應用的平臺,專為滿足必要的監(jiān)管標準而設計。
Clara Holoscan MGX 能夠擴展 Clara Holoscan 平臺,提供一體化的醫(yī)療級參考架構以及長期軟件支持,以加速醫(yī)療設備行業(yè)的創(chuàng)新。它通過處理高吞吐量數據流來提供實時洞見,將最新的傳感器創(chuàng)新帶到了邊緣計算。從機器人手術到研究生物學的新方法,外科醫(yī)生和科學家需要醫(yī)療設備逐步發(fā)展成為持續(xù)傳感系統(tǒng),進而更好地推動疾病的研究和治療。
Clara Holoscan MGX 將高性能 NVIDIA Jetson AGX Orin 工業(yè)級模塊、NVIDIA RTX A6000 GPU 和 NVIDIA ConnectX-7 智能網卡整合到一個可擴展的 AI 平臺中,提供高達每秒 254-619 萬億次運算的 AI 性能。
對于高吞吐量設備,ConnectX-7 能夠提供高達 200 GbE 的帶寬以及用于 GPU 處理的 GPUDirect RDMA 路徑,有助于加快處理速度。它還集成了最新嵌入式安全模塊,該模塊包含負責監(jiān)控關鍵操作、提供遠程軟件更新和系統(tǒng)恢復的控制器,以及可實現最先進嵌入式安全的硬件信任根。
醫(yī)療設備制造商可以直接嵌入Clara Holoscan MGX,或將其連接到現有的醫(yī)療設備安裝平臺,從而使開發(fā)者能夠加速 AI 部署和監(jiān)管審批。
Clara Holoscan SDK 專為高性能流式數據應用程序而設計,用于構建新一代軟件定義設備。它匯集了預訓練模型和可擴展微服務框架,允許在設備和邊緣數據中心管理和部署應用程序,開創(chuàng)了行業(yè)的軟件即服務業(yè)務模式。Clara Holoscan 開發(fā)者套件現已開始供貨。
此外,NVIDIA還發(fā)布了60多個針對CUDA-X的一系列庫、工具和技術的更新,以加速量子計算和6G研究、網絡安全、基因組學、藥物研發(fā)等領域的研究進展。
來自NVIDIA、加州理工學院、伯克利實驗室、普渡大學、密歇根大學和萊斯大學的研究人員,開發(fā)了一個名為FourCastNet的天氣預報AI模型。FourCastNet是一種基于物理信息的深度學習模型,可以預測颶風,大氣河、以及極端降水等天氣事件。
FourCastNet以歐洲中期天氣預報中心長達40年的模擬增強型真值數據為基礎,學會了如何預測天氣。深度學習模型首次在降水預測方面達到了比先進的數值模型更高的準確率和技能,并使預測速度提高了4到5個數量級。也就是說傳統(tǒng)的數值模擬需要一年的時間,而現在只需要幾分鐘。
大氣河是天空中巨大的水汽河流,每條河流的水量都比亞馬遜河的還要多。他們一方面為美國西部提供了關鍵的降水來源,但另一方面,這些巨大的強風暴也會導致災難性的洪災和暴雪。
NVIDIA創(chuàng)建了Physics-ML模型,該模型可以模擬全球天氣模式的動態(tài)變化。以超乎想象的速度和準確性預測大氣河等極端天氣事件。此GPU加速的AI數字孿生模型名為FourCastNet,由傅里葉神經算子提供動力支持,基于10TB的氣球系統(tǒng)數據進行訓練,依托這些數據,以及NVIDIA Modulus和Omniverse,我們能夠提前一周預測災難性大氣河的精確路線,在一個NVIDIA GPU的助力下,FourCastNet只需要幾分之一秒即可完成預測。
在黃仁勛看來,Transformer模型開啟了自監(jiān)督學習,并解除了人工標記數據的需求。因此,我們可以使用龐大的訓練集來訓練Transformer模型,學習更充分且可靠的特征。
得益于Transformer,模型和數據的規(guī)模皆已擴大增長,而模型技能和準確性也因此快速提升。用于語言理解的Google BERT,用于藥物研發(fā)的NVIDIA MegaMolBart,以及DeepMind的AlphaFold,都是基于Transformer模型的突破性成果。
NVIDIA Triton是一款開源的、超大規(guī)模的模型推理服務器,是AI部署的“中央車站”,Triton支持在每一代NVIDIA GPU、X86和Arm CPU上部署模型,并具備支持AWS Inferentia等加速器的接口。Triton支持各類模型:CNN、RNN、Transformer、GNN、決策樹,還支持各類框架:TensorFlow、PyTorch、Python、ONNX、XGBoost;Triton支持各類查詢類型:實時、離線、批處理,或串流視頻和音頻。
Triton支持各類機器學習平臺:AWS、Azure、Google、阿里巴巴、VMWare、Domino Data Lab、OctoML等。
Triton可以在各個地方運行,云、本地、邊緣或嵌入式設備。
Amazon Shopping正在使用Triton進行實時拼寫檢查,而微軟正藉由Triton為翻譯服務提供支持,Triton已經被25000位客戶下載超過100萬次。
NVIDIA Riva是一種先進且基于深度學習的端到端語音AI,它可以自定義調整優(yōu)化。Riva已經過預訓練,具有世界一流的識別率,客戶可以使用定制數據調優(yōu)。使其學習行業(yè)、國家和地區(qū),或公司的特定話術。黃仁勛認為,Riva是對話式AI服務的理想選擇。
Maxine是一個AI模型工具包,現已擁有30個先進模型,可優(yōu)化實時視頻通信的視聽效果。比如開遠程視頻會議時,Maxine可實現說話者與所有參會者保持眼神交流,并能將說的語言實時切換成另一種語言,而且音色聽起來不變。
還有面向推薦系統(tǒng)的AI框架Merlin的1.0版本,Merlin可幫助企業(yè)快速構建、部署和擴展先進的AI推薦系統(tǒng)。比如,微信用Merlin將短視頻推薦延遲縮短為原來的1/4,并將吞吐量提升了10倍。從CPU遷移至GPU,騰訊在該業(yè)務上的成本減少了1/2。
以及Omniverse,在黃仁勛看來,作為虛擬世界的仿真引擎,Omniverse平臺能遵循物理學定律,構建一個趨真的數字世界,可以應用于使用不同工具的設計師之間的遠程協作,以及工業(yè)數字孿生。
用于構建數字攣生的NVIDIA Omniverse 軟件,以及全新數據中心NVIDIA OVX系統(tǒng),將成為“以行動為導向的AI"的組成部分。
"Omniverse是我們機器人平臺的核心。像 NASA和亞馬遜一樣,我們和機器人以及工業(yè)自動化領域的客戶都意識到了數字攣生和Omniverse 的重要性。"
黃仁勛解釋說,OVX將使用Omniverse數字攣生進行大規(guī)模模擬,使多個自主系統(tǒng)在同一時空運行。
OVX 的骨干是其網絡編織架構,為此他發(fā)布了NVIDIA Spectrum-4高性能數據基礎架構平臺。
全球首400Gbps端到端網絡平臺NVIDIA Spectrum -4由Spectrum-4 交換機系列、NVIDIA ConnectX-7 SmartNIC、NVIDIA BlueField-3 DPU 和 NVIDIA DOCA 數據中心基礎設施軟件組成。
為了讓更多的用戶能夠使用Omniverse, 黃仁勛發(fā)布了Omniverse Cloud。 現在只需簡單的點擊操作,協作者就可以通過云端Omniverse 進行連接。
另外,黃仁勛認為下一波AI浪潮是機器人,NVIDIA正在構建多個機器人平臺,包括用于自動駕駛汽車的DRIVE、用于操縱和控制系統(tǒng)的Isaac、用于自主式基礎架構的Metropolis、用于醫(yī)療設備的Holoscan等。
-
超級計算機
+關注
關注
2文章
462瀏覽量
41953 -
AI
+關注
關注
87文章
30996瀏覽量
269295 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5826
發(fā)布評論請先 登錄
相關推薦
評論