云提供商正在組建 GPU 大軍,以儲備更多的 AI 火力。在與微軟爭奪 AI 霸權的斗爭中,谷歌開始投入更多資源以進行反攻。在微軟將 OpenAI 的技術應用于 Bing 搜索和辦公應用程序之后,谷歌加速了其 AI 開發。
在前段時間舉辦的谷歌年度I/O 開發者大會上,谷歌宣布了一款 AI 超級計算機“A3 ”,這臺超級計算機擁有大約 26000 個英偉達 H100 Hopper GPU。
*世界上最快的超級計算機Frontier擁有 37000 個 AMD Instinct 250X GPU。
谷歌表示A3是專為訓練和運行現時的生成式AI和大語言模型而打造的,可提供26 exaFlops的AI性能。
A3 是第一個使用谷歌與英特爾聯合定制設計的 200 Gbps IPU的 GPU 實例,它可以讓GPU和GPU之間的數據繞過CPU,并可在其他虛擬機網絡和數據流的接口上傳輸。與A2 VM 相比,這可實現高達 10 倍的網絡帶寬,同時具有低尾延遲和高帶寬穩定性。
谷歌的Jupiter數據中心網絡結構能讓數以萬計的GPU高度互連,而且能夠按需調整網絡拓撲,這有利于成本的降低。
A3 超級計算機的規模提供高達 26 exaFlops 的 AI 性能,這大大減少了訓練大型 ML 模型的時間和成本。
A3 GPU VM 專門為當今的 ML 工作負載提供最高性能的訓練,配備現代 CPU、改進的主機內存、下一代英偉達 GPU 和主要網絡升級。以下是 A3 的主要特點:
8 個 H100 GPU,利用英偉達的 Hopper 架構,提供 3 倍的計算吞吐量
通過英偉達 NVSwitch 和 NVLink 4.0,A3 的 8 個 GPU 之間的對分帶寬為 3.6 TB/s
第 4 代英特爾至強可擴展處理器
2TB 主機內存,通過 4800 MHz DDR5 DIMM
由支持硬件的 IPU、專門的服務器間 GPU 通信堆棧和 NCCL 優化提供支持的網絡帶寬增加 10 倍
GPU 的數量已經成為云提供商推廣其 AI 計算服務的重要名片。
微軟與OpenAI合作開發的Azure AI超級計算機擁有285000 個CPU內核和10000 個 GPU。Oracle 的云服務提供512 個 GPU 集群的訪問,并且正在開發新技術以提高 GPU 通信的速度。
此外,許多云提供商都在部署 H100 GPU。英偉達 H100 上的訓練模型比上一代 A100 GPU 更快、更便宜。AI服務公司 MosaicML 進行的一項研究發現,H100 在其 70 億參數的 MosaicGPT 大型語言模型上比 A100 的成本效益高 30%,速度快 3 倍。
英偉達在 3 月份推出了自己的 DGX 云服務,與租用上一代 A100 GPU 相比,該服務價格昂貴。
|搭載8顆H100 Hopper GPU的英偉達DGX H100系統底板
谷歌一直在大力宣傳其TPU v4 AI芯片,這些芯片被用于運行帶有 LLM 的內部AI應用程序,例如谷歌的 Bard 產品。(點擊閱讀:對打英偉達A100,谷歌公布TPU v4技術細節)
|谷歌TPU v4
谷歌表示,A3 超算是對現有配備英偉達A100 GPU的A2虛擬機提供的計算資源的重大升級。谷歌正在將所有分布在不同地理位置的 A3 計算實例匯集到一臺超級計算機中。
相比A2,谷歌的 A3 超級計算機用途廣泛,可以針對廣泛的 AI 應用程序和 LLM 進行調整?!拌b于這些工作負載的高要求,一刀切的方法是不夠的,需要專為 AI 構建的基礎設施?!笨蛻艨梢酝ㄟ^ A3 虛擬機運行 AI 應用程序,并通過 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務使用谷歌的 AI 開發和管理服務。
此外,I/O 開發者大會上,谷歌還發布了最新大語言模型PaLM 2。2022 年4月谷歌推出擁有5400 億參數的大型語言模型PaLM。最新PaLM 2 基于Pathways 架構,使用TPU v4 芯片和JAX 框架訓練,在代碼和數學,分類和問答,翻譯和多語言能力以及自然語言生成高級任務方面都比前一代PaLM 表現得更好,在推理和數學領域與GPT-4 相當。PaLM 2與A3 超級計算機的推出,使谷歌在AI 領域綜合實力大幅增強。
AI 市場競爭激烈,微軟近年來加大了對AI 的投資和研發力度,在深度學習、自然語言處理、計算機視覺等領域的技術已經達到了較高的水平。谷歌也推出了一系列AI 產品和服務,旨在通過提供全棧式的AI 解決方案來占據更加主導的地位。雙方都在不斷加強自己的技術研發和產品布局,以期在未來的市場競爭中獲得更多的話語權。
審核編輯 :李倩
-
gpu
+關注
關注
28文章
4743瀏覽量
128992 -
超級計算機
+關注
關注
2文章
462瀏覽量
41953 -
AI
+關注
關注
87文章
30996瀏覽量
269292 -
英偉達
+關注
關注
22文章
3780瀏覽量
91192
原文標題:擁有 26000 個 GPU的“A3”超級計算機,能為谷歌贏下AI反攻戰嗎?
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論