十年前,AWS(Amazon Web Services)發(fā)布了首個采用 NVIDIA M2050 GPU 的實(shí)例。當(dāng)時,基于 CUDA 的應(yīng)用主要專注于加速科學(xué)模擬,AI 和深度學(xué)習(xí)還遙遙無期。
自那時起,AW 就不斷擴(kuò)充云端 GPU 實(shí)例陣容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。
現(xiàn)在,已全面上市的全新 AWS P4d 實(shí)例采用最新 NVIDIA A100 Tensor Core GPU,開啟了加速計算的下一個十年。
全新的 P4d 實(shí)例,為機(jī)器學(xué)習(xí)訓(xùn)練和高性能計算應(yīng)用提供 AWS 上性能與成本效益最高的 GPU 平臺。與默認(rèn)的 FP32 精度相比,全新實(shí)例將 FP16 機(jī)器學(xué)習(xí)模型的訓(xùn)練時間減少多達(dá) 3 倍,將 TF32 機(jī)器學(xué)習(xí)模型的訓(xùn)練的時間減少多達(dá) 6 倍。
這些實(shí)例還提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基準(zhǔn)測試中一騎絕塵,實(shí)現(xiàn)了比 CPU 快 237 倍的性能。
每個 P4d 實(shí)例均內(nèi)置八個 NVIDIA A100 GPU,通過 AWS UltraClusters,客戶可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可擴(kuò)展高性能存儲,按需、可擴(kuò)展地同時訪問多達(dá) 4,000 多個 GPU。P4d 提供 400Gbps 網(wǎng)絡(luò),通過使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技術(shù),進(jìn)一步加速深度學(xué)習(xí)訓(xùn)練的工作負(fù)載。EFA 上的 NVIDIA GPUDirect RDMA 在服務(wù)器之間可通過 GPU 傳輸數(shù)據(jù),無需通過 CPU 和系統(tǒng)內(nèi)存,從而確保網(wǎng)絡(luò)的低延遲。
此外,許多 AWS 服務(wù)都支持 P4d 實(shí)例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 還可使用所有 NGC 提供的經(jīng)過優(yōu)化的容器化軟件,包括 HPC 應(yīng)用、AI 框架、預(yù)訓(xùn)練模型、Helm 圖表以及 TensorRT 和 Triton Inference Server 等推理軟件。
目前,P4d 實(shí)例已在美國東部和西部上市,并將很快擴(kuò)展到其他地區(qū)。用戶可以通過按需實(shí)例(On-Demand)、Savings Plans、預(yù)留實(shí)例(Reserved Instances)或競價型實(shí)例(Spot Instances)幾種不同的方式進(jìn)行購買。
GPU 云計算發(fā)展最初的十年,已為市場帶來超過 100 exaflops 的 AI 計算。隨著基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 實(shí)例的問世,GPU 云計算的下一個十年將迎來一個美好的開端。
NVIDIA 和 AWS 不斷幫助各種應(yīng)用突破 AI 的界限,以便了解客戶將如何運(yùn)用 AI 強(qiáng)大的性能。
編輯:hfy
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4981瀏覽量
102997 -
gpu
+關(guān)注
關(guān)注
28文章
4729瀏覽量
128900 -
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268906 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132573 -
AWS
+關(guān)注
關(guān)注
0文章
432瀏覽量
24355
發(fā)布評論請先 登錄
相關(guān)推薦
評論