2020年7月30日,MLPerf組織發布第三個版本MLPerf Trainingv0.7基準測試(Benchmark)結果。結果顯示,英偉達基于今年5月最新發布的Ampere架構A100 TensorCore GPU,和HDR InfiniBand實現多個DGXA100系統互聯的龐大集群——DGX SuperPOD系統在性能上開創了八個全新里程碑,共打破16項紀錄。
MLPerf是成立于2018年5月的行業基準測試組織,致力于機器學習硬件、軟件和服務的訓練和推理性能測試,囊括行業中幾乎所有知名企業和機構,比如Intel、NVIDIA、Google、微軟、阿里巴巴等。
DGX SuperPOD系統公布于去年6月17號。最初由96臺NVIDIA DGX-2H超級計算機和Mellanox互連技術在短短三周內建成,提供9.4千兆次的處理能力,用于該公司在無人駕駛車輛部署計劃中的需求。
而此次創造紀錄的NVIDIA DGX SuperPOD系統主要基于Ampere架構以及Volta架構,并且搭載了今年5月份發布的Ampere架構GPU A100。
黃仁勛在GTC 2020大會上說道,A100是迄今為止人類制造出的最大7納米制程芯片。A100采用目前最先進的臺積電(TSMC)7納米工藝,擁有540億個晶體管,它是一塊3D堆疊芯片,面積高達826mm^2,GPU的最大功率達到了400W。
這塊GPU上搭載了容量40G的三星HBM2顯存(比DDR5速度還快得多,就是很貴),第三代TensorCore。同時它的并聯效率也有了巨大提升,其采用帶寬600GB/s的新版NVLink,幾乎達到了10倍PCIE互聯速度。
隨著安培架構出現的三代TensorCore對稀疏張量運算進行了特別加速:執行速度提高了一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系統會自動將數據轉為TF32格式加速運算,現在你無需修改任何代碼量化了,直接自動訓練即可。
A100也針對云服務的虛擬化進行了升級,因為全新的multi-instanceGPU機制,在模擬實例時,每塊GPU的吞吐量增加了7倍。
最終在跑AI模型時,如果用PyTorch框架,相比上一代V100芯片,A100在BERT模型的訓練上性能提升6倍,BERT推斷時性能提升7倍。
電子發燒友綜合報道,參考自鎂客網、機器之心,轉載請注明來源和出處。
-
NVIDIA
+關注
關注
14文章
4994瀏覽量
103159 -
gpu
+關注
關注
28文章
4743瀏覽量
128992
發布評論請先 登錄
相關推薦
評論