性能提升20倍！NVIDIA A100 GPU打破16項AI芯片性能記錄

2020年7月30日，MLPerf組織發布第三個版本MLPerf Trainingv0.7基準測試（Benchmark）結果。結果顯示，英偉達基于今年5月最新發布的Ampere架構A100 TensorCore GPU，和HDR InfiniBand實現多個DGXA100系統互聯的龐大集群——DGX SuperPOD系統在性能上開創了八個全新里程碑，共打破16項紀錄。

MLPerf是成立于2018年5月的行業基準測試組織，致力于機器學習硬件、軟件和服務的訓練和推理性能測試，囊括行業中幾乎所有知名企業和機構，比如Intel、NVIDIA、Google、微軟、阿里巴巴等。

DGX SuperPOD系統公布于去年6月17號。最初由96臺NVIDIA DGX-2H超級計算機和Mellanox互連技術在短短三周內建成，提供9.4千兆次的處理能力，用于該公司在無人駕駛車輛部署計劃中的需求。

而此次創造紀錄的NVIDIA DGX SuperPOD系統主要基于Ampere架構以及Volta架構，并且搭載了今年5月份發布的Ampere架構GPU A100。

黃仁勛在GTC 2020大會上說道，A100是迄今為止人類制造出的最大7納米制程芯片。A100采用目前最先進的臺積電（TSMC）7納米工藝，擁有540億個晶體管，它是一塊3D堆疊芯片，面積高達826mm^2，GPU的最大功率達到了400W。

這塊GPU上搭載了容量40G的三星HBM2顯存（比DDR5速度還快得多，就是很貴），第三代TensorCore。同時它的并聯效率也有了巨大提升，其采用帶寬600GB/s的新版NVLink，幾乎達到了10倍PCIE互聯速度。

隨著安培架構出現的三代TensorCore對稀疏張量運算進行了特別加速：執行速度提高了一倍，也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系統會自動將數據轉為TF32格式加速運算，現在你無需修改任何代碼量化了，直接自動訓練即可。

A100也針對云服務的虛擬化進行了升級，因為全新的multi-instanceGPU機制，在模擬實例時，每塊GPU的吞吐量增加了7倍。

最終在跑AI模型時，如果用PyTorch框架，相比上一代V100芯片，A100在BERT模型的訓練上性能提升6倍，BERT推斷時性能提升7倍。

電子發燒友綜合報道，參考自鎂客網、機器之心，轉載請注明來源和出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4994

瀏覽量
103159
gpu

gpu

+關注

關注
28

文章
4743

瀏覽量
128992

借助NVIDIA GPU提升魯班系統CAE軟件計算效率

本案例中魯班系統高性能 CAE 軟件利用 NVIDIA 高性能 GPU，實現復雜產品的快速仿真，加速產品開發和設計迭代，縮短開發周期，提升產

發表于 12-27 16:24 ?135次閱讀

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

對卷積核優化的思考。 GPU的存儲體系采用了獨特的倒金字塔結構，在我看來這是其計算性能的關鍵。大容量寄存器設計破解了傳統馮諾依曼架構的內存瓶頸，合并訪存機制巧妙解決了內存帶寬限制。NVIDIA

發表于 11-24 17:12

NPU技術如何提升AI性能

設計的處理器，與傳統的CPU和GPU相比，它在執行深度學習任務時具有更高的效率和更低的能耗。NPU通過專門優化的硬件結構和指令集，能夠更快地處理神經網絡中的大量并行計算任務。 1. 優化硬件架構 NPU技術通過優化硬件架構來提升AI

發表于 11-15 09:11 ?495次閱讀

蘋果 A18 芯片發布：CPU 提升 30%、GPU 提升 40%

核 CPU 包括 2 個性能核心和 4 個效率核心，比 iPhone 15 的 A16 Bionic 快 30%，能耗降低 30% 。 GPU 方面，A18

發表于 09-11 12:19 ?655次閱讀

名單公布！【書籍評測活動NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構分析

和像素統一的G80到現在重金難求的H100；AMD的Zen系列CPU和RDNA系列GPU兩線作戰；中國的高性能計算芯片逐步獲得更多TOP500排名；華為Ascend 910 NPU

發表于 09-02 10:09

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

，推理能力提升 15 倍 GB200由兩個B200Blackwell GPU和一個基于Arm的Grace CPU組成，采用[臺積電]4納米工藝制程，共有2080億個[晶體管]，其AI

發表于 05-13 17:16

龍芯：自主研發CPU提升性能，單核通用性能提高20倍

張戈強調，龍芯CPU的主要IP核均為自主研發，這使得其性價比得到顯著提升。他指出，國產CPU與主流CPU的差距主要體現在單核性能上，而非多核性能。近年來，龍芯CPU的單核通用性能已

發表于 04-25 15:26 ?813次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

發表于 04-20 09:39 ?742次閱讀

Meta第二代自研AI芯片出世，性能提升三倍以上

芯片，MTIA v2。基于5nm打造，性能三倍以上相較上一代MTIA v1，新的MTIA v2的工藝從臺積電的7nm換成了臺積電5nm，芯片主頻也從800MHz

發表于 04-15 09:25 ?2213次閱讀

英偉達發布超強AI加速卡，性能大幅提升，可支持1.8萬億參數模的訓練

得益于NVIDIA每兩年進行一次GPU架構升級以提高性能的策略，全新的基于Blackwell的加速卡比之前的H100更為強大，尤其適用于AI

發表于 03-19 12:04 ?818次閱讀

NVIDIA 發布全新交換機，全面優化萬億參數級 GPU 計算和 AI 基礎設施

NVIDIA 軟件實現了跨 ?Blackwell GPU、新交換機和 BlueField-3 SuperNIC 的分布式計算，大幅提升了 AI、數據處理、高

發表于 03-19 10:05 ?350次閱讀

M3芯片和A16芯片哪個強

M3芯片和A16芯片各有優勢，難以簡單地判斷哪個更強。M3芯片是專為蘋果自家設備設計的處理器，其圖形處理能力和神經網絡運算能力表現出色，適合處理高性

發表于 03-13 16:30 ?1205次閱讀

英偉達H200和A100的區別

英偉達H200和A100兩款芯片在性能、架構、內存以及應用場景等多個方面存在顯著的區別。

發表于 03-07 16:23 ?3666次閱讀

瑞薩電子將AI半導體處理性能最多提高至16倍

日本瑞薩電子公司（Renesas Electronics）最近公布了一項重大技術突破，他們成功開發了一種新技術，可以將面向人工智能（AI）的半導體的處理性能提升最多至

發表于 02-27 17:40 ?842次閱讀

解讀六大科技巨頭自研AI芯片進展，誰將領跑未來？

在當前的AI發展浪潮中，NVIDIA無疑是AI算力的領跑者。其A100/H100系列芯片已獲得全

發表于 02-22 10:35 ?515次閱讀

Carol Li
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 國內最值得關注的10家人工智能語音識別公司
Hot 國內外 18 家藍牙芯片廠商及產品型號集合

New 電動汽車充換電站快速建設，先進芯片和算法提升充換電效率
New NXP推出集成NPU的MCU，支持AI邊緣設備！MCU實現AI功能的多種方式

精選推薦
更多

文章

資料

帖子

羅德與施瓦茨助力探索WiFi8的無限可能

羅德與施瓦茨中國
8小時前

244 閱讀

信號源計量中的功率電平不確定度分析

羅德與施瓦茨中國
8小時前

192 閱讀

TSP工具包軟件的應用說明

泰克科技
8小時前

151 閱讀

LVGL開發入門教程

瑞薩MCU小百科
9小時前

242 閱讀

開關穩壓器和線性穩壓器的比較

RECOM
9小時前

259 閱讀

ProcDump-for-Linux監控應用CPU峰值的命令行工具

恐龍之家
0.09 MB

2積分

2下載

Beanseye BeansDB代理和監控器

李平
0.04 MB

免費

0下載

varnish-agent varnish配置管理工具

王軍
0.27 MB

2積分

1下載

Apache Camel K輕量級集成框架

vinww特煩惱
5.79 MB

免費

0下載

自動駕駛操作系統現狀與發展趨勢

陳游斗
1.57 MB

3積分

18下載

求大神告知加熱臺的加熱方式，是電阻絲加熱嗎？如果是請教一下具體的型號

jf_24845006
1天前

281 閱讀

電子連接器上的接線端子保護蓋的的設計有什么講究嗎？

jf_68950762
1天前

219 閱讀

基于RK3568國產處理器教學實驗箱操作案例分享：一元線性回歸實驗

創龍教儀
1月前

192 閱讀

關于串聯電容測短路

jf_19250324
1天前

336 閱讀

開源大師兄怎么刷鴻蒙系統的，那些傳感器配件還能調用嗎

jf_37933157
1天前

303 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

性能提升20倍！NVIDIA A100 GPU打破16項AI芯片性能記錄

評論

借助NVIDIA GPU提升魯班系統CAE軟件計算效率

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

NPU技術如何提升AI性能

蘋果 A18 芯片發布：CPU 提升 30%、GPU 提升 40%

名單公布！【書籍評測活動NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構分析

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

龍芯：自主研發CPU提升性能，單核通用性能提高20倍

利用NVIDIA組件提升GPU推理的吞吐

Meta第二代自研AI芯片出世，性能提升三倍以上

英偉達發布超強AI加速卡，性能大幅提升，可支持1.8萬億參數模的訓練

NVIDIA 發布全新交換機，全面優化萬億參數級 GPU 計算和 AI 基礎設施

M3芯片和A16芯片哪個強

英偉達H200和A100的區別

瑞薩電子將AI半導體處理性能最多提高至16倍

解讀六大科技巨頭自研AI芯片進展，誰將領跑未來？