色综合天天综合网国产人,在线观看视频一区二区三区,在线视频福利

持續了一個月的“顯卡發布季”已經告一段落，截止目前NVIDIA發布了GeForce RTX 3060 Ti/3070/3080/3090共4個型號的顯卡，相比上一代顯卡，RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升，新的NVIDIA Ampere架構還帶來了第二代RT Core和第三代Tensor，雖然RTX 30系顯卡擁有諸多提升，但價格卻與上一代顯卡相同。

在9月2日發布會當天，雖然過程僅有短短的40分鐘，卻震驚了全世界的用戶。

算力提升

下面我們就來看看，“有史以來最偉大性能提升”相比上一代的NVIDIA Turing架構，做了哪些提升。

第一代RTX架構Turing

第二代RTX架構 Ampere

首先來簡單回顧一下在9月2日發布會的PPT上我們都看到了什么，相較于初代的Turing RTX架構，NVIDIA Ampere架構在算力上有著成倍的增長，每個時鐘執行2次著色器運算。

而Turing為1次，著色器性能達到30 TFLOPS單精度性能，而Turing為11 TFLOPS。

NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量，RT Core達到58 RT TFLOPS，而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中，可自動識別并消除不太重要的DNN權重，處理稀疏網絡的速率是Turing的兩倍，算力高達238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個晶體管，628平方毫米的面積，基于三星的8nm NVIDIA定制工藝，來自美光的GDDR6X顯存，以及我們上面說的，三大處理核心均為初代Turing的兩倍速率，構成了有史以來性能最強大的Ampere。

SM單元的改變

而NVIDIA Ampere架構的強大性能并不是NVIDIA一蹴而就，可以說在20系顯卡中所采用的Turing架構功不可沒，下面我們先來看看完整的GA102核心。

完整的GA102 GPU包含7個GPC（圖形處理集群）42個TPC（紋理處理集群）以及84個SM（流處理器）組成。

GPC是占據主導地位的高級模塊，擁有所有的關鍵圖形處理單元，每個GPC包含一個專用光柵引擎。

在新的NVIDIA Ampere架構中，每個GPC還包含了兩個ROP分區，每個分區包含8個ROP單元。下面我們來看看每個SM單元的變化。

在每個SM中，包含四個大的處理分區共128個CUDA核心，4個第三代Tensor Core，1個第二代RT Core，1個256 KB的緩存文件，1個128 KB的L1緩存，這個L1緩存可以根據不同的工作需求來調配緩存，工作效率發揮至最大。

另外大家都知道本次RTX 3080的CUDA數量暴增至8704個，而RTX 3090的CUDA數量更是達到了驚人的10496個。

但是大家要知道專業計算卡Tesla A100的GA100核心，擁有更大的核心面積，更多的晶體管數量，理論上只有8192個CUDA，那RTX 3080又是如何達到這種效果的呢？

其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元，這就使得每個SM的FP32運算單元數量提高了一倍。

我們在發布會中經常聽到性能翻倍的說法，其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元，這就使得每個SM的FP32運算單元數量提高了一倍，同時吞吐量也就變為了一倍。

而通常我們計算顯卡的CUDA數量，并不是把SM中的所有單元加起來計數，而是只統計FP32單元的數量，所以這樣一來，SM中的【FP32 ： INT32】從 1:1 變為 2:1。

如RTX 3080的8704個CUDA，其實它只有4352個INT32單元，但由于內部的FP32數量翻了一倍，所以最終實現了8704這個驚人的數字。

而這樣粗暴的提升CUDA數量對于游戲有幫助嗎？

答案是有，不僅有提升還很大。其實通常在游戲中浮點運算相比整數計算要常用的多，圖形、算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數指令，而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構中，NVIDIA官方宣布為第二代RT Core，它和第一代有什么不同呢。

首先要知道RT Core的工作原理是，著色器發出光線追蹤的請求，交給RT Core來處理，它將進行兩種測試，分別為邊界交叉測試（Box Intersection testing）和三角形交叉測試（Triangle Intersection testing）。

基于BVH算法來判斷，如果是方形，那么就返回縮小范圍繼續測試，如果是三角形，則反饋結果進行渲染。

而光線追蹤最耗時的正是求交計算，因此，要提升光線追蹤性能，主要是對兩種求交（BVH/三角形求交）進行加速。

在Turing的RT Core中，可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊，這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時進行，進行的光線追蹤越多，加速就越快，它將光線相交的處理性能提升了一倍，在渲染有動態模糊的影像時，按照NVIDIA自己的實測，比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強化，Ampere架構的Tensor Core也得到了極大地加強，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自動識別并消除不太重要的DNN（深度神經網絡）權重，同時依然能保持不錯的精度。

首先原始的密集矩陣會經過訓練，刪除掉稀疏矩陣，再經過訓練稀疏矩陣，從而實現稀疏優化，進而提高Tensor Core的性能。

所以最終的結果就是Tensor Core在處理稀疏網絡的速率是Turing的兩倍，算力高達238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發布的還有一項新技術——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間，對于存儲空間的負擔暫且不提，但存放在硬盤中的數據，如果顯卡想要讀取到，需要先由CPU從硬盤中讀取壓縮過的數據，經過解壓縮再發送到顯存中。

雖然隨著NVMe SSD的推出，讀取速度相較機械硬盤能夠快20倍，但受制于傳統I/O限制，NVMe高達7GB/秒的高速讀寫對于CPU是極大的負擔。

在這個過程中，會占用多個CPU核心，壓力急劇增大，占用較多的內存，而此時其實GPU是處于閑置狀態的。

RTX IO的作用就是越過CPU解壓再傳輸數據這一步，直接從PCIE總線讀取硬盤上經過壓縮的數據，并且完成解壓，降低CPU占用，變向提升了性能。

當然這項技術作為系統底層的運行方式改變，還需要借助微軟發布的DirectStorage來實現，對于目前容量的游戲來說，RTX IO的改善效果有限，但假以時日等游戲容量上百G成為常態的時候，這項技術將會發揮巨大的功效。

最快的顯存

在RTX 3080中，采用了GDDR6X顯存，GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度，與采用GDDR6的Turing相比可提升40%的速度，在相同時間內GDDR6X可以比GDDR6傳輸多2倍的數據。

這對于需要大量數據負載的工作尤為重要，如光線追蹤的游戲、AI學習和8K視頻渲染。

同時搭配新增的HDMI2.1接口，可以支持單線8K的視頻輸出，而上一代HDMI2.0僅支持4K 98Hz的視頻輸出，如果想要連接8K電視，則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后，會有玩家會問，RTX 20系顯卡如此“短壽”算不算失敗的一代，我認為不算。

Turing為我們開創了光線追蹤和AI學習的新世界，奠定了GPU未來的發展方向，真正意義上實現從性能的堆砌到質的改變。

而Ampere則是站在巨人的肩膀，將上一代的路走的更寬更扎實。

責任編輯：PSY

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4981

瀏覽量
102994
顯卡

顯卡

+關注

關注
16

文章
2431

瀏覽量
67578
架構

架構

+關注

關注
1

文章
513

瀏覽量
25468
Ampere

Ampere

+關注

關注
1

文章
66

瀏覽量
4543

NVIDIA 推出高性價比的生成式 AI 超級計算機

人群提供更強大的生成式 AI 功能與性能，目前建議零售價 2070 人民幣。 ? 該開發者套件現已上市，與上一代產品相比，其生成式

發表于 12-18 17:01 ?301次閱讀

<b class='flag-5'>NVIDIA</b> 推出高性價比的生成式 AI 超級計算機

相比上一代低功耗藍牙芯片，CC2745P到底升級了什么？

TI最近發布了新一代藍牙芯片CC2745P，那么相對于上一代CC2642芯片，做了哪些升級，在實際應用中有哪些優勢？。CC2745P/CC2642基本參數對比如下：型號CC2745PCC2642

發表于 11-15 14:11

capsense第四代和第五代在感應模式上的具體區別是什么？

據我所知，第五代capsense相比第四代將電容（包括自電容+互電容技術）和電感觸摸技術集成到了一起，snr信噪比是上一代的十多倍，同時功

發表于 05-23 06:24

MediaTek與美團攜手合作打造新一代餐飲系統硬件S4 Pro系列收銀機

MediaTek 與美團攜手合作，打造新一代餐飲系統硬件 S4 Pro 系列收銀機。該系列收銀機采用 MediaTek 新一代高階物聯網芯片 Genio 510，對比上一代收銀產品性能大幅提升

發表于 05-17 10:09 ?524次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

帶寬和1.8TB/s的NVLink帶寬，使處理能力翻倍，大幅增加內存容量和帶寬，為處理大規模人工智能模型和復雜計算提供必要資源。針對大規模模型如GPT-MoE-1.8T，HGX B200的推理性能比上一代

發表于 05-13 17:16

NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。

發表于 04-26 11:25 ?620次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱 Embedding 全置于 GPU 上進行

發表于 04-20 09:39 ?717次閱讀

NVIDIA發布兩款新的專業顯卡RTX A1000、RTX A400

NVIDIA今天發布了兩款新的專業顯卡RTX A1000、RTX A400，從編號就能看出來定位入門級，而且架構并非最新的Ada Lovelace，還是上一代的Ampere。

發表于 04-18 11:35 ?2192次閱讀

全新NVIDIA RTX A400和A1000 GPU全面加強AI設計與生產力工作流

兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。

發表于 04-18 10:29 ?525次閱讀

英偉達發布性能大幅提升的新款B200 AI GPU

英偉達宣稱，B200在性能上比以往最好的GPU快30倍不止。由它構成的服務器集群相比上一代，運算能力飛躍性提升，甚至能使大語言模型的訓練速度翻番。

發表于 03-20 09:37 ?790次閱讀

全面提升！英飛凌推出新一代碳化硅技術CoolSiC MOSFET G2

電子發燒友網報道（文/梁浩斌）近日英飛凌推出了CoolSiC MOSFET G2技術，據官方介紹，這是新一代的溝槽柵SiC MOSFET技術，相比上一代產品也就是CoolSiC MOSFET G1有

發表于 03-19 18:13 ?2987次閱讀

NVIDIA將在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”

根據各方信息和路線圖，NVIDIA預計會在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”。

發表于 03-04 09:33 ?1312次閱讀

NVIDIA的Maxwell GPU架構功耗不可思議

整整10年前的2013年2月19日，NVIDIA正式推出了新一代Maxwell GPU架構，它有著極高的能效，出場方式也非常特別。

發表于 02-19 16:39 ?1014次閱讀

英偉達Orin 的系統結構解析

Orin SoC包含了高達170億晶體管，幾乎是Xavier SoC的兩倍，搭載了12個ARM Hercules內核，并集成了NVIDIA下一代Ampere架構的GPU，提供了驚人的2

發表于 01-29 12:33 ?2439次閱讀

AI芯片生態：深度解析與未來展望

相比上一代裁判Intel而言，實際上Intel設計的游戲規則是分配了很多蛋糕給行業內其他賽道的，而NVidia這種幾乎吃獨食的方式，也給它在各個領域樹立了無數競爭對手。

發表于 01-03 14:15 ?634次閱讀