一级做a爱过程免费观看,最新精品女神在线观看,香蕉久久夜色精品国产

在 GPU 領(lǐng)域，2022 年無(wú)論好壞都是一個(gè)重要的里程碑。英特爾兌現(xiàn)了重新進(jìn)入獨(dú)立顯卡市場(chǎng)的承諾，Nvidia將顯卡尺寸和價(jià)格推向了頂峰，AMD將 CPU 技術(shù)帶入了顯卡領(lǐng)域。

圍繞 GPU 的熱情彌漫在在線論壇中，讓 PC 愛好者對(duì)顯卡市場(chǎng)的轉(zhuǎn)變感到既敬畏又震驚。在這種喧囂中，人們很容易忘記最新的產(chǎn)品配備了家用電腦中最復(fù)雜、最強(qiáng)大的芯片。

在本文中，我們將深入探討他們的架構(gòu)。讓我們剝開層層，看看有什么新內(nèi)容、它們有什么共同點(diǎn)，以及這些對(duì)普通用戶意味著什么。

GPU整體結(jié)構(gòu)：從上到下

讓我們從本文的一個(gè)重要方面開始——這不是性能比較。相反，我們正在研究 GPU 內(nèi)部的所有內(nèi)容是如何排列的，檢查規(guī)格和數(shù)據(jù)，以了解 AMD、英特爾和 Nvidia 在設(shè)計(jì)圖形處理器時(shí)所采用的方法差異。

我們將首先了解使用我們正在研究的架構(gòu)的最大可用芯片的整體 GPU 組成。需要強(qiáng)調(diào)的是，英特爾的產(chǎn)品并不針對(duì)與 AMD 或 Nvidia 相同的市場(chǎng)，因?yàn)樗诤艽蟪潭壬鲜且豢钪袡n圖形處理器。

這三者的尺寸不僅彼此不同，而且與使用先前架構(gòu)的類似芯片也有很大不同。所有這些分析純粹是為了了解這三個(gè)處理器的底層到底是什么。在分解每個(gè) GPU 的基本部分（著色器核心、光線追蹤功能、內(nèi)存層次結(jié)構(gòu)以及顯示和媒體引擎）之前，我們將檢查整體結(jié)構(gòu)。

一、AMD Navi 31

按字母順序排列，第一個(gè)出現(xiàn)的是 AMD 的 Navi 31，這是他們迄今為止發(fā)布的最大的 RDNA 3 芯片。與 Navi 21 相比，我們可以看到他們之前的高端 GPU 的組件數(shù)量明顯增長(zhǎng)......

著色器引擎 (SE：Shader Engines) 容納的計(jì)算單元 (CU：Compute Units) 較少，為 16 個(gè)，而不是 200 個(gè)，但現(xiàn)在總共有 6 個(gè) SE，比以前多了兩個(gè)。這意味著Navi 31擁有多達(dá)96個(gè)CU，總共配備6144個(gè)流處理器（SP：Stream Processors）。AMD 已經(jīng)對(duì) RDNA 3 的 SP 進(jìn)行了全面升級(jí)，我們將在后面討論。

每個(gè)著色器引擎還包含一個(gè)處理光柵化（ rasterization）的專用單元、一個(gè)用于三角形（ triangle ）設(shè)置的圖元引擎（primitive engine ）、32 個(gè)渲染輸出單元 (ROP：render output units) 和兩個(gè) 256kB L1 緩存。最后一個(gè)方面現(xiàn)在大小增加了一倍，但每個(gè) SE 的 ROP 計(jì)數(shù)仍然相同。

AMD 也沒有對(duì)光柵器（ rasterizer ）和原始引擎（primitive engines）進(jìn)行太大改變——所稱的 50% 改進(jìn)是針對(duì)整個(gè)芯片進(jìn)行的，因?yàn)樗?SE 比 Navi 21 芯片多了 50%。然而，SE 處理指令的方式發(fā)生了變化，例如更快地處理多個(gè)繪制命令（multiple draw commands）和更好地管理管道階段（ pipeline stages），這應(yīng)該會(huì)減少 CU 在繼續(xù)執(zhí)行另一個(gè)任務(wù)之前需要等待的時(shí)間。

最明顯的變化是在 11 月發(fā)布之前引起最多謠言和八卦的變化——GPU 封裝的小芯片方法。憑借在該領(lǐng)域多年的經(jīng)驗(yàn)，AMD 選擇這樣做在某種程度上是合乎邏輯的，但這完全是出于成本/制造原因，而不是性能。

我們將在本文后面更詳細(xì)地討論這一點(diǎn)，所以現(xiàn)在我們只關(guān)注哪些部分在哪里。在 Navi 31 中，最終層緩存的內(nèi)存控制器及其相關(guān)分區(qū)位于主處理器（GCD，Graphics Compute Die）周圍的單獨(dú)小芯片（稱為 MCD 或Memory Cache Dies）中。

由于需要提供更多數(shù)量的 SE，AMD 也將 MC 數(shù)量增加了 50%，因此 GDDR6 全局內(nèi)存的總總線寬度現(xiàn)在為 384 位。這次 Infinity Cache 總量減少了（96MB vs 128MB），但更大的內(nèi)存帶寬抵消了這一點(diǎn)。

二、英特爾ACM-G10

接下來(lái)是 Intel 和 ACM-G10 芯片（以前稱為 DG2-512）。雖然這不是英特爾生產(chǎn)的最大的 GPU，但它是他們最大的消費(fèi)類圖形芯片。

該框圖是相當(dāng)標(biāo)準(zhǔn)的排列，盡管看起來(lái)更類似于 Nvidia 的而不是 AMD 的。共有 8 個(gè)渲染切片（Render Slices），每個(gè)渲染切片包含 4 個(gè) Xe 核心，總共 512 個(gè)矢量引擎（Vector Engines：相當(dāng)于 AMD 的流處理器和 Nvidia 的 CUDA 核心）。

每個(gè)渲染切片中還包含一個(gè)基元單元、光柵器、深度緩沖處理器、32 個(gè)紋理單元和 16 個(gè) ROP。乍一看，這款 GPU 似乎相當(dāng)大，因?yàn)?256 個(gè) TMU 和 128 個(gè) ROP 比 Radeon RX 6800 或 GeForce RTX 2080 中的數(shù)量還要多。

然而，AMD 的 RNDA 3 芯片擁有 96 個(gè)計(jì)算單元，每個(gè)計(jì)算單元有 128 個(gè) ALU，而 ACM-G10 總共有 32 個(gè) Xe 核心，每個(gè)核心有 128 個(gè) ALU。因此，僅就 ALU 數(shù)量而言，英特爾 Alchemist 驅(qū)動(dòng)的 GPU 的大小是 AMD 的三分之一。但正如我們稍后將看到的，ACM-G10 的大部分芯片都交給了不同的數(shù)字處理單元。

與英特爾通過(guò) OEM 供應(yīng)商發(fā)布的首款 Alchemist GPU相比，該芯片在組件數(shù)量和結(jié)構(gòu)排列方面具備成熟架構(gòu)的所有特征。

三、英偉達(dá)AD102

我們完成了對(duì) Nvidia AD102 不同布局的開場(chǎng)概述，這是他們第一個(gè)使用 Ada Lovelace 架構(gòu)的 GPU。與它的前身Ampere GA102相比，它看起來(lái)并沒有什么不同，只是大了很多。就所有意圖和目的而言，確實(shí)如此。

Nvidia 使用圖形處理集群 (GPU：Graphics Processing Cluster) 的組件層次結(jié)構(gòu)，其中包含 6 個(gè)紋理處理集群 (TPC：Texture Processing Clusters)，每個(gè)集群包含 2 個(gè)流式多處理器 (SM)。這種安排對(duì)于Ada來(lái)說(shuō)并沒有改變，但總數(shù)肯定已經(jīng)改變了……

在完整的 AD102 芯片中，GPC 數(shù)量從 7 個(gè)增加到 12 個(gè)，因此現(xiàn)在總共有 144 個(gè) SM，總共有 18432 個(gè) CUDA 核心。與 Navi 31 中的 6144 個(gè) SP 相比，這個(gè)數(shù)字似乎高得離譜，但 AMD 和 Nvidia 對(duì)其組件的計(jì)數(shù)方式不同。

雖然這大大簡(jiǎn)化了問(wèn)題，但 1 個(gè) Nvidia SM 相當(dāng)于 1 個(gè) AMD CU——兩者都包含 128 個(gè) ALU。因此，Navi 31 的尺寸是英特爾 ACM-G10 的兩倍（僅 ALU 數(shù)量），而 AD102 的尺寸是英特爾 ACM-G10 的 3.5 倍。

這就是為什么當(dāng)芯片在規(guī)模上有如此明顯的差異時(shí)，對(duì)它們進(jìn)行任何直接的性能比較是不公平的。然而，一旦它們進(jìn)入顯卡、定價(jià)并上市，那么情況就不同了。

但我們可以比較的是三個(gè)處理器中最小的重復(fù)部分。

著色器核心（Shader Cores）：

走進(jìn) GPU 的大腦

從整個(gè)處理器的概述開始，現(xiàn)在讓我們深入了解芯片的核心，看看處理器的基本數(shù)字處理部分：著色器核心。

這三個(gè)制造商在描述他們的芯片時(shí)使用不同的術(shù)語(yǔ)和短語(yǔ)，特別是在概述圖時(shí)。因此，在本文中，我們將使用我們自己的圖像，具有常見的顏色和結(jié)構(gòu)，以便更容易看出相同和不同之處。

一、AMD RDNA 3

AMD GPU 著色部分內(nèi)最小的統(tǒng)一結(jié)構(gòu)稱為雙計(jì)算單元(DCU：Double Compute Unit)。在某些文檔中，它仍然稱為工作組處理器 (WGP：Workgroup Processor)，而其他文檔則將其稱為計(jì)算單元對(duì)（CUP：Compute Unit Pair）。

請(qǐng)注意，如果這些圖中未顯示某些內(nèi)容（例如常量緩存、雙精度單元），并不意味著它們不存在于體系結(jié)構(gòu)中。

在很多方面，整體布局和結(jié)構(gòu)元素與 RDNA 2 相比并沒有太大變化。兩個(gè)計(jì)算單元共享一些緩存和內(nèi)存，每個(gè)計(jì)算單元包含兩組 32 個(gè)流處理器 (SP)。

第 3 版的新增功能是，每個(gè) SP 現(xiàn)在容納的算術(shù)邏輯單元 (ALU：arithmetic logic units ) 數(shù)量是以前的兩倍。現(xiàn)在，每個(gè) CU 有兩組 SIMD64 單元，每個(gè)組有兩個(gè)數(shù)據(jù)端口——一個(gè)用于浮點(diǎn)、整數(shù)和矩陣運(yùn)算，另一個(gè)僅用于浮點(diǎn)和矩陣運(yùn)算。

AMD 確實(shí)針對(duì)不同的數(shù)據(jù)格式使用單獨(dú)的 SP， RDNA 3 中的計(jì)算單元支持使用 FP16、BF16、FP32、FP64、INT4、INT8、INT16 和 INT32 值進(jìn)行操作。

使用 SIMD64 意味著每個(gè)線程調(diào)度程序可以在每個(gè)時(shí)鐘周期發(fā)出一組 64 個(gè)線程（稱為wavefront），或者可以共同發(fā)出兩個(gè) 32 個(gè)線程的波前。AMD 保留了與以前的 RDNA 架構(gòu)相同的指令規(guī)則，因此這是由 GPU/驅(qū)動(dòng)程序處理的。

另一個(gè)重要的新功能是 AMD 所謂的 AI 矩陣加速器的出現(xiàn)。

與我們很快就會(huì)看到的 Intel 和 Nvidia 的架構(gòu)不同，它們并不充當(dāng)單獨(dú)的單元——所有矩陣運(yùn)算都利用 SIMD 單元，并且任何此類計(jì)算（稱為波矩陣乘法累加，WMMA：Wave Matrix Multiply Accumulate）都將使用完整的 64 個(gè) ALU 組。

在撰寫本文時(shí)，人工智能加速器的確切性質(zhì)尚不清楚，但它可能只是與處理指令和涉及的大量數(shù)據(jù)相關(guān)的電路，以確保最大吞吐量。它很可能與 Nvidia 的Hopper 架構(gòu)中的張量?jī)?nèi)存加速器具有類似的功能。

與 RDNA 2 相比，變化相對(duì)較小——較舊的架構(gòu)還可以處理 64 個(gè)線程波前（又名 Wave64），但這些是在兩個(gè)周期內(nèi)發(fā)布的，并且在每個(gè)計(jì)算單元中使用兩個(gè) SIMD32 塊。現(xiàn)在，這一切都可以在一個(gè)周期內(nèi)完成，并且僅使用一個(gè) SIMD 塊。

在之前的文檔中，AMD 表示 Wave32 通常用于計(jì)算和頂點(diǎn)著色器（也可能用于光線著色器），而 Wave 64 主要用于像素著色器，驅(qū)動(dòng)程序會(huì)相應(yīng)地編譯著色器。因此，轉(zhuǎn)向單周期 Wave64 指令問(wèn)題將為嚴(yán)重依賴像素著色器的游戲帶來(lái)推動(dòng)。

然而，所有這些額外的可用功率都需要正確利用才能充分利用。所有 GPU 架構(gòu)都是如此，并且它們都需要大量線程負(fù)載，才能做到這一點(diǎn)（這也有助于隱藏與 DRAM 相關(guān)的固有延遲）。

因此，隨著 ALU 數(shù)量增加一倍，AMD 推動(dòng)了程序員盡可能使用指令級(jí)并行性的需求。這在圖形領(lǐng)域并不是什么新鮮事，但 RDNA 相對(duì)于 AMD 舊的 GCN 架構(gòu)的一個(gè)顯著優(yōu)勢(shì)是，它不需要那么多的運(yùn)行線程來(lái)達(dá)到充分利用。鑒于現(xiàn)代渲染在游戲中變得多么復(fù)雜，開發(fā)人員在編寫著色器代碼時(shí)需要做更多的工作。

二、Intel Alchemist

現(xiàn)在讓我們轉(zhuǎn)向英特爾，看看 Alchemist 架構(gòu)中的 DCU 等效項(xiàng)，稱為Xe Core（我們將其縮寫為 XEC）。乍一看，與 AMD 的結(jié)構(gòu)相比，這些看起來(lái)絕對(duì)是巨大的。

RDNA 3 中的單個(gè) DCU 包含四個(gè) SIMD64 塊，而英特爾的 XEC 包含16 個(gè)SIMD8 單元，每個(gè)單元都由自己的線程調(diào)度程序和調(diào)度系統(tǒng)管理。與 AMD 的流處理器一樣，Alchemist 中所謂的矢量引擎可以處理整數(shù)和浮點(diǎn)數(shù)據(jù)格式。不支持 FP64，但這在游戲中不是什么大問(wèn)題。

英特爾一直使用相對(duì)較窄的 SIMD——Gen11 中使用的 SIMD 僅為 4 寬（即同時(shí)處理 4 個(gè)線程），而 Gen 12 的寬度僅加倍（例如，在其 Rocket Lake CPU 中使用）。

但考慮到游戲行業(yè)已經(jīng)使用 SIMD32 GPU 多年，因此游戲也進(jìn)行了相應(yīng)的編碼，因此保留狹窄執(zhí)行塊的決定似乎會(huì)適得其反。

AMD 的 RDNA 3 和 Nvidia 的 Ada Lovelace 的處理塊可以在一個(gè)周期內(nèi)發(fā)出 64 或 32 個(gè)線程，而英特爾的架構(gòu)需要 4 個(gè)周期才能在一個(gè) VE 上實(shí)現(xiàn)相同的結(jié)果，因此每個(gè) XEC 有 16 個(gè) SIMD 單元。

然而，這意味著如果游戲的編碼方式不能確保 VE 被完全占用，SIMD 和相關(guān)資源（緩存、帶寬等）將處于閑置狀態(tài)。英特爾Arc 系列顯卡的基準(zhǔn)測(cè)試結(jié)果的一個(gè)共同主題是，它們往往在更高的分辨率和/或具有大量復(fù)雜的現(xiàn)代著色器例程的游戲中表現(xiàn)更好。

這在一定程度上是由于單位細(xì)分和資源共享程度較高。Chips and Cheese網(wǎng)站的微基準(zhǔn)分析表明，盡管擁有豐富的 ALU，該架構(gòu)仍難以實(shí)現(xiàn)適當(dāng)?shù)睦谩?/p>

轉(zhuǎn)到 XEC 的其他方面，尚不清楚 0 級(jí)指令緩存有多大，但 AMD 的指令緩存是 4 路（因?yàn)樗?wù)于四個(gè) SIMD 塊），而 Intel 的緩存必須是 16 路，這增加了復(fù)雜性緩存系統(tǒng)的。

英特爾還選擇為處理器提供用于矩陣運(yùn)算的專用單元，每個(gè)向量引擎對(duì)應(yīng)一個(gè)單元。擁有如此多的單元意味著芯片的很大一部分專門用于處理矩陣數(shù)學(xué)。

AMD 使用 DCU 的 SIMD 單元來(lái)完成此操作，而 Nvidia 每個(gè) SM 有四個(gè)相對(duì)較大的張量/矩陣單元，而英特爾的方法似乎有點(diǎn)過(guò)分，因?yàn)樗麄冇幸粋€(gè)單獨(dú)的架構(gòu)，稱為 X e-HP，用于計(jì)算應(yīng)用程序。

另一個(gè)奇怪的設(shè)計(jì)似乎是處理塊中的加載/存儲(chǔ)（LD/ST）單元。我們的圖表中未顯示，它們管理來(lái)自線程的內(nèi)存指令，在寄存器文件和 L1 緩存之間移動(dòng)數(shù)據(jù)。Ada Lovelace 與 Ampere 相同，每個(gè) SM 分區(qū)有 4 個(gè)，總共 16 個(gè)。RDNA 3 也與其前身相同，每個(gè) CU 都有專用的 LD/ST 電路作為紋理單元的一部分。

英特爾的 Xe-HPG 演示顯示每個(gè) XEC 僅一個(gè) LD/ST，但實(shí)際上，它內(nèi)部可能由更多分立單元組成。然而，在他們的OneAPI優(yōu)化指南中，一張圖表表明 LD/ST 一次循環(huán)一個(gè)單獨(dú)的寄存器文件。如果是這種情況，那么 Alchemist 將始終難以實(shí)現(xiàn)最大緩存帶寬效率，因?yàn)椴⒎撬形募纪瑫r(shí)得到服務(wù)。

三、Nvidia Ada Lovelace

最后一個(gè)需要關(guān)注的處理模塊是 Nvidia 的流式多處理器(SM：Streaming Multiprocessor ) – DCU/XEC 的 GeForce 版本。這個(gè)結(jié)構(gòu)與2018年的圖靈架構(gòu)相比并沒有太大的改變。事實(shí)上，它幾乎與Ampere相同。

一些單元已經(jīng)過(guò)調(diào)整以提高其性能或功能集，但在大多數(shù)情況下，沒有太多新的東西可以談?wù)摗Ｊ聦?shí)上，可能有，但眾所周知，英偉達(dá)不愿透露太多有關(guān)其芯片的內(nèi)部操作和規(guī)格的信息。英特爾提供了更多細(xì)節(jié)，但這些信息通常隱藏在其他文檔中。

但總結(jié)一下結(jié)構(gòu)，SM 分為四個(gè)分區(qū)。每個(gè)處理器都有自己的 L0 指令緩存、線程調(diào)度程序和分派單元，以及與 SIMD32 處理器配對(duì)的 64 kB 寄存器文件部分。

正如AMD的RDNA 3一樣，SM支持雙發(fā)出指令，其中每個(gè)分區(qū)可以同時(shí)處理兩個(gè)線程，一個(gè)使用FP32指令，另一個(gè)使用FP32或INT32指令。

Nvidia 的 Tensor 核心現(xiàn)已進(jìn)入第四版，但這一次，唯一顯著的變化是包含了Hopper 芯片中的FP8 Transformer 引擎，原始吞吐量數(shù)據(jù)保持不變。

低精度浮點(diǎn)格式的加入意味著GPU應(yīng)該更適合AI訓(xùn)練模型。Tensor 核心還提供Ampere 的稀疏功能，可提供高達(dá)兩倍的吞吐量。

另一個(gè)改進(jìn)在于光流加速器 (OFA：Optical Flow Accelerator) 引擎（圖中未顯示）。該電路生成光流場(chǎng)（ optical flow field），用作DLSS算法的一部分。OFA 的安培性能提高了一倍，額外的吞吐量被用在最新版本的臨時(shí)抗鋸齒升頻器 DLSS 3 中。

DLSS 3已經(jīng)面臨相當(dāng)多的批評(píng)，主要集中在兩個(gè)方面：DLSS 生成的幀不是“真實(shí)的”，并且該過(guò)程給渲染鏈增加了額外的延遲。第一個(gè)并不是完全無(wú)效，因?yàn)橄到y(tǒng)的工作原理是首先讓 GPU 渲染兩個(gè)連續(xù)的幀，將它們存儲(chǔ)在內(nèi)存中，然后使用神經(jīng)網(wǎng)絡(luò)算法確定中間幀的樣子。

然后，當(dāng)前鏈返回到第一個(gè)渲染幀并顯示該幀，然后是 DLSS 幀，然后是渲染的第二幀。由于游戲引擎尚未在中幀循環(huán)，因此屏幕會(huì)在沒有任何潛在輸入的情況下刷新。而且由于需要停止而不是呈現(xiàn)兩個(gè)連續(xù)的幀，因此為這些幀輪詢的任何輸入也將停止。

DLSS 3 是否會(huì)變得流行或普遍還有待觀察。

盡管 Ada 的 SM 與 Ampere 非常相似，但 RT 內(nèi)核有顯著的變化，我們將很快解決這些變化。現(xiàn)在我們來(lái)總結(jié)一下AMD、Intel、Nvidia的GPU重復(fù)結(jié)構(gòu)的計(jì)算能力。

處理塊比較

我們可以通過(guò)查看每個(gè)時(shí)鐘周期的標(biāo)準(zhǔn)數(shù)據(jù)格式的操作數(shù)量來(lái)比較 SM、XEC 和 DCU 的功能。請(qǐng)注意，這些是峰值數(shù)字，實(shí)際上不一定可以實(shí)現(xiàn)。

Nvidia 的數(shù)字與 Ampere 相比沒有變化，而 RDNA 3 的數(shù)字在某些領(lǐng)域增加了一倍。然而，Alchemist在矩陣運(yùn)算方面處于另一個(gè)水平，盡管應(yīng)該再次強(qiáng)調(diào)這些是峰值理論值的事實(shí)。

鑒于英特爾的圖形部門像英偉達(dá)一樣嚴(yán)重依賴數(shù)據(jù)中心和計(jì)算，因此看到該架構(gòu)將如此多的芯片空間用于矩陣運(yùn)算也就不足為奇了。缺乏 FP64 功能并不是問(wèn)題，因?yàn)樵摂?shù)據(jù)格式并未真正用于游戲，并且該功能存在于其 X e -HP 架構(gòu)中。

理論上，在矩陣/張量運(yùn)算方面，Ada Lovelace 和 Alchemist 比 RDNA 3 更強(qiáng)，但由于我們正在研究主要用于游戲工作負(fù)載的 GPU，因此專用單元大多只是為 DLSS 和相關(guān)算法提供加速。XeSS——它們使用卷積自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)（CAENN）來(lái)掃描圖像中的偽影并進(jìn)行糾正。

AMD 的時(shí)間升級(jí)器（FidelityFX Super Resolution, FSR)）不使用 CAENN，因?yàn)樗饕贚anczos 重采樣方法，然后是通過(guò) DCU 處理的許多圖像校正例程。然而，在RDNA 3 的發(fā)布中，簡(jiǎn)要介紹了FSR 的下一版本，并引用了一項(xiàng)名為“Fluid Motion Frames”的新功能。FSR 2.0 的性能提升高達(dá)兩倍，普遍的共識(shí)是這可能涉及幀生成，如 DLSS 3 中那樣，但這是否涉及任何矩陣運(yùn)算尚不清楚。

適合每個(gè)人的光線追蹤

隨著使用 Alchemist 架構(gòu)的 Arc 顯卡系列的推出，英特爾與 AMD 和 Nvidia 一起提供 GPU，為圖形中使用光線追蹤所涉及的各種算法提供專用加速器。Ada 和 RNDA 3 都包含顯著更新的 RT 單元，因此了解一下新的和不同的內(nèi)容是有意義的。

從 AMD 開始，其光纖加速器的最大變化是添加硬件以改進(jìn)包圍體層次結(jié)構(gòu)(BVH：bounding volume hierarchies)的遍歷（traversal）。這些數(shù)據(jù)結(jié)構(gòu)用于加速確定 3D 世界中光線照射到的表面。

在 RDNA 2 中，所有這些工作都是通過(guò)計(jì)算單元處理的，并且在某種程度上仍然如此。然而，對(duì)于 DXR（微軟的光線追蹤 API）來(lái)說(shuō)，有對(duì)光線標(biāo)志管理的硬件支持。

使用這些可以大大減少需要遍歷 BVH 的次數(shù)，從而減少緩存帶寬和計(jì)算單元的總體負(fù)載。本質(zhì)上，AMD 專注于提高他們?cè)谥凹軜?gòu)中引入的系統(tǒng)的整體效率。

此外，硬件已更新，以改進(jìn)盒子排序（box sorting，這使得遍歷更快）和剔除算法（culling algorithms，以跳過(guò)測(cè)試空盒子）。再加上緩存系統(tǒng)的改進(jìn)，AMD 表示，在相同的時(shí)鐘速度下，與 RDNA 2 相比，光線追蹤性能提高了 80%。

然而，這種改進(jìn)并不能轉(zhuǎn)化為使用光線追蹤的游戲中每秒幀數(shù)增加 80% ，這些情況下的性能受到許多因素的影響，RT 單元的功能只是其中之一。

由于英特爾是光線追蹤技術(shù)的新手，因此沒有任何改進(jìn)。相反，我們只是被告知他們的 RT 單元處理射線和三角形之間的 BVH 遍歷和相交計(jì)算。這使得它們比 AMD 的系統(tǒng)更類似于 Nvidia 的系統(tǒng)，但關(guān)于它們的信息并不多。

但我們確實(shí)知道每個(gè) RT 單元都有一個(gè)未指定大小的緩存用于存儲(chǔ) BVH 數(shù)據(jù)，以及一個(gè)單獨(dú)的單元用于分析和排序光線著色器線程，以提高 SIMD 利用率。

每個(gè) XEC 與一個(gè) RT 單元配對(duì)，每個(gè)渲染切片總共有四個(gè)。在游戲中啟用光線追蹤的A770 的一些早期測(cè)試表明，無(wú)論英特爾采用何種結(jié)構(gòu)，Alchemist 的光線追蹤整體能力至少與 Ampere 芯片一樣好，并且比 RDNA 2 型號(hào)稍好一些。

但讓我們?cè)俅沃厣辏饩€追蹤也給著色核心、緩存系統(tǒng)和內(nèi)存帶寬帶來(lái)了沉重壓力，因此不可能從此類基準(zhǔn)測(cè)試中提取 RT 單元性能。

對(duì)于 Ada Lovelace 架構(gòu)，Nvidia 做出了許多改變，與 Ampere 相比，其性能提升幅度相當(dāng)大。據(jù)稱，用于射線-三角形相交計(jì)算的加速器的吞吐量提高了一倍，并且現(xiàn)在據(jù)說(shuō)非不透明表面的 BVH 遍歷速度提高了一倍。后者對(duì)于使用帶有 alpha channel （透明度）的紋理的對(duì)象很重要，例如樹上的葉子。

光線擊中此類表面的完全透明部分不應(yīng)導(dǎo)致?lián)糁薪Y(jié)果——光線應(yīng)直接穿過(guò)。然而，為了在當(dāng)前使用光線追蹤的游戲中準(zhǔn)確確定這一點(diǎn)，需要處理多個(gè)其他著色器。Nvidia 的新不透明度微貼圖引擎將這些表面分解成更多的三角形，然后確定到底發(fā)生了什么，從而減少了所需的光線著色器的數(shù)量。

Ada 光線追蹤功能的另外兩個(gè)附加功能是減少 BVH 的構(gòu)建時(shí)間和內(nèi)存占用（聲稱速度分別加快 10 倍和縮小 20 倍），以及為光線著色器重新排序線程的結(jié)構(gòu)，從而提高效率。然而，前者不需要開發(fā)人員對(duì)軟件進(jìn)行任何更改，而后者目前只能通過(guò) Nvidia 的 API 訪問(wèn)，因此對(duì)當(dāng)前的 DirectX 12 游戲沒有任何好處。

當(dāng)我們測(cè)試 GeForce RTX 4090 的光線追蹤性能時(shí)，啟用光線追蹤后幀速率的平均下降略低于 45%。使用 Ampere 驅(qū)動(dòng)的 GeForce RTX 3090 Ti 時(shí)，下降了 56%。然而，這種改進(jìn)不能完全歸因于 RT 核心的改進(jìn)，因?yàn)?4090 比以前的型號(hào)具有更多的著色吞吐量和緩存。

我們還沒有看到 RDNA 3 的光線追蹤改進(jìn)會(huì)產(chǎn)生什么樣的差異，但值得注意的是，沒有一家 GPU 制造商期望單獨(dú)使用 RT – 即仍然需要使用升級(jí)來(lái)實(shí)現(xiàn)高幀速率。

光線追蹤的粉絲可能會(huì)有些失望，因?yàn)樾乱惠喌膱D形處理器在這一領(lǐng)域沒有取得任何重大進(jìn)展，但自 2018 年 Nvidia 圖靈架構(gòu)首次出現(xiàn)以來(lái)，已經(jīng)取得了很多進(jìn)展。

內(nèi)存：沿著數(shù)據(jù)高速公路行駛

GPU 處理數(shù)據(jù)的方式與其他芯片不同，而讓 ALU 保持?jǐn)?shù)據(jù)輸入對(duì)其性能至關(guān)重要。在 PC 圖形處理器的早期，內(nèi)部幾乎沒有任何緩存，全局內(nèi)存（整個(gè)芯片使用的 RAM）是非常慢的 DRAM。即使就在10年前，情況也沒有好多少。

因此，讓我們從 AMD 新架構(gòu)中的內(nèi)存層次結(jié)構(gòu)開始，深入了解當(dāng)前的情況。自第一次迭代以來(lái)，RDNA 使用了復(fù)雜的多級(jí)內(nèi)存層次結(jié)構(gòu)。最大的變化發(fā)生在一年前，當(dāng)時(shí) GPU 中添加了大量的 L3 緩存，在某些型號(hào)中高達(dá) 128MB。

第三輪的情況仍然如此，但有一些微妙的變化。

Nvidia 保留了與 Ampere 中使用的相同的內(nèi)存結(jié)構(gòu)，每個(gè) SM 具有 128kB 的緩存，充當(dāng) L1 數(shù)據(jù)存儲(chǔ)、共享內(nèi)存和紋理緩存。可用于不同角色的數(shù)量是動(dòng)態(tài)分配的。目前尚未提及 L1 帶寬的任何變化，但在 Ampere 中，每個(gè) SM 每個(gè)時(shí)鐘周期為 128 字節(jié)。Nvidia 從未明確明確這一數(shù)字是累積的、結(jié)合讀寫的，還是僅針對(duì)一個(gè)方向的。

如果 Ada 至少與 Ampere 相同，那么所有 SM 的總 L1 帶寬將達(dá)到每個(gè)時(shí)鐘 18 kB，遠(yuǎn)大于 RDNA 2 和 Alchemist。

但必須再次強(qiáng)調(diào)的是，這些芯片不具有直接可比性，因?yàn)橛⑻貭柕男酒亲鳛橹卸水a(chǎn)品定價(jià)和銷售的，而 AMD 已明確表示Navi 31 的設(shè)計(jì)目的從來(lái)不是為了與 Nvidia 的 AD102 競(jìng)爭(zhēng)。它的競(jìng)爭(zhēng)對(duì)手是 AD103，它比 AD102 小得多。

內(nèi)存層次結(jié)構(gòu)的最大變化是，在完整的 AD102 芯片中，L2 緩存已增加到 96MB，是其前身 GA102 的 16 倍。與英特爾的系統(tǒng)一樣，L2 進(jìn)行分區(qū)并與 32 位 GDDR6X 內(nèi)存控制器配對(duì)，以實(shí)現(xiàn)高達(dá) 384 位的 DRAM 總線寬度。

較大的緩存通常比較小的緩存具有更長(zhǎng)的延遲，但由于時(shí)鐘速度的提高和總線的一些改進(jìn)，Ada Lovelace 顯示出比 Ampere更好的緩存性能。

如果我們比較所有三個(gè)系統(tǒng)，英特爾和 Nvidia 對(duì) L1 緩存采取相同的方法 -——它可以用作只讀數(shù)據(jù)緩存或計(jì)算共享內(nèi)存。對(duì)于后者，需要通過(guò)軟件明確指示 GPU 以這種格式使用它，并且數(shù)據(jù)僅在使用它的線程處于活動(dòng)狀態(tài)時(shí)保留。這增加了系統(tǒng)的復(fù)雜性，但對(duì)計(jì)算性能產(chǎn)生了有用的提升。

在 RDNA 3 中，“L1”數(shù)據(jù)緩存和共享內(nèi)存被分為兩個(gè) 32kB L0 矢量緩存和一個(gè) 128kB 本地?cái)?shù)據(jù)共享。AMD 所謂的 L1 緩存實(shí)際上是一組四個(gè) DCU 和 L2 緩存之間用于只讀數(shù)據(jù)的共享墊腳石（shared stepping stone）。

雖然緩存帶寬沒有 Nvidia 的那么高，但多層方法有助于解決這個(gè)問(wèn)題，尤其是在 DCU 未得到充分利用的情況下。

巨大的處理器范圍的緩存系統(tǒng)通常不是 GPU 的最佳選擇，這就是為什么我們?cè)谝郧暗募軜?gòu)中沒有看到超過(guò) 4 或 6MB 的緩存系統(tǒng)，但 AMD、Intel 和 Nvidia 都在最后一層是應(yīng)對(duì) DRAM 速度增長(zhǎng)相對(duì)不足的問(wèn)題。

向 GPU 添加大量?jī)?nèi)存控制器可以提供充足的帶寬，但代價(jià)是芯片尺寸增加和制造費(fèi)用增加，而 HBM3 等替代方案的使用成本要高得多。

我們還沒有看到 AMD 的系統(tǒng)最終表現(xiàn)如何，但他們?cè)?RDNA 2 中的四層方法在與 Ampere 的對(duì)抗中表現(xiàn)良好，并且比英特爾的系統(tǒng)要好得多。然而，隨著 Ada 加入了更多的 L2，競(jìng)爭(zhēng)不再那么簡(jiǎn)單。

芯片封裝和工藝節(jié)點(diǎn)：建造的不同方式

AMD、英特爾和 Nvidia 有一個(gè)共同點(diǎn)——他們都使用臺(tái)積電來(lái)制造 GPU。

AMD在Navi 31中的GCD和MCD使用了兩種不同的節(jié)點(diǎn)，前者使用N5節(jié)點(diǎn)，后者使用N6（N7的增強(qiáng)版本）。英特爾還在其所有 Alchemist 芯片中使用 N6。在 Ampere 中，Nvidia 使用了三星舊的 8nm 工藝，但在 Ada 中，他們轉(zhuǎn)回臺(tái)積電及其 N4 工藝，這是 N5 的變體。

N4 擁有所有節(jié)點(diǎn)中最高的晶體管密度和最佳的性能功耗比，但當(dāng) AMD 推出 RDNA 3 時(shí)，他們強(qiáng)調(diào)只有邏輯電路的密度出現(xiàn)了顯著增加。

SRAM（用于高速緩存）和模擬系統(tǒng)（用于存儲(chǔ)器、系統(tǒng)和其他信號(hào)電路）微縮相對(duì)較小。再加上新工藝節(jié)點(diǎn)每晶圓價(jià)格的上漲，AMD 決定使用稍舊且更便宜的 N6 來(lái)制造 MCD，因?yàn)檫@些小芯片主要是 SRAM 和 I/O。

就芯片尺寸而言，GCD比Navi 21 小 42%，為 300 mm 2。每個(gè) MCD 僅 37mm 2，因此 Navi 31 的組合芯片面積與其前身大致相同。AMD 僅公布了所有小芯片的晶體管總數(shù)，但這款新 GPU 數(shù)量達(dá)到 580 億個(gè)，是他們有史以來(lái)“最大的”消費(fèi)類圖形處理器。

為了將每個(gè) MCD 連接到 GCD，AMD 使用了所謂的高性能扇出——密集的走線，占用的空間非常小。Infinity Links（AMD 專有的互連和信號(hào)系統(tǒng)）運(yùn)行速度高達(dá) 9.2Gb/s，每個(gè) MCD 的鏈路寬度為 384 位，MCD 到 GCD 的帶寬達(dá)到 883GB/s（雙向）。

對(duì)于單個(gè) MCD，這相當(dāng)于高端顯卡的全局內(nèi)存帶寬。Navi 31 中全部有 6 個(gè)，L2 到 MCD 的總帶寬達(dá)到 5.3TB/s。

與傳統(tǒng)的單片芯片相比，使用復(fù)雜的扇出意味著芯片封裝的成本將會(huì)更高，但該工藝是可擴(kuò)展的——不同的 SKU 可以使用相同的 GCD，但 MCD 的數(shù)量不同。較小尺寸的單個(gè)小芯片芯片應(yīng)該會(huì)提高晶圓產(chǎn)量，但沒有跡象表明 AMD 是否在 MCD 的設(shè)計(jì)中納入了任何冗余。

如果沒有，則意味著任何在 SRAM 中存在缺陷的小芯片，這些缺陷會(huì)導(dǎo)致內(nèi)存陣列的該部分無(wú)法使用，那么它們將必須被分類用于低端型號(hào) SKU，或者根本不使用。

AMD 迄今為止僅發(fā)布了兩款 RDNA 3 顯卡（Radeon RX 7900 XT 和 XTX），但在這兩種型號(hào)中，MCD 均具有 16MB 緩存。如果下一輪 Radeon 卡配備 256 位內(nèi)存總線和 64MB L3 緩存，那么它們也需要使用“完美”的 16MB 芯片。

然而，由于它們的面積非常小，單個(gè) 300mm 晶圓可能會(huì)產(chǎn)生超過(guò) 1500 個(gè) MCD。即使其中 50% 必須報(bào)廢，這仍然足以提供 125 個(gè) Navi 31 封裝。

我們還需要一段時(shí)間才能知道 AMD 的設(shè)計(jì)實(shí)際上具有多大的成本效益，但該公司現(xiàn)在和將來(lái)都完全致力于使用這種方法，盡管僅限于更大的 GPU。預(yù)算 RNDA 3 模型的緩存量要少得多，將繼續(xù)使用單片制造方法，因?yàn)檫@種制造方法更具成本效益。

英特爾的ACM-G10處理器尺寸為406mm 2，晶體管總數(shù)為217億個(gè)，在組件數(shù)量和芯片面積方面介于AMD的Navi 21和Nvidia的GA104之間。

這實(shí)際上使它成為一個(gè)相當(dāng)大的處理器，這就是為什么英特爾選擇 GPU 的市場(chǎng)領(lǐng)域似乎有些奇怪的原因。Arc A770顯卡采用完整的 ACM-G10 芯片，與 Nvidia 的 GeForce RTX 3060等顯卡進(jìn)行競(jìng)爭(zhēng)，后者使用的芯片尺寸和晶體管數(shù)量只有英特爾一半。

那么為什么它這么大呢？可能的原因有兩個(gè)：16MB 的二級(jí)緩存和每個(gè) XEC 中的矩陣單元數(shù)量非常多。采用前者的決定是合乎邏輯的，因?yàn)樗鼫p輕了全局內(nèi)存帶寬的壓力，但后者很容易被認(rèn)為對(duì)其銷售的領(lǐng)域來(lái)說(shuō)是過(guò)多的。RTX 3060 有 112 個(gè) Tensor 核心，而 A770 有 512 個(gè) XMX單元。

英特爾的另一個(gè)奇怪的選擇是使用臺(tái)積電 N6 來(lái)制造 Alchemist 芯片，而不是他們自己的工廠。關(guān)于此事的官方聲明引用了成本、晶圓廠產(chǎn)能和芯片工作頻率等因素。

這表明英特爾的同等生產(chǎn)設(shè)施（使用更名后的intel 7節(jié)點(diǎn)）將無(wú)法滿足預(yù)期需求，其Alder和Raptor Lake CPU占據(jù)了大部分產(chǎn)能。

他們會(huì)將 CPU 輸出的相對(duì)下降以及這對(duì)收入的影響與使用 Alchemist 獲得的收益進(jìn)行比較。簡(jiǎn)而言之，最好付錢給臺(tái)積電制造新的 GPU。

AMD 利用其多芯片專業(yè)知識(shí)并開發(fā)了用于制造大型 RDNA 3 GPU 的新技術(shù)，而 Nvidia 則堅(jiān)持 Ada 系列的單片設(shè)計(jì)。GPU 公司在制造超大型處理器方面擁有豐富的經(jīng)驗(yàn)，但 608mm2 的AD102 并不是其發(fā)布的物理上最大的芯片（這一榮譽(yù)頒給了826mm2的GA100）。然而，Nvidia 擁有 763 億個(gè)晶體管，其組件數(shù)量遠(yuǎn)遠(yuǎn)領(lǐng)先于迄今為止任何消費(fèi)級(jí) GPU。

相比之下，GeForce RTX 3080 及更高版本中使用的 GA102 顯得輕量級(jí)，只有 268 億。這 187% 的增長(zhǎng)得益于 SM 數(shù)量的 71% 增長(zhǎng)和 L2 緩存數(shù)量的 1500% 的提升。

如此大而復(fù)雜的芯片總是難以實(shí)現(xiàn)完美的晶圓良率，這就是為什么之前的高端 Nvidia GPU 催生了眾多 SKU。通常，隨著新架構(gòu)的推出，他們的專業(yè)顯卡系列（例如 A 系列、Tesla 等）首先發(fā)布。

當(dāng) Ampere 發(fā)布時(shí)，GA102 出現(xiàn)在兩款消費(fèi)級(jí)卡中，并最終在 14 種不同的產(chǎn)品中找到了應(yīng)用。到目前為止，Nvidia 僅選擇在兩款產(chǎn)品中使用 AD102：GeForce RTX 4090和RTX 6000。不過(guò)，后者自 9 月份出現(xiàn)以來(lái)一直無(wú)法購(gòu)買。

RTX 4090 使用的芯片更接近分箱過(guò)程，禁用了 16 個(gè) SM 和 24MB 二級(jí)緩存，而 RTX 6000 僅禁用了兩個(gè) SM。這就讓人不禁要問(wèn)：剩下的die在哪里？

但由于沒有其他產(chǎn)品使用 AD102，我們只能假設(shè) Nvidia 正在儲(chǔ)備它們，盡管其他產(chǎn)品的用途尚不清楚。

GeForce RTX 4080使用 AD103，其尺寸為 379mm2和 459 億個(gè)晶體管，與它的大哥完全不同——更小的芯片（80 個(gè) SM、64MB 二級(jí)緩存）應(yīng)該會(huì)帶來(lái)更好的產(chǎn)量，但同樣只有一種產(chǎn)品使用它。

他們還發(fā)布了另一款 RTX 4080，其中一款使用了較小的 AD104，但由于收到的批評(píng)而取消了發(fā)布。預(yù)計(jì)這款 GPU 現(xiàn)在將用于推出RTX 4070 系列。

Nvidia 顯然擁有大量基于 Ada 架構(gòu)構(gòu)建的 GPU，但似乎也非常不愿意發(fā)貨。造成這種情況的原因之一可能是他們正在等待安培驅(qū)動(dòng)的顯卡上架；另一個(gè)事實(shí)是，它主導(dǎo)了一般用戶和工作站市場(chǎng)，并且可能認(rèn)為它現(xiàn)在不需要提供任何其他東西。

但考慮到 AD102 和 103 提供的原始計(jì)算能力有了顯著提高，Ada 專業(yè)卡的數(shù)量如此之少就有些令人費(fèi)解了——該行業(yè)總是渴望更多的處理能力。

Superstar DJs: 顯示和媒體引擎

當(dāng)談到 GPU 的媒體和顯示引擎時(shí)，與 DirectX 12 功能或晶體管數(shù)量等方面相比，它們通常采用幕后營(yíng)銷方法。但隨著游戲流媒體行業(yè)產(chǎn)生數(shù)十億美元的收入，我們開始看到更多的努力來(lái)開發(fā)和推廣新的顯示功能。

對(duì)于 RDNA 3，AMD 更新了許多組件，最值得注意的是對(duì) DisplayPort 2.1 和 HDMI 2.1a 的支持。鑒于監(jiān)督 DisplayPort 規(guī)范的組織 VESA在 2022 年底才發(fā)布 2.1 版本，GPU 供應(yīng)商如此迅速地采用該系統(tǒng)是一個(gè)不尋常的舉動(dòng)。

新顯示引擎支持的最快 DP 傳輸模式是 UHBR13.5，最大 4 通道傳輸速率為 54 Gbps。對(duì)于標(biāo)準(zhǔn)時(shí)序下 4K 分辨率、144Hz 刷新率、無(wú)任何壓縮的情況來(lái)說(shuō)，這已經(jīng)足夠了。

使用 DSC（顯示流壓縮：Display Stream Compression），DP2.1 連接允許高達(dá) 4K@480Hz 或 8K@165Hz - 比 RDNA 2 中使用的 DP1.4a 有了顯著改進(jìn)。

英特爾的 Alchemist 架構(gòu)采用具有 DP 2.0（UHBR10，40 Gbps）和 HDMI 2.1 輸出的顯示引擎，盡管并非所有使用該芯片的 Arc 系列顯卡都可以利用最大功能。

雖然ACM-G10并不針對(duì)高分辨率游戲，但采用最新的顯示連接規(guī)格意味著可以在沒有任何壓縮的情況下使用電子競(jìng)技顯示器（例如1080p、360Hz）。該芯片可能無(wú)法在此類游戲中呈現(xiàn)如此高的幀速率，但至少顯示引擎可以。

AMD 和英特爾對(duì) DP 和 HDMI 中快速傳輸模式的支持正是您對(duì)全新架構(gòu)的期望，因此 Nvidia 選擇不對(duì) Ada Lovelace 這樣做有點(diǎn)不協(xié)調(diào)。

AD102 對(duì)于所有晶體管（幾乎與 Navi 31 和 ACM-G10 加在一起相同）僅具有具有 DP1.4a 和 HDMI 2.1 輸出的顯示引擎。對(duì)于 DSC，前者對(duì)于 4K@144Hz 來(lái)說(shuō)已經(jīng)足夠好了，但是當(dāng)競(jìng)爭(zhēng)對(duì)手支持不壓縮的情況下，這顯然是錯(cuò)失機(jī)會(huì)。

GPU 中的媒體引擎負(fù)責(zé)視頻流的編碼和解碼，所有三個(gè)供應(yīng)商在其最新架構(gòu)中都擁有豐富的功能集。

在 RDNA 3 中，AMD 添加了針對(duì) AV1 格式的完整同步編碼/解碼（僅在之前的 RDNA 2 中進(jìn)行解碼）。關(guān)于新媒體引擎的信息并不多，只是它可以同時(shí)處理兩個(gè) H.264/H.265 流，并且 AV1 的最大速率為 8K@60Hz。AMD 還簡(jiǎn)要提到了“AI 增強(qiáng)”視頻解碼，但沒有提供更多細(xì)節(jié)。

英特爾的 ACM-G10 具有類似的功能范圍，可用于 AV1、H.264 和 H.265 的編碼/解碼，但與 RDNA 3 一樣，細(xì)節(jié)非常少。對(duì) Arc 桌面顯卡中的首批 Alchemist 芯片的一些早期測(cè)試表明，媒體引擎至少與 AMD 和 Nvidia 在其先前架構(gòu)中提供的媒體引擎一樣好。

Ada Lovelace 也采用了 AV1 編碼和解碼，Nvidia 聲稱新系統(tǒng)的編碼效率比 H.264 高 40%，表面上看，使用新格式時(shí)視頻質(zhì)量提高了 40%。

高端 GeForce RTX 40 系列顯卡將配備配備兩個(gè) NVENC 編碼器的 GPU，您可以選擇以 60Hz 編碼 8K HDR，或改進(jìn)視頻導(dǎo)出的并行化，每個(gè)編碼器同時(shí)處理半幀。

GPU 的下一步是什么？

桌面 GPU 市場(chǎng)上已經(jīng)有三個(gè)供應(yīng)商了，很明顯，每個(gè)供應(yīng)商都有自己的圖形處理器設(shè)計(jì)方法，盡管英特爾和 Nvidia 也采取了類似的思維方式。

對(duì)于他們來(lái)說(shuō)，Ada 和 Alchemist 在某種程度上是萬(wàn)事通，可用于各種游戲、科學(xué)、媒體和數(shù)據(jù)工作負(fù)載。ACM-G10 中對(duì)矩陣和張量計(jì)算的高度重視以及不愿完全重新設(shè)計(jì)其 GPU 布局表明英特爾更傾向于科學(xué)和數(shù)據(jù)，而不是游戲，但考慮到這些領(lǐng)域的潛在增長(zhǎng)，這是可以理解的。

對(duì)于最后三種架構(gòu)，Nvidia 專注于改進(jìn)已經(jīng)很好的架構(gòu)，并減少整體設(shè)計(jì)中的各種瓶頸，例如內(nèi)部帶寬和延遲。雖然 Ada 是對(duì) Ampere 的自然改進(jìn)（Nvidia 多年來(lái)一直遵循這一主題），但當(dāng)你觀察晶體管數(shù)量的絕對(duì)規(guī)模時(shí)，AD102 卻顯得異常進(jìn)化。

與 GA102 相比，差異非常顯著，但這種巨大的飛躍引發(fā)了許多問(wèn)題。首先，對(duì)于 Nvidia 的最高端消費(fèi)產(chǎn)品來(lái)說(shuō)，AD103 是否是比 AD102 更好的選擇？

與 RTX 4080 中使用的 AD103 相比，AD103 的性能比 RTX 3090 有了相當(dāng)大的改進(jìn)，并且與它的大哥一樣，64MB 的二級(jí)緩存有助于抵消相對(duì)較窄的 256 位全局內(nèi)存總線寬度。它的尺寸為 379mm2，比 GeForce RTX 3070 中使用的 GA104 小，因此制造利潤(rùn)比 AD102 高得多。它還包含與 GA102 相同數(shù)量的 SM，并且該芯片最終在 15 種不同的產(chǎn)品中得到了應(yīng)用。

另一個(gè)值得問(wèn)的問(wèn)題是，Nvidia 在架構(gòu)和制造方面將走向何方？他們能否在仍堅(jiān)持使用單片芯片的情況下實(shí)現(xiàn)類似的縮放水平？

AMD 對(duì) RDNA 3 的選擇凸顯了競(jìng)爭(zhēng)的潛在路線。通過(guò)將芯片中規(guī)模最差的部分（在新工藝節(jié)點(diǎn)中）轉(zhuǎn)移到單獨(dú)的小芯片中，AMD 已經(jīng)能夠成功地延續(xù) RDNA 和 RDNA 2 之間的大型制造和設(shè)計(jì)飛躍。

雖然它不像 Nvidia 的 AD102 那么大，但 AMD Navi 31 的硅片價(jià)值仍然高達(dá) 580 億個(gè)晶體管，是 Navi 21 的兩倍多，也是我們最初的 RDNA GPU Navi 10 的 5 倍多（盡管這不是 Navi 21 的兩倍）。

AMD 和 Nvidia 的成就并不是孤立取得的。GPU 晶體管數(shù)量如此大幅增加的唯一原因是臺(tái)積電和三星之間作為半導(dǎo)體設(shè)備主要制造商的激烈競(jìng)爭(zhēng)。兩者都致力于提高邏輯電路的晶體管密度，同時(shí)繼續(xù)降低功耗。臺(tái)積電對(duì)于當(dāng)前的節(jié)點(diǎn)改進(jìn)及其下一步的主要工藝有明確的路線圖。

目前尚不清楚 Nvidia 是否會(huì)效仿 AMD 的做法，并在 Ada 的繼任者中采用小芯片布局，但接下來(lái)的一兩年可能會(huì)起到?jīng)Q定性作用。如果 RDNA 3 被證明在財(cái)務(wù)上取得了成功，無(wú)論是在收入還是總出貨量方面，那么 Nvidia 很可能會(huì)效仿。

然而，第一個(gè)使用 Ampere 架構(gòu)的芯片是 GA100——一款數(shù)據(jù)中心 GPU，尺寸為829mm2 ，擁有 542 億個(gè)晶體管。它由 TSMC 使用其 N7 節(jié)點(diǎn)制造（與 RDNA 和大多數(shù) RDNA 2 系列相同）。使用 N4 來(lái)制造 AD102，使得 Nvidia 能夠設(shè)計(jì)出晶體管密度幾乎是其前身的兩倍的 GPU。

在下一個(gè)架構(gòu)中使用 N2 可以實(shí)現(xiàn)這一目標(biāo)嗎？有可能，但緩存的大幅增長(zhǎng)（擴(kuò)展性非常差）表明，即使臺(tái)積電在未來(lái)的節(jié)點(diǎn)上取得了一些引人注目的成績(jī)，控制 GPU 大小也將變得越來(lái)越困難。

英特爾已經(jīng)在使用小芯片，但僅限于其巨大的Ponte Vecchio數(shù)據(jù)中心 GPU。由47塊不同的tiles組成，當(dāng)中有些是臺(tái)積電制造的，有些是英特爾自己制造的，其參數(shù)相當(dāng)高。例如，完整的雙 GPU 配置擁有超過(guò) 1000 億個(gè)晶體管，這使得 AMD 的 Navi 31 看起來(lái)非常“小”。當(dāng)然，它不適用于任何類型的臺(tái)式電腦，嚴(yán)格來(lái)說(shuō)也“不僅僅是”GPU——這是一個(gè)數(shù)據(jù)中心處理器，重點(diǎn)關(guān)注矩陣和張量工作負(fù)載。

在轉(zhuǎn)向“Xe Next”之前，其 Xe-HPG 架構(gòu)至少還要進(jìn)行兩次修訂，我們很可能會(huì)在英特爾消費(fèi)類顯卡中看到平鋪的使用。

不過(guò)，目前，我們將讓 Ada 和 Alchemist 使用傳統(tǒng)的單片芯片，而 AMD 則將混合芯片系統(tǒng)用于中高端卡，并為其預(yù)算 SKU 使用單芯片。

到本世紀(jì)末，我們可能會(huì)看到幾乎所有類型的圖形處理器，它們都是由精選的不同tile和小芯片構(gòu)建而成，全部使用各種工藝節(jié)點(diǎn)制成。GPU 仍然是臺(tái)式電腦中最引人注目的工程壯舉之一——晶體管數(shù)量沒有顯示出增長(zhǎng)放緩的跡象，而今天普通顯卡的計(jì)算能力在大約 10 年前只能是夢(mèng)想。

讓我們進(jìn)入下一場(chǎng)三向架構(gòu)之戰(zhàn)吧！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

英特爾

英特爾

+關(guān)注

關(guān)注
61

文章
9953

瀏覽量
171699
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4729

瀏覽量
128897
圖形處理器

圖形處理器

+關(guān)注

關(guān)注
0

文章
198

瀏覽量
25541

原文標(biāo)題：GPU巨頭，拼什么？

文章出處：【微信號(hào)：wc_ysj，微信公眾號(hào)：旺材芯片】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

《CST Studio Suite 2024 GPU加速計(jì)算指南》

《GPU Computing Guide》是由Dassault Systèmes Deutschland GmbH發(fā)布的有關(guān)CST Studio Suite 2024的GPU計(jì)算指南。涵蓋GPU計(jì)算

發(fā)表于 12-16 14:25

拼多多第三季度財(cái)報(bào)發(fā)布：營(yíng)收增長(zhǎng)44%

近日，拼多多發(fā)布了其截至2024年9月30日的第三季度未經(jīng)審計(jì)財(cái)務(wù)報(bào)告。報(bào)告顯示，拼多多在該季度實(shí)現(xiàn)了總營(yíng)收993.544億元人民幣，較去年同期增長(zhǎng)了44%，但略低于市場(chǎng)預(yù)期的1028.3億元

發(fā)表于 11-22 11:11 ?984次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

本篇閱讀學(xué)習(xí)第七、八章，了解GPU架構(gòu)演進(jìn)及CPGPU存儲(chǔ)體系與線程管理 █從圖形到計(jì)算的GPU架構(gòu)演進(jìn) GPU圖像計(jì)算發(fā)展 ●從三角形開始的幾何階段在現(xiàn)代圖形渲染中，三角形是最常用的基本圖形元素

發(fā)表于 11-03 12:55

【一文看懂】大白話解釋“GPU與GPU算力”

隨著大模型的興起，“GPU算力”這個(gè)詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計(jì)等工作場(chǎng)景中，什么是GPU，它與CPU的區(qū)別是什么？以及到底什么是GPU算力？本篇文章主要從以下5個(gè)角度，讓您全方位了解

發(fā)表于 10-29 08:05 ?572次閱讀

【一文看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

常見GPU問(wèn)題及解決方法

GPU（圖形處理單元）是計(jì)算機(jī)硬件的重要組成部分，負(fù)責(zé)處理圖形和視頻渲染任務(wù)。隨著技術(shù)的發(fā)展，GPU在深度學(xué)習(xí)、游戲、視頻編輯等領(lǐng)域扮演著越來(lái)越重要的角色。然而，在使用GPU的過(guò)程中，我們可能會(huì)遇到

發(fā)表于 10-27 14:12 ?1239次閱讀

如何選擇適合的GPU

在現(xiàn)代計(jì)算領(lǐng)域，GPU（圖形處理單元）的作用已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的圖形渲染。從深度學(xué)習(xí)到科學(xué)計(jì)算，再到視頻編輯，GPU都在發(fā)揮著越來(lái)越重要的作用。然而，市場(chǎng)上的GPU型號(hào)繁多，性能和價(jià)格也各不相同

發(fā)表于 10-27 11:07 ?285次閱讀

ARM進(jìn)軍GPU領(lǐng)域，挑戰(zhàn)英偉達(dá)與英特爾

英國(guó)芯片設(shè)計(jì)巨頭ARM正悄然在以色列拉阿納納的研發(fā)中心布局其GPU（圖形處理器）戰(zhàn)略，意圖在全球圖形處理市場(chǎng)與英偉達(dá)和英特爾等業(yè)界巨頭一較高下。據(jù)悉，ARM已在該開發(fā)中心組建了一支由約100名精英芯片與軟件工程師構(gòu)成的全球圖形處

發(fā)表于 08-21 10:19 ?493次閱讀