色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AMD帶領(lǐng)GPU進(jìn)入Chiplet時(shí)代 RDNA3架構(gòu)深入解讀

Hack電子 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-06-12 10:14 ? 次閱讀

11月3日,AMD 透露了其 RDNA 3 GPU 架構(gòu)和 Radeon RX 7900 系列顯卡的關(guān)鍵細(xì)節(jié)。這是一個公開宣布,全世界都被邀請觀看。宣布后不久,AMD 邀請媒體和分析師進(jìn)行了閉門采訪,以更深入地研究是什么讓 RDNA 3 起作用——或者它是否起作用?

對架構(gòu)的深入研究主要集中在 RX 7900 XTX/XT (Navi 31) GPU 上,但在接下來的幾個月中,我們了解了更多細(xì)節(jié)。這些 GPU 旨在與Nvidia Ada Lovelace 和 RTX 40 系列 GPU競爭,以打造最佳顯卡. 我們從 AMD 提供的其他簡報(bào)中獲得了額外的 RDNA 3 詳細(xì)信息,我們將立即對其進(jìn)行分類。自從我們最初發(fā)布此 RDNA 3 架構(gòu)深入研究以來,我們已經(jīng)審查了Radeon RX 7900 XTX 和 7900 XT,以及Radeon RX 7600。

由于使用了Chiplet設(shè)計(jì),AMD 的 RDNA 3 架構(gòu)從根本上改變了 GPU 的幾個關(guān)鍵設(shè)計(jì)元素。這是一個很好的起點(diǎn)。

AMD 已經(jīng)正式推出了 RX 7900 XTX/XT 和 RX 7600。介于 RX 7800 系列和 RX 7700 系列之間的部分仍然是 MIA,但有傳言稱它們可能會在 2023 年 7 月到達(dá)。所有規(guī)格和細(xì)節(jié)都在7800/7700 是目前最好的猜測。

在頂部,AMD 為 Navi 31 提供了多達(dá) 96 個計(jì)算單元 (CU),但這并不能說明全部情況。相對于之前的 RDNA 2 架構(gòu),每個 GPU“核心”的吞吐量都翻了一番。因此,RX 7900 XTX 上的 6144 個內(nèi)核提供理論上 61.4 teraflops 的 FP32 性能,是 FP16 的兩倍。相比之下,RX 6950 XT 有 5120 個內(nèi)核,但計(jì)算能力僅為 23.7 teraflops。

L0/L1/L2 緩存的緩存大小更大,但 Infinity Cache(即 L3)在 7900 XTX 上已減少到最大 96MB。其他 GPU 包括每個 64 位接口 16MB 的緩存。

與 RDNA 2 代相比,時(shí)鐘速度有所提高,具體取決于您正在查看的 GPU。Navi 21 部件的官方加速時(shí)鐘高達(dá) 2.31 GHz,而 Navi 31 將其增加到 2.5 GHz。然而,其他 Navi 2x GPU 的時(shí)鐘頻率往往已經(jīng)在 2.5 GHz 范圍內(nèi)。

到目前為止,定價(jià)至少在理論上與上一代產(chǎn)品相當(dāng)或更好。實(shí)際上,一旦以太坊挖礦結(jié)束,之前的部分價(jià)格暴跌,目前 RX 6950 XT 的售價(jià)為 600 ~ 700 美元。同樣,RX 7600 的廠商建議零售價(jià)為 269 美元,而之前的 RX 6650 XT 的廠商建議零售價(jià)為 399 美元,但至少從 10 月開始,6650 XT 的售價(jià)一直在 250 美元至 275 美元之間。

讓我們繼續(xù)討論 RDNA 3 架構(gòu)的其他細(xì)節(jié)。

AMD RDNA 3 和 GPU 小芯片

Navi 31 由兩個核心部分組成,即圖形計(jì)算芯片 (GCD) 和內(nèi)存緩存芯片 (MCD)。這與 AMD 對其 Zen 2/3/4 CPU 所做的事情有相似之處,但一切都經(jīng)過調(diào)整以適應(yīng)圖形世界的需求。

629d4318-08c5-11ee-962d-dac502259ad0.png

對于 Zen 2 及更高版本的 CPU,AMD 使用連接到系統(tǒng)內(nèi)存的輸入/輸出芯片 (IOD),并為 PCIe Express 接口、USB 端口以及最近的 (Zen 4) 圖形和視頻等提供所有必要的功能功能。IOD 然后通過 AMD 的 Infinity Fabric 連接到一個或多個核心計(jì)算芯片(CCD — 或者“核心復(fù)雜芯片”),CCD 包含 CPU 核心、緩存和其他元素。

62fcbfdc-08c5-11ee-962d-dac502259ad0.png

設(shè)計(jì)中的一個關(guān)鍵點(diǎn)是典型的通用計(jì)算算法——在 CPU 內(nèi)核上運(yùn)行的東西——將主要適合各種 L1/L2/L3 緩存。直到 Zen 4 的現(xiàn)代 CPU 只有兩個用于系統(tǒng) RAM 的 64 位內(nèi)存通道(盡管EPYC Genoa 服務(wù)器處理器最多可以有十二個 DDR5 通道)。

6325122a-08c5-11ee-962d-dac502259ad0.png

CCD 很小,IOD 范圍從大約 125mm2(Ryzen 3000)到 416mm2(EPYC xxx2 代)。最近,Zen 4 Ryzen 7000 系列 CPU 的 IOD 使用 TSMC N6 制造,尺寸僅為 122mm2,帶有一個或兩個在 TSMC N5 上制造的 70mm2 CCD,而 EPYC xxx4 代使用相同的 CCD,但具有相對巨大的 IOD 尺寸為 396mm2(仍由 TSMC N6 制造)。

6336b7dc-08c5-11ee-962d-dac502259ad0.png

GPU 有非常不同的要求。大型緩存可以提供幫助,但 GPU 也非常喜歡擁有大量內(nèi)存帶寬來滿足所有 GPU 核心的需求。例如,即使是配備 12 通道 DDR5 配置的 EPYC 9654 也“僅”提供高達(dá) 460.8 GB/s 的帶寬。RTX 4090 等最快的顯卡可以輕松將其翻倍。

換句話說,AMD 需要做一些不同的事情來讓 GPU 小芯片有效地工作。該解決方案最終幾乎與 CPU 小芯片相反,內(nèi)存控制器和緩存被放置在多個較小的芯片上,而主要計(jì)算功能位于中央 GCD 小芯片中。

GCD 包含所有計(jì)算單元 (CU) 以及其他核心功能,如視頻編解碼器硬件、顯示接口和 PCIe 連接。Navi 31 GCD 有多達(dá) 96 個 CU,這是典型的圖形處理發(fā)生的地方。但它的頂部和底部邊緣也有一個 Infinity Fabric(通過某種總線連接到芯片的其余部分),然后連接到 MCD。

MCD,顧名思義(Memory Cache Dies)主要包含大型 L3 緩存塊(Infinity Cache),以及物理 GDDR6 內(nèi)存接口。它們還需要包含 Infinity Fabric 鏈接以連接到 GCD,您可以在沿著 MCD 面向中心的邊緣拍攝的芯片中看到這一點(diǎn)。

GCD 使用臺積電的 N5 節(jié)點(diǎn),將 457 億個晶體管封裝到一個 300mm2 的芯片中。與此同時(shí),MCD 建立在臺積電的 N6 節(jié)點(diǎn)上,每個芯片在尺寸僅為 37mm2 的芯片上封裝了 20.5 億個晶體管。高速緩存和外部接口是現(xiàn)代處理器中擴(kuò)展性最差的一些元素,我們可以看到總體上 GCD 平均每 mm2 有 1.523 億個晶體管,而 MCD 平均只有 5540 萬個晶體管/mm2。

這里值得一提的是,雖然 Navi 31(可能還有 Navi 32)使用 GPU 小芯片,但最小的 Navi 33 裸片(用于Radeon RX 7600和其他移動 GPU)由構(gòu)建在臺積電 N6 節(jié)點(diǎn)上的單片裸片組成。成本節(jié)約措施顯然是各種 RDNA 3 設(shè)計(jì)的主要因素。

AMD 的高性能扇出互連

GPU 上的小芯片方法的一個潛在問題是所有 Infinity Fabric 鏈路需要多少功率——外部芯片幾乎總是使用更多功率。例如,Zen CPU 有一個制造成本相對較低的有機(jī)基板中介層,但它消耗 1.5 pJ/b(每比特皮焦耳)。將其擴(kuò)展到 384 位接口會消耗相當(dāng)大的功率,因此 AMD 努力改進(jìn)與 Navi 31 的接口。

63585cfc-08c5-11ee-962d-dac502259ad0.png

結(jié)果就是 AMD 所謂的高性能扇出互連。上圖并沒有把事情說清楚,但左邊較大的接口是 Zen CPU 上使用的有機(jī)基板互連。右邊是 Navi 31 上使用的高性能扇出橋,“大致按比例”。

636d7330-08c5-11ee-962d-dac502259ad0.png

您可以清楚地看到用于 CPU 的 25 根電線,而用于 GPU 的 50 根電線被擠在一個小得多的區(qū)域中,因此您甚至看不到單獨(dú)的電線。對于相同的目的,它大約是高度和寬度的 1/8,這意味著大約是總面積的 1/64。這反過來又大大降低了功耗要求,AMD 表示,所有 Infinity Fanout 鏈接組合起來可提供 3.5 TB/s 的有效帶寬,而僅占 GPU 總功耗的不到 5%。

6380c7be-08c5-11ee-962d-dac502259ad0.png63aeb7be-08c5-11ee-962d-dac502259ad0.png646e8b34-08c5-11ee-962d-dac502259ad0.png

這里有一個有趣的地方:GCD 和 MCD 上的所有 Infinity Fabric 邏輯都占用了相當(dāng)大的裸片空間。從裸片照片來看,GCD 上的六個 Infinity Fabric 接口使用了大約 9% 的裸片面積,而這些接口大約占 MCD 上總裸片尺寸的 15%。

64a29406-08c5-11ee-962d-dac502259ad0.png

去掉 Infinity Fabric 接口并將整個芯片構(gòu)建為臺積電 N5 節(jié)點(diǎn)上的單片部件,它的尺寸可能只有 ~400mm2。顯然,臺積電 N5 的成本遠(yuǎn)高于 N6,因此值得采用小芯片路線,這說明了較小制造節(jié)點(diǎn)的成本不斷增加。要么是這樣,要么是 AMD 正在為未來設(shè)計(jì)架構(gòu),現(xiàn)在接受打擊并希望以后獲得更大的收益。

64c72f5a-08c5-11ee-962d-dac502259ad0.png

與此相關(guān),我們知道芯片設(shè)計(jì)的某些方面可以隨著工藝的縮小而更好地?cái)U(kuò)展。外部接口——比如 GDDR6 物理接口——幾乎停止了擴(kuò)展。緩存的擴(kuò)展性也很差。有趣的是,AMD 的下一代 GPU(Navi 4x / RDNA 4)是否會利用與 RDNA 3 相同的 MCD,同時(shí)將 GCD 轉(zhuǎn)移到 N3 等未來的臺積電節(jié)點(diǎn)。

AMD RDNA 3 架構(gòu)升級

這涉及到設(shè)計(jì)的小芯片方面,所以現(xiàn)在讓我們來看看 GPU 各個部分的架構(gòu)變化。這些可以大致分為四個方面:芯片設(shè)計(jì)的一般變化、GPU 著色器(流處理器)的增強(qiáng)、改進(jìn)光線追蹤性能的更新以及矩陣運(yùn)算硬件的改進(jìn)。

65028f82-08c5-11ee-962d-dac502259ad0.png

查看原始規(guī)格,AMD 似乎并沒有將時(shí)鐘速度提高那么多,但之前我們只有游戲時(shí)鐘數(shù)據(jù)。現(xiàn)在我們可以說加速時(shí)鐘更高了,在一般情況下,AMD 的 RDNA 3 GPU 甚至?xí)^官方的加速時(shí)鐘——換句話說,它們是保守的加速。

AMD 表示 RDNA 3 的設(shè)計(jì)可以達(dá)到 3 GHz 的速度。參考 7900 XTX / XT 上的官方升壓時(shí)鐘遠(yuǎn)低于該標(biāo)記,但我們也認(rèn)為 AMD 的參考設(shè)計(jì)更側(cè)重于最大限度地提高效率。第三方 AIB 卡可以大大提高功率限制、電壓和時(shí)鐘速度。我們會看到 3 GHz 出廠超頻嗎?7900 系列沒有發(fā)生這種情況,但也許其他 GPU 中的一個會走那么遠(yuǎn)。

根據(jù) AMD 的說法,RDNA 3 GPU 可以在使用一半功率的情況下達(dá)到與 RDNA 2 GPU 相同的頻率,或者在使用相同功率的情況下達(dá)到 1.3 倍的頻率。最終,AMD 希望平衡頻率和功率以提供最佳的整體體驗(yàn)。實(shí)際上,頂級 GPU 上的時(shí)鐘比上一代高幾百 MHz。

AMD 提出的另一點(diǎn)是,它已將硅利用率提高了約 20%。換句話說,RDNA 2 GPU 上有一些功能單元,其中部分芯片經(jīng)常處于閑置狀態(tài),即使在卡處于滿載狀態(tài)下也是如此。不幸的是,我們沒有直接衡量這一點(diǎn)的好方法,所以我們會接受 AMD 的話,但最終這應(yīng)該會帶來更高的性能。

AMD RDNA 3 計(jì)算單元增強(qiáng)功能

在小芯片之外,許多最大的變化發(fā)生在計(jì)算單元 (CU) 和工作組處理器 (WGP) 中。其中包括對 L0/L1/L2 緩存大小的更新、用于 FP32 和矩陣工作負(fù)載的更多 SIMD32 寄存器,以及某些元素之間更廣泛和更快的接口。

6528f6cc-08c5-11ee-962d-dac502259ad0.png

AMD 的 Mike Mantor 展示了上面和下面的幻燈片,它們很密集!他基本上在一個小時(shí)的大部分時(shí)間里不停地講話,試圖涵蓋 RDNA 3 架構(gòu)所做的一切,但時(shí)間遠(yuǎn)遠(yuǎn)不夠。上面的幻燈片涵蓋了全局概覽,但讓我們逐步了解一些細(xì)節(jié)。

65b67934-08c5-11ee-962d-dac502259ad0.png

RDNA 3 帶有增強(qiáng)的計(jì)算單元對——成為 RDNA 芯片主要構(gòu)建塊的雙 CU。這與 RDNA 2 不同,但請注意調(diào)度程序和矢量 GPR(通用寄存器)的第一個塊表示“Float / INT / Matrix SIMD32”,然后是第二個塊表示“Float / Matrix SIMD32”。第二個塊是 RDNA 3 的新塊,它基本上意味著浮點(diǎn)吞吐量翻倍。

65e2d240-08c5-11ee-962d-dac502259ad0.png

您可以選擇以兩種方式之一查看事物:每個 CU 現(xiàn)在有 128 個流處理器(SP 或 GPU 著色器),并且您總共獲得 12,288 個著色器 ALU(算術(shù)邏輯單元),或者您可以將其視為 64”與上一代 RDNA 2 CU 相比,F(xiàn)P32 吞吐量恰好翻了一番。

6602a8c2-08c5-11ee-962d-dac502259ad0.png

這有點(diǎn)好笑,因?yàn)橛行┑胤秸f Navi 31 有 6,144 個著色器,而其他地方說有 12,288 個著色器,所以我特地問了 AMD 的首席 GPU 架構(gòu)師和 RDNA 3 設(shè)計(jì)背后的主要負(fù)責(zé)人 Mike Mantor,它是否是 6,144或 12,288。他拿出計(jì)算器,敲了幾個數(shù)字,說:“嗯,應(yīng)該是12288?!?然而,在某些方面,事實(shí)并非如此。

AMD 自己的規(guī)格說 7900 XTX 有 6,144 個 SP 和 96 個 CU,而 7900 XT 有 84 個 CU 和 5,376 個 SP,因此 AMD 正在采取使用較低數(shù)量的方法。但是,原始 FP32 計(jì)算(和矩陣計(jì)算)增加了一倍。就我個人而言,將其稱為每個 CU 128 個 SP 比 64 個更有意義,整體設(shè)計(jì)看起來類似于 Nvidia 的 Ampere 和 Ada Lovelace 架構(gòu)。現(xiàn)在每個流式多處理器 (SM) 有 128 個 FP32 CUDA 內(nèi)核,還有 64 個 INT32 單元。但無論如何,AMD 并沒有使用更大的數(shù)字。

除了額外的 32 位浮點(diǎn)計(jì)算,AMD 還將矩陣 (AI) 吞吐量提高了一倍,并且 AI 矩陣加速器共享許多著色器執(zhí)行資源。AI 單元的新功能是 BF16(大腦浮動 16 位)支持,以及 INT4 WMMA Dot4 指令(波形矩陣乘積),并且與 FP32 吞吐量一樣,矩陣運(yùn)算速度整體提高了 2.7 倍。

這 2.7 倍似乎來自時(shí)鐘對時(shí)鐘性能的總體增長 17.4%,加上 CU 增加 20% 以及每個 CU 的 SIM32 單元增加一倍。

AMD RDNA 3:更大更快的緩存和互連

緩存以及緩存與系統(tǒng)其余部分之間的接口都已升級。例如,L0 緩存現(xiàn)在是 32KB(雙倍 于RDNA 2),L1 緩存是 256KB(又是雙倍于 RDNA 2),而 L2 緩存增加到 6MB(比 RDNA 2 大 1.5 倍)。

6644e5d4-08c5-11ee-962d-dac502259ad0.png

主處理單元和 L1 緩存之間的鏈接現(xiàn)在寬 1.5 倍,每個時(shí)鐘吞吐量為 6144 字節(jié)。同樣,L1 和 L2 緩存之間的鏈接也寬 1.5 倍(每個時(shí)鐘 3072 字節(jié))。

L3 緩存,也稱為 Infinity Cache,相對于 Navi 21 確實(shí)縮小了。現(xiàn)在是 96MB 對 128MB。然而,L3 到 L2 鏈路現(xiàn)在寬了 2.25 倍(每個時(shí)鐘 2304 字節(jié)),因此總吞吐量要大得多更高。事實(shí)上,AMD 給出了 5.3 TB/s 的數(shù)字——在 2.3 GHz 的速度下為 2304 B/clk。RX 6950 XT 只有 1024 B/clk 鏈接到其 Infinity Cache(最大值),RDNA 3 提供高達(dá) 2.7 倍的峰值接口帶寬。

請注意,這些數(shù)字僅適用于 7900 XTX 中完全配置的 Navi 31 解決方案。7900 XT 有五個 MCD,下降到 320 位 GDDR6 接口和 1920 B/clk 鏈接到組合的 80MB Infinity Cache。我們將自然而然地看到較低層級的 RDNA 3 部件,它們會進(jìn)一步縮減接口寬度和性能。

最后,現(xiàn)在有多達(dá)六個 64 位 GDDR6 接口,用于連接到 GDDR6 內(nèi)存的組合 384 位鏈接。VRAM 的時(shí)鐘頻率也為 20 Gbps(后來的 6x50 卡為 18 Gbps,原始 RDNA 2 芯片為 16 Gbps),總帶寬為 960 GB/s。

有趣的是,這一代 GDDR6 和 GDDR6X 之間的差距縮小了多少,至少在出貨配置方面是這樣。AMD 在 RX 7900 XTX 上的 960 GB/s 僅比現(xiàn)在 RTX 4090 的 1008 GB/s 低 5%,而 RX 6900 XT 和 RTX 3090 僅比 Nvidia 的 936 GB/s 高 512 GB/s?;氐?2020 年。Nvidia 當(dāng)然也采用了更大的緩存大小及其Ada Lovelace 架構(gòu)。

AMD RDNA 3:第二代光線追蹤

RDNA 2 架構(gòu)上的光線追蹤總是感覺像是事后才想到的——為了滿足 DirectX 12 Ultimate 所需的功能清單而附加的東西。AMD 的 RDNA 2 GPU 缺乏專用的 BVH 遍歷硬件,選擇通過其他共享單元來完成這項(xiàng)工作,這至少部分歸咎于它們較弱的 RT 性能。

6673c2dc-08c5-11ee-962d-dac502259ad0.png

RDNA 2 射線加速器每個時(shí)鐘最多可以進(jìn)行四次射線/盒子相交,或一次射線/三角形相交。相比之下,英特爾的 Arc Alchemist 每個時(shí)鐘每個 RTU 最多可以進(jìn)行 12 次射線/盒子交叉,而 Nvidia 沒有提供具體數(shù)字,但在 Ampere 上每個 RT 內(nèi)核最多可以進(jìn)行 2 次射線/三角形交叉,最多可以進(jìn)行 4 次射線/Ada Lovelace 上每個時(shí)鐘的三角形交叉點(diǎn)。

66aea820-08c5-11ee-962d-dac502259ad0.png

目前尚不清楚 RDNA 3 是否真的直接改進(jìn)了這些數(shù)字,或者 AMD 是否專注于其他增強(qiáng)功能以減少執(zhí)行的光線/盒子相交的數(shù)量。也許兩者都有。我們所知道的是,RDNA 3 將改進(jìn) BVH(邊界體積層次)遍歷,這將提高光線追蹤性能。

6721a186-08c5-11ee-962d-dac502259ad0.png

RDNA 3 還具有大 1.5 倍的 VGPR(矢量通用寄存器),這意味著飛行中的射線數(shù)量增加了 1.5 倍。還有其他堆棧優(yōu)化可以減少 BVH 遍歷所需的指令數(shù)量,并且可以使用專門的框排序算法(最接近優(yōu)先、最大優(yōu)先、最接近中點(diǎn))來提取提高的效率。

總的來說,由于新功能、更高的頻率和更多的射線加速器數(shù)量,AMD 表示與 RDNA 2 相比,RDNA 3 的射線追蹤性能應(yīng)該提高 1.8 倍。這應(yīng)該會縮小 AMD 和 Nvidia Ampere 之間的差距。盡管如此,Nvidia 似乎還在 Ada Lovelace 的光線追蹤硬件上加倍投入,因此我們不會指望 AMD 能夠提供與 RTX 40 系列 GPU 相當(dāng)?shù)男阅堋?/p>

AMD RDNA 3:其他架構(gòu)改進(jìn)

最后,RDNA 3 調(diào)整了與命令處理器、幾何形狀和像素管道相關(guān)的架構(gòu)的其他元素。還有一個新的雙媒體引擎,支持 AV1 編碼/解碼、AI 增強(qiáng)視頻解碼和新的 Radiance 顯示引擎。

678a1ee6-08c5-11ee-962d-dac502259ad0.png

命令處理器 (CP) 更新應(yīng)提高某些工作負(fù)載的性能,同時(shí)減少驅(qū)動程序和 API 端的 CPU 瓶頸?;谟布奶蕹阅茉谑挛锏膸缀畏矫嬉部炝?50%,并且每個時(shí)鐘的峰值光柵化像素增加了 50%。

最后一個似乎是將 Navi 21 上的 ROP(渲染輸出)數(shù)量從 128 個增加到 Navi 31 上的 192 個的結(jié)果。這是有道理的,因?yàn)閮?nèi)存通道也增加了 50%,AMD 希望擴(kuò)展其他元素與此同步。

雙媒體引擎應(yīng)該使 AMD 在視頻方面與 Nvidia 和 Intel 持平,盡管我們最近的視頻編解碼器質(zhì)量和性能測試表明它仍然落后于 Intel 和 Nvidia。另請注意,AV1 更多的是關(guān)于擺脫 HEVC 的版稅,而不是提高質(zhì)量,盡管性能可能有點(diǎn)不確定。

AMD 還因?yàn)榘瑢?DisplayPort 2.1 的支持而獲得了至少幾點(diǎn)。英特爾的 Arc GPU 也支持 DP2,但最高可達(dá) 40 Gbps (UHBR 10),而 AMD 可以達(dá)到 54 Gbps (UHBR 13.5)。AMD 的顯示輸出可以在 229 Hz 下驅(qū)動高達(dá) 4K,無需壓縮 8 位色深,或 187 Hz 10 位色。Display Stream Compression 可以將其提高一倍以上,允許 4K 和 480 Hz 或 8K 和 165 Hz——并不是說我們離擁有實(shí)際支持這種速度的顯示器還差得很遠(yuǎn)。

實(shí)際上,我們不得不懷疑 DP2.1 UHBR 13.5 對 RDNA 3 顯卡的重要性。首先,您需要一臺支持 DP2.1 的新顯示器,其次,問題是 4K 180 Hz 之類的東西在使用和不使用 DSC 時(shí)看起來有多好——因?yàn)?DP1.4a 仍然可以使用 DSC 處理該分辨率,而 UHBR 13.5 可以在沒有 DSC 的情況下完成。我們一直在使用三星 Odyssey Neo G8 32 英寸顯示器,通過 DSC 支持 4K 240 Hz,并且沒有發(fā)現(xiàn)任何質(zhì)量下降。

AMD RDNA 3:結(jié)語

總的來說,這聽起來像是一項(xiàng)令人印象深刻的工程壯舉。

AMD 可以很好地與 Nvidia 的 RTX 4080 卡競爭,至少在非光線追蹤和非 AI 工作負(fù)載方面是這樣。另一方面,如果您想要最快的 GPU,AMD 甚至不會嘗試與更大的RTX 4090正面交鋒。

簡單的數(shù)學(xué)提供了大量的思考。FP32 6,144 個著色器以 2.5 GHz 運(yùn)行,ALU 吞吐量翻倍,而 Nvidia 的 16,384 個著色器以 2.52 GHz 運(yùn)行,Nvidia 顯然具有原始計(jì)算優(yōu)勢——61 teraflops 對比 83 teraflops。如前所述,添加更多 FP32 單元使 AMD 的 RDNA 3 看起來更像 Ampere 和 Ada Lovelace。

除了原始計(jì)算,我們還有晶體管數(shù)量和芯片尺寸。Nvidia 堅(jiān)持為 Ada Lovelace 使用單片芯片,包括 AD102、AD103、AD104、AD106 和 AD107 芯片。最大的一個在 608mm2芯片中有 763 億個晶體管。即使 AMD 正在開發(fā)具有 580 億個晶體管的單片 522mm2芯片,我們也希望 Nvidia 具有一些優(yōu)勢。然而,GPU 小芯片方法意味著一些區(qū)域和晶體管被用于與性能不直接相關(guān)的事情。

與此同時(shí),Nvidia 的倒數(shù)第二個 Ada 芯片,即RTX 4080 中使用的 AD103 ,落在了柵欄的另一邊。憑借 256 位接口、459 億個晶體管和 368.6mm2裸片尺寸,Navi 31 應(yīng)該具有一些明顯的優(yōu)勢——無論是 RX 7900 XTX 還是稍低一些的 7900 XT。然后是具有 358 億個晶體管和 294.5mm2裸片的 AD104,即“未發(fā)布”的 RTX 4080 12GB,最終演變?yōu)?RTX 4070 Ti。

但性能比紙面規(guī)格更重要。Nvidia 將晶體管投入到 DLSS(張量核心)、DLSS 3(光流加速器)和光線追蹤硬件等功能中。AMD 似乎更愿意放棄一些光線追蹤性能,同時(shí)提升更常見的用例。實(shí)際上,在我們的GPU 基準(zhǔn)測試層次結(jié)構(gòu)中,RX 7900 XTX 在光柵化性能方面幾乎領(lǐng)先于 RTX 4080 ,而在光線追蹤性能方面,它更接近于上一代RTX 3090。

對于那些對價(jià)格在 900 美元或以上的顯卡不感興趣的人,還有RTX 4070 Ti、RTX 4070、RTX 4060 Ti和RX 7600等顯卡. 我們?nèi)栽诘却?AMD 的 RX 7800 和 7700 產(chǎn)品,這可能會在 AMD 等待清理剩余的 Navi 2x 庫存時(shí)推遲。據(jù)傳,Navi 32 使用相同的 MCD,但具有更小的 GCD,而 Navi 33 已經(jīng)作為仍然構(gòu)建在 N6 節(jié)點(diǎn)上的單片芯片推出。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • CCD
    CCD
    +關(guān)注

    關(guān)注

    32

    文章

    889

    瀏覽量

    143678
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4903

    瀏覽量

    130570
  • GCDM
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2207
  • RDNA
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    2033

原文標(biāo)題:AMD帶領(lǐng)GPU進(jìn)入Chiplet時(shí)代,RDNA 3架構(gòu)深入解讀

文章出處:【微信號:Hack電子,微信公眾號:Hack電子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    iTOP-3588S開發(fā)板四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    性能強(qiáng) iTOP-3588S開發(fā)板采用瑞芯微RK3588S處理器,是全新一代AloT高端應(yīng)用芯片,搭載八核64位CPU,四核Cortex-A76和四核Cortex-A55架構(gòu)主頻高達(dá)2.4GHZ
    發(fā)表于 05-15 10:36

    專訪AMD Jack Huynh:重新定義異構(gòu)AI計(jì)算的行業(yè)標(biāo)準(zhǔn),堅(jiān)守以用戶為核心的AI適配戰(zhàn)略

    2025年2月28日,AMD在珠海正式發(fā)布基于新一代RDNA 4架構(gòu)的Radeon RX 9070系列顯卡,包含RX 9070 XT與RX 9070兩款型號,劍指主流4K游戲市場。會后,本刊記者
    的頭像 發(fā)表于 03-06 12:28 ?354次閱讀
    專訪<b class='flag-5'>AMD</b> Jack Huynh:重新定義異構(gòu)AI計(jì)算的行業(yè)標(biāo)準(zhǔn),堅(jiān)守以用戶為核心的AI適配戰(zhàn)略

    專訪AMD王啟尚 從RDNA 4到FSR 4,AMD GPU技術(shù)創(chuàng)新引領(lǐng)行業(yè)新發(fā)展

    在近日于珠海舉辦的AMD新一代Radeon RX 9070系列顯卡發(fā)布會后,AMD GPU技術(shù)與工程研發(fā)副總裁王啟尚接受了我們的專訪。在本次交談中,他詳細(xì)分享了RDNA 4
    的頭像 發(fā)表于 03-06 11:19 ?316次閱讀
    專訪<b class='flag-5'>AMD</b>王啟尚 從<b class='flag-5'>RDNA</b> 4到FSR 4,<b class='flag-5'>AMD</b> <b class='flag-5'>GPU</b>技術(shù)創(chuàng)新引領(lǐng)行業(yè)新發(fā)展

    專訪AMD GPU教父王啟尚:卓越的RDNA 4架構(gòu),造就新一代性價(jià)比王者顯卡

    在今年CES大會上首次公布定位4K游戲的RadeonRX9070系列顯卡之后,AMD于2月28日再次舉辦發(fā)布會并宣布了RadeonRX9070系列的技術(shù)細(xì)節(jié)與售價(jià),其中RadeonRX9070首發(fā)
    的頭像 發(fā)表于 03-06 10:21 ?421次閱讀
    專訪<b class='flag-5'>AMD</b> <b class='flag-5'>GPU</b>教父王啟尚:卓越的<b class='flag-5'>RDNA</b> 4<b class='flag-5'>架構(gòu)</b>,造就新一代性價(jià)比王者顯卡

    RDNA 4顯卡定在3月發(fā)售 AMD解釋原因

    在CES 2025上,AMD展示了“RDNA 4”架構(gòu)的Radeon RX 9000系列顯卡,但發(fā)售時(shí)間定在今年3月。AMD公司副總裁兼客戶
    的頭像 發(fā)表于 01-23 17:48 ?722次閱讀

    發(fā)現(xiàn)基于Zen 5架構(gòu)AMD Threadripper “Shimada Peak” 96核和16核CPU

    AMD Threadripper “Shimada Peak” CPU 出現(xiàn)在 NBD 發(fā)貨清單中,揭示了 16 核和 96 核 Zen 5 CPU AMD 尚未推出采用 Zen 5 架構(gòu)
    的頭像 發(fā)表于 11-28 16:13 ?890次閱讀
    發(fā)現(xiàn)基于Zen 5<b class='flag-5'>架構(gòu)</b>的<b class='flag-5'>AMD</b> Threadripper “Shimada Peak” 96核和16核CPU

    AMD確認(rèn)2025年推出RDNA 4顯卡,光追與AI性能大幅提升

    10月30日,AMD在2024年第三季度財(cái)報(bào)電話會議上宣布了一個關(guān)于GPU的重要信息:其下一代RDNA 4顯卡計(jì)劃于2025年初發(fā)布。AMD首席執(zhí)行官蘇姿豐明確表示:“我們計(jì)劃在202
    的頭像 發(fā)表于 10-30 16:50 ?1422次閱讀

    【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

    國慶前就收到《大模型時(shí)代的基礎(chǔ)架構(gòu)》一書,感謝電子發(fā)燒友論壇。歡度國慶之余,今天才靜下心來體驗(yàn)此書,書不厚,200余頁,彩色圖例,印刷精美! 當(dāng)初申請此書,主要是看到副標(biāo)題“大模型算力中心建設(shè)指南
    發(fā)表于 10-08 10:40

    名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    和像素統(tǒng)一的G80到現(xiàn)在重金難求的H100;AMD的Zen系列CPU和RDNA系列GPU兩線作戰(zhàn);中國的高性能計(jì)算芯片逐步獲得更多TOP500排名;華為Ascend 910 NPU芯片也成為AI
    發(fā)表于 09-02 10:09

    X86架構(gòu)處理器有哪些優(yōu)點(diǎn)和缺點(diǎn)

    X86架構(gòu)處理器作為計(jì)算機(jī)領(lǐng)域的重要組成部分,具有多個顯著的優(yōu)點(diǎn)和一定的缺點(diǎn)。以下是對X86架構(gòu)處理器優(yōu)缺點(diǎn)的詳細(xì)分析。
    的頭像 發(fā)表于 08-22 11:25 ?4204次閱讀

    X86架構(gòu)和ARM架構(gòu)有什么區(qū)別

    X86架構(gòu)和ARM架構(gòu)是兩種主流的CPU架構(gòu),它們在多個方面存在顯著的差異。以下是對這兩種架構(gòu)的詳細(xì)比較,涵蓋了追求目標(biāo)、應(yīng)用領(lǐng)域、技術(shù)特點(diǎn)、性能功耗比、軟件生態(tài)以及未來趨勢等方面。
    的頭像 發(fā)表于 08-22 11:21 ?1.2w次閱讀

    突破與解耦:Chiplet技術(shù)讓AMD實(shí)現(xiàn)高性能計(jì)算與服務(wù)器領(lǐng)域復(fù)興

    的前沿技術(shù)時(shí),AMD 才會越來越好。 ——AMD 董事會主席及首席執(zhí)行官 Lisa Su 博士 開端:Why Chiplet? 2017年對于AMD公司來說是一個非常關(guān)鍵的轉(zhuǎn)折點(diǎn)。在那
    的頭像 發(fā)表于 08-21 18:33 ?2516次閱讀
    突破與解耦:<b class='flag-5'>Chiplet</b>技術(shù)讓<b class='flag-5'>AMD</b>實(shí)現(xiàn)高性能計(jì)算與服務(wù)器領(lǐng)域復(fù)興

    ElfBoard技術(shù)貼|如何將libwebsockets庫編譯為x86架構(gòu)

    在之前的文章中,我們已經(jīng)詳細(xì)介紹了如何交叉編譯libwebsockets并將其部署到ELF1開發(fā)板上。然而在調(diào)試階段,發(fā)現(xiàn)將libwebsockets在Ubuntu環(huán)境下編譯為x86架構(gòu)可能更為方便
    的頭像 發(fā)表于 07-10 09:38 ?1514次閱讀
    ElfBoard技術(shù)貼|如何將libwebsockets庫編譯為x86<b class='flag-5'>架構(gòu)</b>

    迅為RK3562核心板四核A53+MaliG52架構(gòu),應(yīng)用于商業(yè)平板電腦,視頻會議,智能家居,教育電子,醫(yī)療設(shè)備,邊緣計(jì)算,工業(yè)應(yīng)用

    迅為RK3562核心板四核A53+MaliG52架構(gòu),應(yīng)用于商業(yè)平板電腦,視頻會議,智能家居,教育電子,醫(yī)療設(shè)備,邊緣計(jì)算,工業(yè)應(yīng)用
    發(fā)表于 07-09 10:57

    AMD發(fā)布ROCm更新,新增RX 8000系列GPU的Navi 44命名

    首款Navi 48芯片以Gfx1201之名現(xiàn)身,而Navi 44則以Gfx1200之名亮相。這兩款GPU的出現(xiàn),至少暗示了AMD正在逐步完善RDNA 4 GPU的研發(fā)工作。
    的頭像 發(fā)表于 05-24 16:11 ?818次閱讀
    主站蜘蛛池模板: 老湿司午夜爽爽影院榴莲视频 | 亚洲地址一地址二地址三 | 理论片午午伦夜理片久久 | 女人张开腿让男人桶爽免 | 久久全国免费久久青青小草 | 免费无码又爽又黄又刺激网站 | 亚洲国产综合另类视频 | 国自产拍 高清精品 | 亚洲欧美国产综合在线 | 一级毛片两人添下面 | 一级毛片免费视频网站 | 免费女性裸身照无遮挡网站 | 被窝伦理电影午夜 | 国产亚洲精品久久久久久禁果TV | 欧美同志高清vivoeso | 战狼4在线观看完免费完整版 | 樱花草在线影视WWW日本动漫 | 国产成人精品自线拍 | 亚洲国产精品综合久久一线 | 国产露脸A片国语露对白 | Chinesetube国产中文 | 亚洲精品不卡在线 | 黑人娇小BBW | 国产私拍福利精品视频 | 2020无码最新国产在线观看 | 东京热百度影音 | 被送到黑人性奴俱乐部 | 亚洲熟妇AV乱码在线观看 | 精品无码人妻一区二区免费AV | 最近最新的日本字幕MV | 992交通广播 | 啊轻点灬大JI巴又大又粗 | 亚洲欧美在无码片一区二区 | 亚洲av欧美在我 | 久久久久夜 | 国产最新精品亚洲2021不卡 | 国模丽丽啪啪一区二区 | 久久99re热在线观看视频 | 免费视频亚洲 | 久艾草在线精品视频在线观看 | 香蕉AV福利精品导航 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品