記得多年前,電腦內存的主流配置容量還在1GB左右,而現在有這樣一款處理器,其內部三級緩存的容量就超過了1GB,達到了1.1GB,如果再加上L1、L2級緩存,其容量絕對超過當年的主流電腦內存容量,它就是AMD最新發布的EPYC 9684X服務器處理器。而現在主流消費級處理器的三級緩存容量也不會超過100MB,即便是很多頂級服務器處理器,它們的三級緩存容量也不會超過400MB。那么AMD為什么要推出三級緩存容量如此大的處理器,三級緩存容量這樣大的處理器有什么作用呢?
引入3D緩存,三級緩存容量達1152MB!
EPYC 9084X系列處理器解析
我們知道,緩存的存在是為了解決計算和存儲之間的鴻溝,利用昂貴、高速但是小尺寸的SRAM來填補CPU和內存之間的速度鴻溝,同時提高數據命中率,一直以來都是CPU提高性能的不二法門。不過,緩存在超過一定容量之后,后續就很難再對所有應用都帶來顯著的性能提升了,更明顯的性能提升來自緩存敏感型應用,在桌面應用中主要是游戲,在企業級應用中主要是數值計算類應用,比如流體分析、流體模擬、有限元、計算流體力學等應用,這些應用的場景主要是實驗室、設計單位、大型企業等,是HPC也就是超級計算機的主要客戶群體。
因此針對這些應用的需求,AMD此次特別推出了代號“Genoa-X”的EPYC 9084X系列處理器。與代號“Genoa”的EPYC 9654、EPYC 9554等處理器相比,該產品最大的不同就是增加了3D緩存,即3D V-Cache。從技術本質上來說,Genoa-X的3D V-Cache和之前的產品沒有任何不同,都是通過TSV硅穿孔技術,將額外的SRAM緩存芯片直接倒裝連接到CPU核心晶圓上預留的緩存連接位置。從AMD給出的圖片來看,Genoa-X的采用的是混合鍵合的方式實現了CPU核心和SRAM核心的連接。AMD可以為每個CCD增加64MB SRAM L3緩存,是原生CCD中包含的32MB的2倍。由于額外增加的緩存是直接連接到整個CCD的緩存總線上的,因此完全可以視作相同的、一致的、均一的本地L3緩存,不存在任何速度、級別方面的差異。
擁有3D緩存的EPYC 9684X處理器也采用SP5 LGA6096封裝,不論是在處理器大小面積,還是處理器厚度上,它都與EPYC 9654完全相同。
AMD處理器的3D緩存技術主要由混合鍵合、硅通孔、CCD、結構硅片、64MB 3D三級緩存芯片組成。
之前的EPYC 9004系列處理器最多擁有12個CCD,因此AMD要打造EPYC 9084X系列處理器的話,只需在每個CCD上堆疊64MB 3D緩存,相當于總共外置12×64MB=768MB L3緩存,再加上CCD內部原有的12×32MB=384MB L3緩存,總計最多可以實現768MB+384MB=1152MB緩存。這也是EPYC 9084X系列處理器能實現大容量三級緩存的關鍵原因。
AMD為每個CCD堆疊了64MB的3D V-Cache
AMD的混合鍵合技術可以有效提高芯片的互聯密度與能效比,其連接密度相對2D工藝高了200倍,互聯密度相對單純使用微凸點工藝高了15倍,芯片互聯的能效也比微凸點工藝提高了3倍。
目前,EPYC 9084X系列處理器總共包括EPYC 9684X、EPYC 9384X和EPYC 9184X三款產品,其型號后綴都帶一個“X”,這也是所有3D V-Cache產品獨有的標識。這三款產品的核心數量從高到低分別是96、32和16。相比沒有帶3D V-Cache的普通EPYC 9004系列產品而言,比如對比EPYC 9654,EPYC 9684X的基準頻率高了一些,兩款處理器的最大Boost頻率則都維持3.7GHz不變,但EPYC 9684X的全核心頻率為3.42GHz,比EPYC 9654的3.55GHz全核心頻率要略低一些。同時基準頻率的提升、緩存容量的大幅增加也讓EPYC 9684X的Default TDP熱設計功耗達到了400W,而EPYC 9654的Default TDP為360W。三級緩存方面,由于EPYC 9684X使用了全部12個CCD,所以它的3D V-Cache容量達到了768MB,三級緩存總容量為768MB+384MB=1152MB緩存。
EPYC 9084X系列處理器主要擁有三款型號,它們在核心、線程數,緩存容量上各不相同。
剩下兩款定位稍低的3D V-Cache EPYC處理器設置則更為保守,與同為32核心、64線程的EPYC 9354對比,EPYC 9384X的基準頻率、最高加速頻率都要略低一些,功耗為320W。盡管工作頻率稍低,但三級緩存的大幅增加還是讓EPYC 9384X處理器的Default TDP比EPYC 9354的280W略高一些。EPYC 9184X也是類似情況,其最高加速頻率比同為16核心、32線程的EPYC 9174F的最高加速頻率低了200MHz,額外的L3緩存還是在頻率上帶來了些許影響,Default TDP仍為320W。
此外,EPYC 9084X系列處理器的這三款產品也可以根據用戶需求、散熱條件等進行靈活配置,其處理器功耗可以配置到320W~400W。三級緩存容量方面,由于EPYC 9384X和EPYC 9184X只使用了8個CCD,所以它們的3D V-Cache容量為64MB×8=512MB,三級緩存總容量為512MB+32MB×8=768MB。雖然EPYC 9084X的SKU只有三款,但實際上對HPC用戶來說,這樣的產品設計已經基本上可以滿足用戶需求了。AMD給出的應用范圍顯示,16核心的EPYC 9184X適合電路自動化設計的客戶,32核心的EPYC 9384X則適合電路自動化設計、流體計算、有限元分析和結構分析場合,96核心的EPYC 9684X則除了不適合需要高頻率的電路自動化設計外,其余的場景都是其應用范圍。
根據AMD的官方數據,在CFX、流體、LS-DYNA、OpenFOAM等實際測試中,96核心的EPYC 9684X對比60核心的至強鉑金8490H擁有很大的領先幅度,最大可以達到2.2~2.9倍性能優勢,平均也有2.2~2.4倍性能優勢。借助于生產工藝與架構的優勢,目前AMD服務器處理器在技術規格上已經遠勝于對手,能有這樣的成績完全在我們意料之中,畢竟競爭對手的產品在處理器核心數量、計算線程數量上也大幅落后。那么面對沒有3D V-Cache的EPYC 9004處理器,特別是在核心、線程數量上完全相同的產品,EPYC 9084X系列處理器在那些緩存敏感型計算中是否有明顯優勢呢?
在專業應用上,96核心的EPYC 9684X對比英特爾60核心的至強鉑金8490H擁有壓倒性的性能優勢。
為此我們特別采用同為96核心、192線程設計的EPYC 9654處理器與EPYC 9684X處理器進行了對比測試,讓我們看看在核心、線程數相同,緩存容量有明顯差異的場景下,緩存容量更多的EPYC 9684X處理器表現如何。
我們如何測試
本次測試統一考察的是雙路系統的性能,因此EPYC 9684X、EPYC 9654處理器都統一使用了AMD Titanite SP5 2P2U雙路主板。內存方面,兩款處理器單路支持12條內存通道,雙路系統支持24條內存通道,因此我們也為它們采用了24通道內存配置。本次測試所使用的內存為三星DDR5 4800 64GB,內存總數量為24根,內存總容量為1.5TB,搭配美光9300系列企業級NVMe SSD。?
本次測試統一考察的是雙路系統的性能,EPYC 9684X、EPYC 9654處理器都統一采用了AMD Titanite SP5 2P2U雙路主板,12通道、24條內存配置。
接下來我們在Ubuntu 22.04操作系統下對兩款處理器的性能進行了全面測試。為了讓讀者更好地了解這兩款處理器在眾多企業級產品中的性能水準,我們還在部分測試中引入了其他處理器已經測試過的成績。它們是128核心、256線程配置的雙路EPYC 9554系統,64核心、128線程配置的雙路EPYC 9374F系統,以及128核心、256線程配置,使用DDR4 3200內存的雙路EPYC 7763系統。后者隸屬第三代EPYC霄龍處理器,采用Zen3處理器架構、TSMC 7nm生產工藝。
第四代AMD EPYC處理器雙路系統測試平臺一覽
處理器:EPYC 9684X×2
EPYC 9654×2
內存:? ?三星DDR5 4800 64GB×24
主板:? ?AMD Titanite
硬盤:? 美光9300系列企業級NVMe SSD
系統:? Ubuntu 22.04
基準性能測試
接下來我們首先采用SPECrate 2017、UnixBench Dhrystone 2和Whetstone、Sysbench CPU、HPL與DGEMM測試了處理器的基準性能。
結果令人滿意。借助大得多的三級緩存容量與更高的基準頻率,EPYC 9684X在所有基準測試中都獲得了領先。其中在SPECrate 2017測試中,EPYC 9684X的整數性能、浮點性能分別領先EPYC 9654 8.5%、14.1%;在體現處理器雙精度浮點性能與整數性能的Whetstone和Dhrystone 2中,EPYC 9684X也擁有一定優勢,分別領先EPYC 9654為4.58%、0.54%;在Sysbench CPU測試中,EPYC 9684X則獲得了相對EPYC 9654多達6.93%的領先優勢。在HPL與DGEMM測試中,EPYC 9684X的優勢收窄,分別為0.45%、1.34%。從測試中來看,SPECrate 2017、Sysbench CPU比較受緩存容量的影響,因此EPYC 9684X會有較大的優勢,而HPL、DGEMM、UnixBench的影響較小。
內存性能測試
內存性能測試中,我們仍采用Stream測試兩款處理器的內存性能,由于EPYC 9684X支持12通道DDR5 4800內存系統,所以從測試成績來看,它的內存性能表現也非常優秀。其雙路內存帶寬達到747955MB/s,比雙路EPYC 9654系統的內存帶寬還要略高一些,相對雙路DDR4 3200 8通道內存系統優勢巨大。
應用性能測試
接下來我們測試了兩款處理器在C-ray光線追蹤、FFmpeg x264視頻編碼等專業應用中的性能表現。在這些常見應用中,擁有3D V-Cache的EPYC 9684X也擁有很明顯的優勢。如在C-ray 1.1 4K光線追蹤測試中,EPYC 9684X的耗時只有EPYC 9654的一半,在C-ray 1.1 8K光線追蹤測試中,EPYC 9684X的耗時也比EPYC 9654少了14.3%。
我們還使用FFmpeg中的編碼工具測試了兩個雙路系統的視頻編碼性能,編碼器為x264,測試處理器在live場景中的編碼速度即幀率。同樣EPYC 9684X也有小幅領先,其編碼速度比EPYC 9654雙路系統快了2.8%。我們認為出現這個結果的主要原因還是在于視頻編碼過程中,數據的存取操作頻繁,且數據量大,是制約編碼器性能的主要因素之一,所以擁有更大緩存容量的EPYC 9684X雙路系統具備一定優勢也在情理之中。
新增應用性能測試:libxsmm
除了以上測試,我們還專門增加了部分對緩存敏感的應用測試。首先我們使用Libxsmm進行了測試,它是一個用于專門的密集和稀疏矩陣運算以及深度學習原語的開源庫,支持使用Intel AMX、AVX-512和其他現代CPU指令集功能。Libxsmm目前主要用于HPC高性能計算、ML機器學習,以及AD自動駕駛??梢钥吹剑谑褂胠ibxsmm庫計算時,擁有3D緩存的EPYC 9684X擁有巨大的優勢,其算力高達7445GFLOPS,相對EPYC 9654領先多達67.5%,獲得了質的飛躍。
新增應用性能測試:OpenFOAM
OpenFOAM則是目前領先的免費開源計算流體動力學 (CFD) 軟件,在這個測試中,我們將使用drivaerFastback案例來分析汽車或老舊摩托的空氣動力學,并計算其分析執行時間,數值顯然是越小越好。同樣EPYC 9684X在該測試中擁有壓倒性的優勢,其任務執行時間只需83.76s,而EPYC 9654則需耗時108.51s,EPYC 9684X的任務執行速度比EPYC 9654快了29.5%。
新增應用性能測試:HeFFTe
HeFFTe是作為百億億次計算項目的一部分而開發的高效傅里葉變換庫。傅里葉變換 (FFT) 用于許多領域應用,包括分子動力學、頻譜估計、快速卷積和相關信號調制、無線多媒體應用。用戶可以在不同配置、選項下使用HeFFTe內置的基準測試,非常適合對CPU進行測試。顯然在這類密集型計算中,3D緩存可以帶來顯著的作用,EPYC 9684X在使用HeFFTe庫進行計算時,其算力可達135.81GFLOP/s,而EPYC 9654的算力為109.88GFLOPS,前者領先23.6%。
新增應用性能測試:POV-Ray
接下來我們采用常見的POV-Ray對兩款處理器的性能進行了測試,POV-RAY即持久視覺光線追蹤器是一種用于創建逼真照明圖像的開源工具,測試將使用光線追蹤來創建3D圖形。測試中,軟件將測量兩款處理器的光線追蹤完成時間,數值越小越好。測試結果與C-ray類似,在光線追蹤測試中,擁有3D緩存的EPYC 9684X占據優勢,只是在POV-Ray中,其領先優勢幅度有所縮小,EPYC 9684X的光線追蹤執行速度比EPYC 9654快了6.5%。
新增應用性能測試:NAS Parallel Benchmarks
我們還使用了NASA為高端計算機系統開發的基準測試—NAS Parallel Benchmarks即NAS并行基準測試,該測試主要用于評估超級計算機的并行運算性能。其基準測試來源于計算流體動力學軟件,我們在該軟件中測試了兩款處理器的塊三對角求解性能,數值越大越好。結果與OpenFOAM基于流體動力學的軟件類似,三級緩存容量達到1152MB的EPYC 9684X擁有壓倒性的優勢,在該測試中領先EPYC 9654高達40.1%。
新增應用性能測試:John The Ripper
John the Ripper是一款開源密碼安全審核和密碼恢復工具,可用于許多操作系統,支持數百種哈希和密碼類型,在本次測試中主要測試兩款處理器的MD5加密性能,測試數值越大越好。測試結果同樣證明更大的三級緩存容量是有效的,在這個測試中EPYC 9684X小勝對手,加密性能領先EPYC 9654約1.4%。
新增應用性能測試:Rodinia
最后我們則采用了Rodinia這款專注于密集型應用程序的套件進行測試,Rodinia包含了應用程序支持的CUDA、OpenMP和OpenCL并行模型。由于測試的是處理器,所以我們在測試中則選用OpenMP模型,測試處理器進行流體動力計算的能力。測試結果的數值為處理器完成計算的時間。顯然處理器計算性能越強,所花時間就越少,所以測試數值是越小越好。
結果也完全在我們的意料之中,與OpenFOAM、NAS Parallel Benchmarks這些基于流體動力學的測試類似,EPYC 9684X的表現更好,其計算執行時間更少,計算執行速度比EPYC 9654快了8.36%。
3D V-Cache就是最大功臣
綜合以上大量測試,顯然依靠3D V-Cache,EPYC 9684X是一款非常有價值的產品,本次測試中,它在所有測試中都戰勝了EPYC 9654。特別是在libxsmm、C-ray光線追蹤,以及HeFFTe、OpenFOAM、NAS Parallel Benchmarks等流體動力學計算中,EPYC 9684X都擁有壓倒性的優勢。我們認為根本原因就在于3D V-Cache的使用。畢竟處理器獲取數據主要有兩個來源,一個是直接在處理器內部的緩存中獲取,一個是在外部內存中獲取。
由于SRAM、DRAM兩種存儲介質的性能不同,再加上物理位置也大不相同,一個近在咫尺,另一個遠在天邊,所以緩存的傳輸速度、延遲表現都遠優于內存,內存的傳輸速度一般只有三級緩存的八分之一到十分之一。而EPYC 9654的三級緩存總容量為384MB,EPYC 9684X的三級緩存總容量達到1152MB,容量提升200%,這也就意味著EPYC 9684X的緩存可以存儲更多的數據,處理器有更大的概率在自己的緩存中找到需要處理的數據,無須再到“慢吞吞”的內存中查找數據,處理器無效等待數據傳輸的時間大幅降低,自然處理器的計算效率,處理器的計算性能都可以得到顯著提升,特別是在那些計算量大、待處理數據多的密集型計算中,EPYC 9684X就能體現出很大的優勢。
為了每天完成16500個流體計算任務,AMD方面僅需要配置12臺EPYC 9384X雙路服務器,英特爾則需要配置21臺至強鉑金8462Y雙路服務器,在組建成本、能耗比上AMD也有很大的優勢。
更值得一提的是,到目前為止,不論是在消費級產品還是企業級產品上,競爭對手都未能推出同類產品,在緩存容量、處理器核心數量、計算線程數量、性能乃至組建成本、能耗比上都有巨大差距。所以對于有流體計算、數據壓縮、光線追蹤、有限元分析、電路自動化設計和結構分析需求的用戶而言,以EPYC 9684X為首的EPYC 9084X系列處理器就是打造高性能、高能效比、高擴展性專業解決方案的不二之選。
編輯:黃飛
?
評論
查看更多