當生命科學、醫藥研發、東數西算、數據分析、數據挖掘、算力、數據中心、智算中心、遙感測繪、地質遙感等場景逐漸成熟,上層應用場景改變了底層硬件基礎,計算、存儲、網絡架構的迭代升級和調整融合,對服務器產品的形態,性能等方面提出了更高的要求,更強算力、更高性能還要兼顧節能成為企業用戶的關注點。
注:由于篇幅有限需要更多 AMD、Intel 詳細資料,請在公眾號末尾留下您的郵箱,小編會將PDF文件發您郵箱,共同進步學習。
企業為尋求更加敏捷、靈活和高效的應用開發模式,以加速應用的創新和快速上市,云原生等應用開發模式拉近了業務和計算平臺之間的聯系,應用開發團隊將定義基礎設施的性能、可用性和規模,直接推動計算平臺架構的變革和創新。
在這個背景下,代號為“Genoa”的 AMD EPYC 9004系列產品在11月11日推出。該芯片在數據中心、企業數據服務、云計算、高性能計算中經常使用,提高了15-25%的性能。全新 AMD EPYC Genoa 改變了服務器的基礎即每個插槽 50-60%(或更多)的改進,這意味著可以實現 3:2 或 2:1 的整合)。如果使用3-5 年的至強可擴展服務器到 EPYC,整合潛力將更加巨大(有望達到4:1)。這個新系列不僅是額外的內核或一些新功能突出。
藍海大腦AMD EYPC 9004系列服務器
當前CPU市場背景
目前獨立顯卡市場僅有英偉達和AMD兩家,集成顯卡市場還要算上英特爾。
一、英特爾
英特爾在液冷GPU服務器領域布局,自首款產品Pentium Pro推出以來,已經有25年之久。英特爾擁有高達 28 個內核和 6 個 DDR4 通道的芯片(Ice Lake和Cooper Lake是其第三代英特爾至強可擴展家族的一部分),可以擴展到 4-8 個插槽(或減少至一個)。和40核和8通道的DDR4用于2個插槽應用程序(完整的指令集是常見的但是也有例外,如bfloat16支持兩者之間并不相同)。
如果想要配置具有 2 個 40 核 Ice Lake Xeon CPU 的高端雙插槽 Ice Lake 服務器,以及具有 4 個 28 核 CPU 的高端 4 插槽服務器,那么將總共獲得 192 個內核(與高端雙插槽熱那亞服務器相同)。總內存帶寬也將處于類似的范圍內。當Sapphire Rapids在2023年到來時,英特爾將專注于16-64核心的主流市場。
二、AMD
AMD在高端芯片中擁有大約50%的核心數量優勢,其重點在購買較低內核數SKU的市場中心進行競爭,并利用加速器提供遠遠超出內核本身所能提供的性能提升。
全新的AMD EPYC Bergamo(使用與熱那亞相同的AMD Socket SP5,但重點是最大化云工作負載的核心數量)通過減少緩存大小以適應更多內核。全新的AMD EPYC Bergamo是AMD的高內核數解決方案,每個插槽最多128個內核。AMD EPYC 9004 CPU的宣傳只有96個核心。
Genoa-X將打破L3緩存的1GB /插槽障礙。使用標準 EYPC 9004 CPU,每個插槽可獲得高達 384MB 的 L3 緩存或每個 768P 服務器高達 2MB 的 L3 緩存。使用Milan-X,有 64 個內核,每個插槽高達 768MB 的三級緩存。
預計 2023年AMD 將在雙插槽服務器中提供超過 2GB 的 L3 緩存。Genoa-X將針對HPC領域的應用,在這些應用中,添加3DV緩存可以提高數據局部性,從而減少移動數據浪費的功率。新的AMD EPYC(霄龍)平臺將更適用于邊緣計算、HPC和云計算等領域。
AMD EYPC Zen4架構
EPYC 9004系列基于和桌面銳龍7000系列同款的Zen4架構,只是針對服務器與數據中心應用做了適當的調整優化。
整體而言,綜合計算33種不同的服務器負載,Zen4架構的IPC相比Zen3提升了大約14%,這比銳龍7000系列的提升高了1個百分點。
不同模塊的貢獻差不多,最大的還是前端部分,接下來是載入/存儲、分支預測、執行引擎、二級緩存。
AMD EPYC 9004 系列主要在兩個方面進行改進。
一、微架構的改進
AMD EPYC Zen 4是Zen 3代相對較小的微架構更新。但這并不是說沒有更新,只是不是Zen 2到Zen 3或Zen 4到Zen 5計劃的巨大飛躍。
二、緩存層次結構的改進
最大的變化之一是AMD正在添加更多的緩存,并做更多的工作來啟動不同的緩存階段。憑借雙倍的二級緩存,新芯片可以將更多數據保留在內核本地,而不必發送到內存層次結構的更高級別。
Zen 3 和 Zen 4 微架構不同部分的一些關鍵比較
AVX-512指令集其實也是一模一樣的,但它在服務器數據中心顯然更加如魚得水,作用更加明顯。
根據AMD提供的數字,EYPC 9004系列相比EPYC 7763系列,得益于規格性能的改進,尤其是AVX-512指令集的加持,NLP吞吐量、物體檢測吞吐量、圖像識別吞吐量分別增加了大約4.2倍、3.5倍、3倍之多!
安全方面也更豐富,其中安全加密虛擬化(SEV)方面,除了繼續支持SME、SEVES、SEV-SNP,還將內存加密升級到AES-256-XTS,并支持1006個加密客戶機,支持多重主機密鑰(SMKE)。
另外強化了對客戶機的保護,尤其是可免于SMT攻擊。
SOC 平臺
AMD EPYC(霄龍)9004系列依然沒有獨立芯片組,而是一個完整的SoC,延續chiplet小芯片設計可將 8 核 CCD 的數量從 4 個擴展到 12 個。9004系列內部包含一個IOD、最多12個CCD。(CCD每個集成8顆Zen4 CPU核心、32MB三級緩存,合計最多96核心、384MB三級緩存,同時也有8個CCD、4個CCD的版本,分別最多64核心、32核心)。IOD內集成了DDR5內存控制器、PCIe 5.0/CXL 1.1+控制器、第三代Infinity Fabric控制器、安全處理器。
AMD EPYC 9004 小芯片架構 4x CCD
單路配置下,EPYC 9004系列可搭配最多24條DDR5內存,每通道2條(2DPC),可提供128條PCIe 5.0、8條PCIe 3.0通道。
雙路配置下,每個內存通道就只能裝1條了(1DPC),最多還是12條,PCIe 5.0通道對外可用則是最多160條,每路80條對外、48條用于彼此互連,另外還有12條PCIe 3.0,每路6條。
IF高速總線升級到了第三代,最高帶寬32Gbps,可選3條或4條鏈接,前者是默認的,此時對應的系統可用PCIe 5.0通道數量就是剛才說的160條。
如果選擇4鏈接,每路處理器就要貢獻一半的PCIe 5.0通道用于彼此互連,留給系統可用的就是128條,這和上代是相同的。當然,即便同樣128條,從PCIe 4.0升級到PCIe 5.0,可用帶寬也是翻倍的。
I/O性能方面,EPYC 9004支持新的高級虛擬中斷控制器(AVIC),提升虛擬中斷性能,并改善了中斷處理吞吐量,包括CPU核心內部與SoC層面。
搭配PCIe 4.0 x16規格的200Gbps(20萬兆)網卡,默認設置下效率即可超過90%,最高達94%,單向能跑到188Gbps,雙向則能跑到375Gbps。
如果搭配PCIe 5.0 x16規格的400Gbps(40萬兆) InfiBand高速網絡,標準配置下效率也能超過90%,最高甚至達99%,能跑出396Gbps。
AMD擁有新一代的Infinity Fabric接口(插座與插座互聯),AMD的Infinity Fabric使用SerDes,可以處理PCIe之類的事情,因此隨著這些SerDes對PCIe的速度越來越快,Infinity Fabric也緊隨其后。AMD在鏈路上從PCIe Gen3時代轉向Gen5時代意味著互連帶寬現在很大。
內存DDR5
內存方面,一如桌面銳龍7000系列,EPYC 9004也僅支持DDR5,可以帶來更高的頻率與帶寬、更低的電壓與功耗、更好的電源管理(板載PMIC)、更多的通道與更低的延遲、更大的容量、更好的校驗糾錯(板載ECC)等。
EPYC 9004系列支持12個DDR5內存通道(12 個內存通道中的許多通道都是為了在高端部件上保持相同的比例),單路最大容量6TB(單條512GB)。標準的4800MHz頻率下,峰值理論帶寬可達460GB/s。
延遲方面,EPYC 9004略有增加,但影響不大,其中SoC約73ns、設備約45ns,總計約118ns,比上代分別增加了3ns、10ns。
EPYC 9004還支持每路多重內存節點(NPS),可以對12條內存進行分組管理,進一步優化性能。
CXLL概述
CXLL,也就是Compute EXpress Link,一種緩存一致性高速互連行業標準,主要用于處理器、內存擴展與加速器。
CXLL有三種工作模式,EPYC 9004并不支持第一種(面向NIC網卡)、第二種(面向GPU/FPGA/加速器等密集計算),而僅支持第三種,也就是內存緩沖,可擴展內存帶寬與容量,協議走的是cxl.io、cxl.mem。
總的來說,AMD EPYC 9004系列在延續chiplet設計的同時,升級了工藝、架構,升級了內存、擴展連接等,整體規格、特性上了一個大大的臺階。
此外,Zen EPYC家族還會陸續還會推出采用3D V-Cache技術的更高性能版“Genoa-X”,面向云計算服務的“Bergamo”(貝爾加莫),以及面向電信基礎設施和邊緣計算的“Siena”(錫耶納),組成完整的產品矩陣。
新芯片支持 CXL 1.1(多達 64 個通道可用于 CXL 設備,并且 CXL 1.1 x16 連接的帶寬大致與兩個 DDR5 通道一樣多,從理論上講,AMD 不僅可以使用 CXL 1.1 設備獲得更多內存容量,還可以獲得更多可用帶寬),具有一些前向功能。AMD 僅支持可以視為內存擴展設備的 Type 3 內存緩沖區。這些節點通常在操作系統中顯示為具有附加內存容量但沒有 CPU 的新 NUMA 節點。
SKU
AMD EPYC 9004 Genoa 系列推出時有 18 個 SKU(14 個不同的 SKU),有 4 個單插槽“P”變體。擁有四個“F”SKU,用于頻率優化部件,增量為 16、24、32 和 48。有五個較低的內核計數 SKU,其中 32 個內核有一個 P 變體。最后,還有密度優化的SKU,有五個模型和三個P變體。
總的來說,AMD旨在增加更新更快內核的價值。AMD正在大量部署單插槽服務器。在前幾代產品中,AMD 證明了范式轉變。對于Genoa,似乎擁有大規模1P系統的能力意味著AMD并沒有大幅打折1P。
AMD EPYC 9004 SKU 列表及功能
芯片性能
在實際工作負載中,如果在大型芯片上運行單個工作負載,有時工作負載中存在單線程部分。會導致大型芯片的性能非常差,因為這些工作負載看起來像這樣,384 個線程中有 1 個以 100% 的速度運行。在雙 4 核/8 線程服務器上,單個線程占總線程數的 6% 以上。在雙 96 核/192 線程服務器上,單個線程剛剛超過 0.26%。
許多工作負載已經擴展多年,但僅限于 256 個線程。這意味著 1/3 的線程未被使用。
展望未來,我們將越來越多地使用裸機容器,然后使用虛擬化工作負載進行擴展。這與VMware VMmark類似,但KVM是更大的虛擬機管理程序,其云采用,VMware對VMmark施加了限制。盡管如此,在未來考慮兩者仍然很重要,因為有一種觀點認為,在 384 線程系統上擊中工作負載的單線程部分對整體性能來說是可怕的。
STH nginx CDN性能
基準測試的世界幾乎總是在整個 CPU 上運行單個工作負載。即渲染工作負載、HPC 工作負載等將使用整個芯片。盡管如此,大多數芯片確實用于容器化或虛擬化工作負載。云計算就是一個典型的例子。未來我們將越來越多地使用裸機容器,然后使用虛擬化工作負載進行擴展。這類似于 VMware VMmark 所做的,但 KVM 是更大的虛擬機管理程序,它采用云計算,而 VMware 對 VMmark 施加了限制。
在設計基準套件時,可以在網上看到的許多工作負載理想情況下會嘗試在整個 CPU 上運行一個工作負載。在實際工作負載中,如果在大型芯片上運行單個工作負載,有時工作負載會有單線程部分。這導致大芯片上的一些性能非常差,384 個線程中有 1 個線程以 100% 運行。
在雙 4 核 / 8 線程服務器上,單線程占總線程數的 6% 以上。在雙 96 核/192 線程服務器上,單線程僅超過 0.26%。
任務很簡單,我們有一個標準配置文件,來自kernel.org的 Linux 4.4.2 內核,并利用系統中的每個線程進行標準的自動生成配置。以每小時編譯的形式表示結果,以使結果更易于閱讀。
二、c-ray 1.1 性能
這是一個非常流行的光線追蹤基準測試,用于顯示多線程工作負載下處理器的差異。以下是 8K 結果:
有趣的是,當 8K 渲染會對四路服務器施加壓力數分鐘時,我們就開始收集有關這種渲染風格基準的數據。現在,新一代在 13 秒內完成了運行。
三、7-zip 壓縮性能
7-zip是一種廣泛使用的跨平臺壓縮/解壓縮程序。在早期的Windows測試中開始使用該程序。它現在是Linux-Bench的一部分。這里使用傳統運行來顯示擴展,即使不點擊加速器。
同樣,這是一個出色的性能,盡管在壓縮方面看到更高核心數量的擴展挑戰。然而,壓縮是一項在未來將無處不在的功能,但也將保證卸載到加速器。
四、國際象棋基準測試
國際象棋是一個有趣的用例,因為它具有幾乎無限的復雜性。
這里的一個主要挑戰是基準測試在 256 個線程時停止了擴展。必須將基準測試拆分為通過容器在兩個 192 線程實例中運行以獲得上述結果。否則,三分之一的芯片沒有被使用。
五、SPEC CPU2017 結果
首先,展示最常用的企業和云基準,SPEC CPU2017的整數速率性能:
在這里,需要添加更多內核、更高的時鐘速度和內存帶寬會產生令人震驚的結果。據報告顯示,進行全平臺調優的 OEM 在 1790 時將略低于 1800。這比我們得到的要高,但這是一個令人震驚的數字。AMD 將有效地擁有 3 倍于頂級雙插槽 Intel Xeon 8380 的結果,但插槽數相同。這也意味著 AMD 在每個內核上實現了更好的性能,即使將內核打包成 96 核部件也是如此。
AMD EYPC Genoa 功耗
在功耗方面,Genoa是強大的。我們通常在 1kW-1.2kW 之間測試雙插槽 AMD EPYC 9654 系統。嘗試將TDP從360W提高到400W。性能提高個位數百分比,但在雙插槽配置中使用這種模式,我們看到墻上增加了 100-120W。對于現代風冷系統,增加更多的CPU TDP通常會帶來15-20%的“風扇稅”,以增加功耗。
AMD EPYC 9654 熱那亞 SP5 插槽 1
在每瓦性能的基礎上,這是驚人的。AMD 通常將性能提高 2-3 倍,同時將功耗提高 20-40%,這是大多數組織每天都會做出的權衡。
我們只是要在這里快速指出,這不是一個關注PSU / PDU功耗非常重要的領域。功率密度的增加也會以非線性方式增加空氣冷卻要求。此外,AMD的很多性能來自12通道DDR5。如果我們只采用封裝功率,我們會查看 CPU 的性能功率增加,而不是內存為實現該性能水平而消耗的額外功率。在 24x DDR5 服務器中,內存使用超過 100W 或 ~10% 的系統功率的情況并不少見。Genoa和藍寶石急流之間的差異也將來自這些額外內存通道的系統功耗成本。
AMD EPYC 9654 SP5 插槽 4
盡管如此,Genoa的每瓦性能仍大大提高。
AMD EPYC 熱那亞雙通道 DDR5 及更多產品
就平臺而言,AMD擁有更像是最小可行產品,而英特爾則擁有非常成熟的產品,但它需要生產更多的芯片。AMD的最小可行產品對于大多數市場來說仍然足夠好(或比這好得多)。此外,將48x DIMM安裝到雙插槽服務器本身并不是一件容易的事,因此存在實際的物理限制,可以使許多服務器僅保持在1DPC,例如我們測試的QCT系統。
大型服務器與小型服務器
在低端市場,Genoa更具挑戰性。新的EPYC(霄龍)CPU需要PCIe Gen5,主板材料更好。此外,AMD的新芯片有12個內存通道。對于 96 核機器,12 個內存通道感覺是正確的選擇。對于 16 核機器來說,感覺不平衡。
AMD EPYC 9004 2P QCT 1
許多服務器位于超大規模數據中心之外。許多客戶在 2023 年沒有采用 DPU。其他人甚至沒有在整個隊列中采用PCIe Gen5 NVMe SSD或其他設備。因此,新平臺將過于昂貴。
目前DDR5的現貨定價比DDR4溢價約50%。以 50% 更高的價格增加 50% 的模塊是我們看到非二進制 DDR5 容量等功能的原因。
AMD的許多客戶將在2023 年繼續使用 AMD EPYC 7003米蘭。如果一個組織每個插槽需求的內存少于512GB,不需要DDR5帶寬,并且只使用100GbE NIC和一些SSD,那么米蘭將是不錯的選擇,也許是更好的選擇。第二個實際上是即將推出的AMD EPYC Siena系列。世界上許多應用程序的轉型速度比技術進步慢。
雖然我們已經看到AMD多年來過渡到新平臺,但隨著米蘭的出現,我們看到低端羅馬占據了一段時間的低成本細分市場。現在,隨著Genoa變得越來越大,AMD需要一些東西來解決低端問題。
AMD EYPC 9004產品參數
AMD此次發出9004系列共18款產品,其中包括9654P、9654等。
一、9654P
采用AMD Infinity Guard、AMD Infinity 架構技術,盡可能減少潛在攻擊危險,無論在軟件啟動時,執行期間,還是訪問關鍵數據時,都在為你保駕護航。為新型數據中心提供強勁動力,讓您企業的關鍵應用快速看到結果并提高能源效率。
1)9654P架構
平臺:服務器
產品家族:AMD EPYC? (霄龍)
產品系列:AMD EPYC? 9004 Series
CPU 核心數量:96
線程數量:192
最大加速時鐘頻率:最高可達3.7GHz
所有核心智能頻率提升:3.55GHz
基準時鐘頻率:2.4GHz
三級緩存:384MB
默認 TDP/TDP:360W
AMD Configurable TDP (cTDP):320-400W
封裝:SP5
支持的CPU插槽數:1P
Launch Date:2022年11月10日
2)連接性
PCI Express 版本:PCIe 5.0 x128
內存類型:DDR5
內存通道:12
最高內存速度:最高可達4800MHz
內存帶寬(每路):460.8 GB/s
二、9654
采用AMD Infinity Guard、AMD Infinity 架構技術,盡可能減少潛在攻擊危險,無論在軟件啟動時,執行期間,還是訪問關鍵數據時,都在為你保駕護航。為新型數據中心提供強勁動力,讓您企業的關鍵應用快速看到結果并提高能源效率。
1)9654架構
平臺:服務器
產品家族:AMD EPYC? (霄龍)
產品系列:AMD EPYC? 9004 Series
CPU 核心數量:96
線程數量:192
最大加速時鐘頻率:最高可達3.7GHz
所有核心智能頻率提升:3.55GHz
基準時鐘頻率:2.4GHz
三級緩存:384MB
默認 TDP/TDP:360W
AMD Configurable TDP (cTDP):320-400W
封裝:SP5
支持的CPU插槽數:1P/2P
Launch Date:2022年11月10日
2)連接性
內存類型:DDR5
內存通道:12
最高內存速度:最高可達4800MHz
內存帶寬(每路):460.8 GB/s
第四代AMD EYPC處理器服務器
藍海大腦高性能計算事業群液冷事業部搭載AMD EYPC 9004系列處理器平臺測試系統的穩定性。
藍海大腦AMD EYPC 9004系列GPU平臺概述
值得一提的是雙AMD EPYC(霄龍)處理器。每個處理器都有16 個 DDR5 內存插槽,總共 32 個 DIMM。所有這些 DIMM 通道都可以填充在 1DPC 配置中,因此添加 DDR5 DIMM 可提高性能。
藍海大腦同時搭載AMD平臺中的 EPYC Genoa風冷冷卻器用于適配深度學習、高性能計算、訓練推理等場景。藍海大腦參考英特爾平臺的第四代至強可擴展散熱器,使用英特爾至強CPU進行手動基準測試。英特爾表示其Xeon Max部件將達到350W,AMD為360W,CTDP為400W,因此它在散熱器上具有更密集的鰭片設計。
新的SP5插槽絕對是巨大的。一個很大的變化是插槽只有一個螺釘來固定CPU。AMD在這一代中正在改變,使用冷卻器的螺釘對芯片施加壓力。芯片要大得多,因此需要平衡壓力。
AMD EPYC 9004 CPU 相較于Intel酷睿更具挑戰性。雖然它們相對較大,但不會是在每個內核上表現最好的,甚至不會在這個周期中擁有AMD最高的內核數量。AMD 現在有足夠的規模來超越整個市場的單一設計,擴展內核、頻率和 TDP。相反,AMD現在將為一些較大的細分市場提供特定于細分市場的解決方案。在人工智能深度學習的推動下,誰將更勝一籌,我們將拭目以待!
審核編輯 黃昊宇
-
服務器
+關注
關注
12文章
9231瀏覽量
85625
發布評論請先 登錄
相關推薦
評論