英特爾今天舉行了其數(shù)據(jù)中心和 AI 投資者網(wǎng)絡(luò)研討會,透露其第一代高效至強 Sierra Forest 將配備令人難以置信的 144 個內(nèi)核,從而提供比 AMD 競爭的 128 核 EPYC Bergamo 芯片更高的內(nèi)核密度。該公司甚至在其活動的演示中取笑了該芯片。
英特爾還透露了 Clearwater Forest 的第一個細(xì)節(jié),它是將于 2025 年首次亮相的第二代至強處理器。英特爾跳過了其20A 工藝節(jié)點,為這款新芯片選擇了性能更高的 18A,這充分說明了其對其健康狀況的信心未來節(jié)點。該公司還展示了新產(chǎn)品和性能演示以及路線圖更新,表明該公司的 Xeon 正在按計劃推進。
英特爾還展示了幾個演示,包括針對AMD 的 EPYC Genoa 的 正面 AI 基準(zhǔn)測試,顯示 Xeon 在兩個 48 核芯片的正面交鋒中具有 4 倍的性能優(yōu)勢,以及內(nèi)存吞吐量基準(zhǔn)測試,顯示了下一代的Granite Rapids Xeon 在雙路服務(wù)器中提供令人難以置信的 1.5 TB/s 帶寬。
英特爾的披露,包括我們將在下面介紹的許多其他發(fā)展,是在該公司執(zhí)行其在四年內(nèi)交付五個新節(jié)點的大膽目標(biāo)之際發(fā)布的,這是一個前所未有的速度,將為其廣泛的數(shù)據(jù)中心和包括 CPU 、GPU、FPGA 和Gaudi AI 加速器在內(nèi)的產(chǎn)品組合提供動力, 。
英特爾在數(shù)據(jù)中心的性能領(lǐng)先地位已被 AMD 奪走,其救贖之路因Sapphire Rapids和 GPU 產(chǎn)品線的延遲而受阻。然而,該公司表示,它已經(jīng)解決了其工藝節(jié)點技術(shù)中的根本問題,并改進了其芯片設(shè)計方法,以防止其下一代產(chǎn)品的進一步延遲。讓我們看看路線圖是什么樣的。
英特爾至強 CPU 數(shù)據(jù)中心路線圖
自 2022 年 2 月上次更新以來,英特爾現(xiàn)有至強產(chǎn)品的路線圖保持不變并按計劃進行,但現(xiàn)在有一個新進入者——Clearwater Forest。我們將在下面進一步詳細(xì)介紹該芯片。
英特爾的數(shù)據(jù)中心路線圖分為兩條泳道。P-Core(性能核心)模型是傳統(tǒng)的 Xeon 數(shù)據(jù)中心處理器,其核心僅可提供英特爾最快架構(gòu)的全部性能。這些芯片專為實現(xiàn)最高的每核和 AI 工作負(fù)載性能而設(shè)計。它們還與加速器配對,正如我們在 Sapphire Rapids 中看到的那樣。
E-Core(效率核心)系列由僅具有較小效率核心的芯片組成,就像我們在英特爾的消費芯片上看到的那樣,它避開了一些功能,如 AMX 和 AVX-512,以提供更高的密度。這些芯片專為高能效、核心密度和總吞吐量而設(shè)計,對超大規(guī)模企業(yè)具有吸引力。英特爾的 Xeon 處理器不會有任何型號在同一芯片上同時具有 P 核和 E 核,因此這些是具有不同用例的不同系列。
在這里,我們可以看到英特爾的路線圖與AMD 的數(shù)據(jù)中心路線圖相比如何。當(dāng)前,AMD 去年推出的 EPYC Genoa 和英特爾今年年初推出的 Sapphire Rapids 之間的高性能大戰(zhàn)正在激烈進行。英特爾將于今年第四季度推出其更新一代的Emerald Rapids ,該公司表示將配備更多內(nèi)核和更快的時鐘速率,以及注入 HBM 的 Xeon Max CPU。AMD 的 5nm Genoa-X 產(chǎn)品定于今年晚些時候發(fā)布。明年,英特爾的下一代 Granite Rapids 將與 AMD 的 Turin 展開較量。
在效率泳道上,AMD 的 Bergamo 通過利用 AMD 密集的 Zen 4c 內(nèi)核,采用與 Sierra Forest 非常相似的重核方法,但它將在今年上半年到貨,而英特爾的 Sierra Forrest 將在2024 年上半年到貨。AMD 沒有說它的第二代 e-core 模型什么時候到貨,但英特爾現(xiàn)在在 2025 年的路線圖上有它的 Clearwater Forest。
Intel E-Core Xeon CPU:
Sierra Forest 和 Clearwater Forest
英特爾的 e-core 路線圖從 144 核 Sierra Forest 開始,它將在單個雙路服務(wù)器中提供 256 個內(nèi)核。第五代 Xeon Sierra Forest 的 144 個內(nèi)核在內(nèi)核數(shù)方面也超過了 AMD 的 128 核 EPYC Bergamo,但在線程數(shù)方面可能并不領(lǐng)先——英特爾面向消費市場的 e 內(nèi)核是單線程的,但該公司尚未透露數(shù)據(jù)中心的電子內(nèi)核是否支持超線程。相比之下,AMD 表示 128 核 Bergamo 是超線程的,因此每個插槽總共提供 256 個線程。
我們也不知道英特爾或 AMD 密集內(nèi)核的性能細(xì)節(jié),因此在芯片上市之前我們無法知道這些芯片的性能。但是,我們確實知道英特爾的 e-cores 不支持其 p-core 支持的某些 ISA;英特爾省略了 AVX-512 和 AMX 以確保最大密度,而 AMD 的 Bergamo Zen 4c 內(nèi)核支持與其標(biāo)準(zhǔn)內(nèi)核相同的功能。
不過,英特爾的 Sierra Forest 顯然在 2024 年上半年進展順利:Mountain Stream 系統(tǒng)的圖像已經(jīng)在網(wǎng)上泄露,包括您可以在下面看到的大型LGA7529 插座的圖片。該插槽將容納 e-core Sierra Forest 和 p-core Granite Rapids 處理器。
這表明 Sierra Forest 平臺已經(jīng)與英特爾的合作伙伴合作,該公司還告訴我們,它已經(jīng)為芯片供電,并在不到 18 小時的時間內(nèi)啟動了操作系統(tǒng)。該芯片是“Intel 3”工藝節(jié)點的主要載體,因此成功至關(guān)重要。英特爾有足夠的信心,它已經(jīng)向客戶提供了芯片樣品,并在活動中演示了所有 144 個內(nèi)核的運行情況。英特爾最初將 e-core Xeon 型號定位于特定類型的云優(yōu)化工作負(fù)載,但預(yù)計一旦上市,它們將被用于更廣泛的用例。
英特爾還首次公布了Clearwater Forest。英特爾沒有透露 2025 年發(fā)布時間之外的更多細(xì)節(jié),但確實表示它將為芯片使用 18A 工藝,而不是半年前到達的 20A 工藝節(jié)點。這將是第一款采用 18A 工藝的至強芯片。英特爾告訴我們,其工藝路線圖的壓縮性質(zhì)——該公司計劃在四年內(nèi)交付五個節(jié)點——使其可以選擇 2024 年到達的 18A 工藝或 2024 年下半年投入生產(chǎn)的 20A 工藝.
18A 節(jié)點是英特爾的第二代“Angstrom”節(jié)點,類似于 1.8nm。英特爾的第一代 Angstrom 節(jié)點,20A,將采用 RibbonFET,一種環(huán)柵 (GAA) 堆疊納米片晶體管技術(shù),以及英特爾的 PowerVia 背面供電 (BSP) 技術(shù)。Intel 將用于 Clearwater Forest 的 18A 工藝將比 20A 的每瓦性能提高 10%,以及其他改進,因此 Intel 選擇采用該節(jié)點,因為它是該公司在Clearwater 發(fā)射的時間表。
18A工藝擁有行業(yè)未來打算采用的所有前沿技術(shù),如GAA和BSP,因此它代表了一個非常先進的節(jié)點。英特爾聲稱 18A 節(jié)點將在其競爭對手臺積電和 AMD 中獲得明顯的工藝領(lǐng)先地位,而該公司決定跳過 20A 并為 Xeon 轉(zhuǎn)向 18A 無疑充分說明了其對該節(jié)點健康狀況的信心。英特爾還告訴我們,我們不會看到采用 20A 制造的 Xeon 型號。
Intel P-Core Xeon CPU:
Emerald Rapids 和 Granite Rapids
英特爾的下一代 Emerald Rapids 計劃于今年第四季度發(fā)布,鑒于 Sapphire Rapids 幾個月前推出,這是一個壓縮的時間框架。Emerald 將落入與 Sapphire Rapids 相同的平臺,從而減少客戶的驗證時間,并且在很大程度上是 Sapphire Rapids 的更新。然而,英特爾表示,它將提供比其前身更快的性能、更好的能效,更重要的是,它將提供更多的內(nèi)核。英特爾表示,它擁有內(nèi)部的 Emerald Rapids 硅,并且驗證正在按預(yù)期進行,硅達到或超過其性能和功率目標(biāo)。
Granite Rapids 將于 2024 年抵達,緊隨 Sierra Forest。英特爾將在“Intel 3”工藝上制造這種芯片,這是“intel 4”工藝的一個大大改進版本,缺少Xeon 所需的高密度庫。這是“intel 3”上的第一個 p-core Xeon,它將具有比 Emerald Rapids 更多的內(nèi)核、來自 DDR5-8800 內(nèi)存的更高內(nèi)存帶寬,以及其他未指定的 I/O 創(chuàng)新。
值得注意的是,第一個配備 E 核的系列 Sierra Forest 將與 P 核供電的 Granite Rapids 插座兼容;他們甚至共享相同的 BIOS 和軟件。英特爾通過將這些芯片轉(zhuǎn)移到 tile-based design來實現(xiàn)這一點,中央 I/O 塊處理內(nèi)存和其他連接功能,就像我們在 AMD 的 EPYC 處理器上看到的那樣。這將核心和非核心功能分開,因此英特爾通過使用不同類型的compute tiles來創(chuàng)建不同的處理器類型。這提供了多種好處,例如能夠使用相同的系統(tǒng)將更多線程heft與 E 核打包在一起,但在與 P 核模型相同的 TDP 范圍內(nèi)。
在其網(wǎng)絡(luò)研討會期間,英特爾演示了雙插槽 Granite Rapids,可提供驚人的 1.5 TB/s DDR5 內(nèi)存帶寬;聲稱比現(xiàn)有服務(wù)器內(nèi)存提高了 80% 的峰值帶寬。從長遠(yuǎn)來看,Granite Rapids 提供的吞吐量高于 Nvidia 的 960 GB/s Grace CPU 超級芯片,專為內(nèi)存帶寬設(shè)計,也高于 AMD 的雙路Genoa,其理論峰值為 920 GB/s。英特爾使用 DDR5-8800 多路復(fù)用器組合列 (MCR) DRAM 實現(xiàn)了這一壯舉,這是一種其發(fā)明的新型帶寬優(yōu)化內(nèi)存。英特爾已經(jīng)與 SK 海力士一起推出了這款內(nèi)存。
Granite Rapids 和 Sierra Forest 是英特爾最近重組其芯片設(shè)計流程的攔截點,這應(yīng)該有助于避免發(fā)現(xiàn)該公司對 Sapphire Rapids 處理器進行多次連續(xù)步進導(dǎo)致進一步延遲的問題。英特爾表示,Granite Rapids 在其開發(fā)周期中比 Sapphire Rapids 在這一點上走得更遠(yuǎn)。英特爾表示,Granite Rapids 正在實現(xiàn)所有工程里程碑,并且邁出了健康的第一步。因此,它現(xiàn)在已經(jīng)在向客戶提供樣品。
英特爾的數(shù)據(jù)中心和 AI 更新專注于 Xeon,但該公司的產(chǎn)品組合還包括其他“配料”,如 FPGA、GPU 和專用加速器。英特爾在定制硅領(lǐng)域有很多競爭對手,例如谷歌的 TPU 和 Argos 視頻編碼芯片(以及許多其他公司),因此 Gaudi 加速器和 FPGA 是其產(chǎn)品組合的重要組成部分。英特爾表示,今年將推出 15 款新 FPGA,創(chuàng)下其 FPGA 集團的記錄。我們尚未聽說 Gaudi 芯片取得任何重大勝利,但英特爾確實在繼續(xù)開發(fā)其產(chǎn)品線,并在路線圖上推出了下一代加速器。Gaudi 2 AI加速器出貨,Gaudi 3已錄入。
英特爾還表示其 Artic Sound 和 Ponte Vecchio GPU 正在出貨,但我們并不知道后者在一般市場上有售——相反,第一批 Ponte Vecchio 型號似乎正用于經(jīng)常延遲的 Aurora 超級計算機。
英特爾最近更新了其 GPU 路線圖,取消了即將推出的 Rialto Bridge 系列數(shù)據(jù)中心 Max GPU,并將數(shù)據(jù)中心 GPU 的發(fā)布周期改為兩年。該公司的下一個數(shù)據(jù)中心 GPU 產(chǎn)品將以Falcon Shores的形式出現(xiàn)??基于小芯片的混合芯片,但這些芯片要到 2025 年才會到貨。該公司還降低了對 Falcon Shores 的期望,稱它們現(xiàn)在將作為純 GPU 架構(gòu)出現(xiàn),并且不會像最初預(yù)期的那樣包括 CPU 內(nèi)核選項— 那些“XPU”模型現(xiàn)在沒有預(yù)計的發(fā)布日期。英特爾預(yù)測,AI 工作負(fù)載將繼續(xù)主要在 CPU 上運行,所有模型中的 60%,主要是中小型模型,都在 CPU 上運行。同時,大型模型將包含大約 40% 的工作負(fù)載,并在 GPU 和其他定制加速器上運行。英特爾還致力于為 AI 構(gòu)建可與 Nvidia 的 CUDA 相媲美的軟件生態(tài)系統(tǒng)。這還包括采用端到端的方法,在堆棧的每個點都包含芯片、軟件、安全性、機密性和信任機制。
一點思考
幾年前,英特爾就開始將其 CPU 轉(zhuǎn)向以人工智能為中心的設(shè)計,而如今人工智能通過像 ChatGPT 這樣的大型語言模型 (LLM) 進入公眾視野,證明這是一個可靠的賭注。然而,今天的 AI 格局每天都在變化。它涵蓋了一系列鮮為人知和較小的模型,因此為任何一種算法優(yōu)化新芯片都是徒勞的。當(dāng)芯片設(shè)計周期長達四年時,這尤其具有挑戰(zhàn)性——今天的許多 AI 模型當(dāng)時并不存在。
我們采訪了英特爾高級研究員 Ronak Singhal,他解釋說,英特爾很久以前就選擇專注于支持人工智能的基本工作負(fù)載需求,例如計算能力、內(nèi)存帶寬和內(nèi)存容量,從而奠定了一個廣泛適用的基礎(chǔ),可以支持任何數(shù)量的算法。英特爾還穩(wěn)步擴展了對不同數(shù)據(jù)類型的支持,例如 AVX-512 及其第一代 AMX 技術(shù),該技術(shù)現(xiàn)已出貨,支持 8 位整數(shù)和 bfloat16。Intel 還沒有告訴我們它的第二代 AMX 什么時候到貨,但它會支持 16 位整數(shù),并且將來具有支持更多數(shù)據(jù)類型的擴展性。這種支持基礎(chǔ)使英特爾能夠在許多不同類型的 AI 工作負(fù)載中使用 Xeon 提供令人印象深刻的性能,通常超過 AMD 的 EPYC。
是的,許多 AI 模型太大而無法在 CPU 上運行,而且大多數(shù)訓(xùn)練工作負(fù)載將保留在 GPU 和定制芯片領(lǐng)域,但較小的模型可以在 CPU 上運行——比如 Facebook 的 LlaMa,它甚至可以在 Raspberry Pi 上運行——與任何其他類型的計算相比,當(dāng)今更多的推理工作負(fù)載在 CPU 上運行——包括 GPU。我們預(yù)計這種趨勢將隨著更小的推理模型繼續(xù)下去,并且英特爾通過其 P-core Xeon 路線圖為這些工作負(fù)載做好了準(zhǔn)備。
英特爾不乏競爭對手,Arm 生態(tài)系統(tǒng)在數(shù)據(jù)中心的應(yīng)用越來越普遍,亞馬遜的Graviton 2、阿里巴巴的倚天、微軟 Azure 中的Ampere Altra、甲骨文云和谷歌云,Nvidia 的Grace CPU、富士通和華為鯤鵬,以及谷歌的Maple 和 Cypress等等。甚至還有兩臺使用Arm Neoverse V1 芯片的百億億級超級計算機部署:SiPearl“Rhea ”和 ETRI K-AB21。
這意味著英特爾和 AMD 一樣,需要采用更注重能效和核心密度的優(yōu)化芯片,以緩解向 Arm 遷移的超大規(guī)模和 CSP 的壓力。這以英特爾的 e-core Xeon 模型和 AMD 的 Bergamo 芯片的形式出現(xiàn)。如果 AMD 實現(xiàn)了它的路線圖,并且沒有理由相信它不會,它將憑借其密度優(yōu)化的 Bergamo 擊敗英特爾進入市場。這可能會使英特爾在高容量(但利潤率較低)的云市場中處于劣勢。另一方面,英特爾確實計劃將其后續(xù) Clearwater Forest 模型轉(zhuǎn)移到*可能*比 AMD 更先進的節(jié)點,從而在 2025 年展開有趣的競爭。
鑒于公司最近的歷史,英特爾在去年分享的 Xeon 路線圖中仍然堅定不移,這一事實令人鼓舞。18A 節(jié)點的加速采用也充分說明了公司更廣泛的基礎(chǔ)工藝技術(shù)影響其業(yè)務(wù)的各個方面。
編輯:黃飛
?
評論
查看更多