AI 與科學(xué)計(jì)算工作負(fù)載的不斷融合從新的維度帶來性能挑戰(zhàn)。除了要滿足生命科學(xué)、材料科學(xué)、制造、仿真/建模以及金融等領(lǐng)域?qū)茖W(xué)計(jì)算工作負(fù)載的既有和不斷增長(zhǎng)的需求外,企業(yè)的基礎(chǔ)設(shè)施還需滿足企業(yè)級(jí)推理和訓(xùn)練對(duì)系統(tǒng)資源的需求,從而提供良好的最終用戶體驗(yàn)。據(jù)此估計(jì),全球科學(xué)計(jì)算市場(chǎng)將以 7.7% 的復(fù)合年增長(zhǎng)率 (CAGR) 增長(zhǎng)1,到 2026 年將達(dá)到 592 億美元1。
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器單核性能更高、核數(shù)更多、I/O 和內(nèi)存子系統(tǒng)更ssss強(qiáng),并且配備了一系列內(nèi)置硬件加速器,從而能為科學(xué)計(jì)算工作負(fù)載帶來諸多助益。
實(shí)現(xiàn)科學(xué)計(jì)算系統(tǒng)的平衡
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器為科學(xué)計(jì)算工作負(fù)載帶來性能突破,助力縮短實(shí)現(xiàn)價(jià)值的時(shí)間。該平臺(tái)采用全新架構(gòu),單核性能更高,每路配備多達(dá) 60 個(gè)內(nèi)核,系統(tǒng)支持 2 路、4 路和 8 路配置。這相當(dāng)于單核密度最高可達(dá) 120 個(gè)線程,比上一代產(chǎn)品增加了 50%。
為了與內(nèi)核數(shù)增加這種情況相匹配,該平臺(tái)在內(nèi)存和 I/O 子系統(tǒng)方面也做了相應(yīng)改進(jìn)。DDR5 內(nèi)存提供的帶寬和速度最高可達(dá) DDR4 的 1.5 倍,傳輸速率達(dá)到 4800 MT/s。此外,該平臺(tái)每路有 80 條 PCIe Gen 5 通道,與之前的平臺(tái)相比,I/O 得到顯著提升。該平臺(tái)還提供 CXL (Compute Express Link 1.1) 連接,支持高網(wǎng)絡(luò)帶寬并使附加加速器能夠高效運(yùn)行。
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器可為各類快速增長(zhǎng)的工作負(fù)載提供性能加速。它內(nèi)置多種針對(duì)特定應(yīng)用的加速器,使 AI、數(shù)據(jù)分析、網(wǎng)絡(luò)、存儲(chǔ)和科學(xué)計(jì)算等領(lǐng)域工作負(fù)載的性能得到提升,其中包括:
期權(quán)定價(jià)
解決決策時(shí)間短、應(yīng)用非常復(fù)雜且要求各不相同,以及隨著 AI 應(yīng)用愈發(fā)普及,市場(chǎng)需求不斷變化等問題。
生命科學(xué)應(yīng)用
通過完善模型和執(zhí)行大規(guī)模計(jì)算來提高仿真精確度,使科研和發(fā)現(xiàn)更快速高效。
計(jì)算機(jī)輔助工程
推進(jìn)計(jì)算機(jī)輔助工程應(yīng)用快速獲得結(jié)果,助力降低成本、改善產(chǎn)品的安全和設(shè)計(jì),并加速上市。
第四代英特爾 至強(qiáng) 可擴(kuò)展處理器基于內(nèi)置硬件加速器 (包括面向科學(xué)計(jì)算的加速器,即英特爾 科學(xué)計(jì)算引擎) 引入一種實(shí)現(xiàn)高性能的新范式。
性能證明:高達(dá) 1.56 倍 (幾何平均數(shù)),為 28 個(gè)常見科學(xué)計(jì)算工作負(fù)載帶來的性能提升 (與上一代產(chǎn)品相比)2,3
英特爾 科學(xué)計(jì)算引擎
?
性能證明:高達(dá) 1.68 倍 (幾何平均數(shù)),LAMMPS 工作負(fù)載性能提升 (與上一代產(chǎn)品相比)2,3
基于內(nèi)置加速器的先進(jìn)功能
隨著工作負(fù)載復(fù)雜性及其對(duì)計(jì)算資源的需求的提高,可以從 CPU 內(nèi)核卸載某些功能,將那些執(zhí)行資源留給業(yè)務(wù)關(guān)鍵型任務(wù)。這些功能包括 AI、安全以及常見的存儲(chǔ)和網(wǎng)絡(luò)功能。
直接內(nèi)置于第四代英特爾 至強(qiáng) 可擴(kuò)展處理器芯片的硬件加速器能夠加速平臺(tái)內(nèi)的數(shù)據(jù)傳輸和處理。由于它們內(nèi)置于處理器中,與獨(dú)立解決方案或內(nèi)核上運(yùn)行的基于軟件的解決方案相比,不會(huì)產(chǎn)生訪問 PCIe 總線的時(shí)延,相應(yīng)地,就節(jié)省了能耗。利用這些內(nèi)置加速器的用例可以實(shí)現(xiàn)更好的性能并節(jié)省資本支出 (CapEx) 和運(yùn)營(yíng)支出 (OpEx)。
性能
專用的加速器大幅提升目標(biāo)工作負(fù)載的吞吐量。
設(shè)備成本
由于加速器內(nèi)置于第四代英特爾 至強(qiáng) 可擴(kuò)展處理器中,因此無需另外的設(shè)備投資。
運(yùn)營(yíng)成本
由于內(nèi)置加速器減少了在機(jī)架中增加內(nèi)核的需求,因此可以節(jié)省大量能源。
英特爾 高級(jí)矩陣擴(kuò)展 (英特爾 AMX):
事實(shí)證明,機(jī)器學(xué)習(xí)可以卓有成效地進(jìn)行科學(xué)計(jì)算工作負(fù)載調(diào)優(yōu),實(shí)現(xiàn)效率與效能的提升。英特爾 高級(jí)矩陣擴(kuò)展 (Intel Advanced Matrix Extensions,英特爾 AMX) 是一種內(nèi)置的硬件加速器,可以通過加速深度學(xué)習(xí)算法的核心 —— 張量處理,顯著提高推理和訓(xùn)練性能。該技術(shù)包括 TILE 和 TMUL (平鋪矩陣乘法) 兩部分,前者由一組可擴(kuò)展的 2D 寄存器組成,每核最多 8 個(gè) TILE,可存儲(chǔ)比上一代產(chǎn)品更大的數(shù)據(jù)塊;后者是一組矩陣乘法指令,是 TILE 上的首批算子。英特爾 AMX 使深度學(xué)習(xí)軟件能夠在給定時(shí)間段內(nèi)完成更多推理,或者更快地部署解決方案,從而加速實(shí)現(xiàn)價(jià)值。
英特爾 高級(jí)矢量擴(kuò)展 512 (英特爾 AVX-512)
最新 x86 矢量指令集
經(jīng)過多代技術(shù)發(fā)展,精度逐漸提升的矢量化技術(shù)有助于在更大的數(shù)據(jù)集上更快完成計(jì)算。英特爾 高級(jí)矢量擴(kuò)展 512 (Intel Advanced Vector Extensions 512,英特爾 AVX-512) 作為最新 x86 矢量指令集,構(gòu)建于前幾代技術(shù)的矢量處理能力基礎(chǔ)上,可加速完成數(shù)據(jù)密集型工作負(fù)載。借助兩個(gè) 512 位融合乘加 (FMA) 單元,科學(xué)計(jì)算應(yīng)用在 512 位矢量?jī)?nèi)的每個(gè)時(shí)鐘周期可打包 32 次雙精度和 64 次單精度浮點(diǎn)運(yùn)算,以及八個(gè) 64 位和十六個(gè) 32 位整數(shù),以滿足苛刻的計(jì)算工作負(fù)載需求,推動(dòng)商業(yè)智能。與英特爾 高級(jí)矢量擴(kuò)展 2 (Intel Advanced Vector Extensions 2,英特爾 AVX2) 相比,英特爾 AVX-512 使數(shù)據(jù)寄存器的寬度和數(shù)量以及融合乘加單元的寬度都增加了一倍。
英特爾 數(shù)據(jù)流加速器 (英特爾 DSA):
優(yōu)化流數(shù)據(jù)傳輸
數(shù)據(jù)傳輸和轉(zhuǎn)換操作對(duì)存儲(chǔ)、網(wǎng)絡(luò)和數(shù)據(jù)密集型工作負(fù)載 (例如科學(xué)計(jì)算中的數(shù)據(jù)分析) 的性能來說至關(guān)重要。英特爾 數(shù)據(jù)流加速器 (Intel Data Streaming Accelerator,英特爾 DSA) 能夠卸載大規(guī)模部署中會(huì)產(chǎn)生開銷的常見數(shù)據(jù)傳輸任務(wù),藉此提升這些功能的性能。通過承擔(dān)包括校驗(yàn)、內(nèi)存比較和檢查點(diǎn)在內(nèi)幾乎所有的數(shù)據(jù)傳輸操作,英特爾 DSA 可以使 CPU 內(nèi)核資源避免在數(shù)據(jù)移入移出內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)子系統(tǒng)方面產(chǎn)生開銷。英特爾 DSA 優(yōu)化了跨 CPU、內(nèi)存和緩存以及各種附加內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備的流數(shù)據(jù)傳輸。
英特爾 數(shù)據(jù)保護(hù)與壓縮加速技術(shù) (英特爾 QAT):
提升加密和壓縮速度
減少加密和數(shù)據(jù)壓縮相關(guān)開銷對(duì)于提升集群整體性能發(fā)揮著重要作用。英特爾 數(shù)據(jù)保護(hù)與壓縮加速技術(shù) (Intel QuickAssist Technology,英特爾 QAT) 作為硬件加速器內(nèi)置于第四代英特爾 至強(qiáng) 可擴(kuò)展處理器中,可實(shí)現(xiàn)更快的動(dòng)態(tài)數(shù)據(jù)加解密、更高效的數(shù)據(jù)壓縮。與前幾代技術(shù)相比,這一技術(shù)的最新版本在加解密算法、安全哈希、公鑰加密和壓縮/解壓縮方面的表現(xiàn)更出色。它通過從處理器內(nèi)核卸載這些任務(wù),釋放出內(nèi)核資源用于處理其他工作,因此提升了總吞吐量。英特爾 QAT 有助于實(shí)現(xiàn)零信任安全策略,在各種基礎(chǔ)設(shè)施中對(duì)各個(gè)階段 (靜態(tài)下、傳輸中、使用中) 的數(shù)據(jù)實(shí)施保護(hù),而無損關(guān)鍵工作負(fù)載的性能。
開發(fā)人員賦能和支持
英特爾 oneAPI 工具套件是英特爾長(zhǎng)期堅(jiān)守對(duì)科學(xué)計(jì)算軟件生態(tài)系統(tǒng)的承諾并不斷演進(jìn)的產(chǎn)物,它提供編譯器、庫(kù)和性能工具,能夠簡(jiǎn)化面向英特爾 架構(gòu)優(yōu)化的高質(zhì)量軟件的開發(fā)路徑。這些工具套件為那些想要利用第四代英特爾 至強(qiáng) 可擴(kuò)展處理器內(nèi)置加速器的開發(fā)人員提供了捷徑,以及基于標(biāo)準(zhǔn)的開源軟件開發(fā)堆棧。開發(fā)人員可以利用英特爾 oneAPI 工具套件生成代碼,全面提高各英特爾 架構(gòu) (包括內(nèi)置加速器的 CPU、GPU 和 FPGA) 的性能。
由開源工具、API 和驅(qū)動(dòng)程序等組成的大型開放式生態(tài)系統(tǒng)為基于 oneAPI 的開放標(biāo)準(zhǔn)代碼開發(fā)提供了便利。這種靈活性有助于企業(yè)和機(jī)構(gòu)降低將新服務(wù)和解決方案推向市場(chǎng)的復(fù)雜性、成本和時(shí)間要求,簡(jiǎn)化了新架構(gòu)的落地,并使工程師和程序員能夠?qū)⒕Ψ旁趧?chuàng)新而不是維護(hù)代碼上。
利用既有實(shí)現(xiàn)方案輕松集成
與英特爾合作,企業(yè)可以利用他們已經(jīng)熟悉和正在使用的大規(guī)模合作伙伴生態(tài)系統(tǒng)縮短部署時(shí)間。全球各地的硬件和軟件供應(yīng)商以及解決方案集成商都在使用英特爾 至強(qiáng) 可擴(kuò)展處理器構(gòu)建其產(chǎn)品,并通過數(shù)以千計(jì)來自真實(shí)場(chǎng)景的實(shí)現(xiàn)案例提供更多選擇和更好的互操作性。
高達(dá) 1.61 倍 (幾何平均數(shù)):第四代英特爾 至強(qiáng) 可擴(kuò)展處理器與上一代產(chǎn)品相比
高達(dá) 2.01 倍 (幾何平均數(shù)):英特爾 至強(qiáng) CPU MAX 系列與雙路第三代英特爾 至強(qiáng) 可擴(kuò)展處理器相比
為滿足各種科學(xué)計(jì)算用例而設(shè)計(jì)
憑借高性能、DDR5 帶來的更高內(nèi)存帶寬,以及 PCIe Gen 5 和 CXL 1.1 實(shí)現(xiàn)的先進(jìn) I/O,第四代英特爾 至強(qiáng) 可擴(kuò)展處理器可為一系列實(shí)際用例加速。借助英特爾先進(jìn)的軟件庫(kù)和編譯器,開發(fā)人員能夠更快速地構(gòu)建代碼,開發(fā)性能更佳且開箱即用的科學(xué)計(jì)算應(yīng)用。借助強(qiáng)大的英特爾 AVX-512 技術(shù)和每?jī)?nèi)核 2 個(gè) FMA 單元,代碼和模型可滿足嚴(yán)苛的計(jì)算工作負(fù)載要求。利用英特爾 MPI 庫(kù),工作負(fù)載能夠在多個(gè)科學(xué)計(jì)算集群中進(jìn)行擴(kuò)展。此外,您還可配置英特爾 傲騰 持久內(nèi)存,在更大的內(nèi)存中支持大型計(jì)算任務(wù)。
利用支持科學(xué)計(jì)算工作負(fù)載的英特爾 技術(shù)實(shí)現(xiàn)更多可能
提升帶寬
與僅采用 DDR5 的平臺(tái)相比,全新英特爾 至強(qiáng) CPU Max 系列通過消除建模、AI、科學(xué)計(jì)算和數(shù)據(jù)分析等內(nèi)存敏感型工作負(fù)載的瓶頸,將性能提升高達(dá) 4 倍。這是英特爾首款將高帶寬內(nèi)存和加速器整合到處理器封裝中的 x86 CPU,其中 HBM2e 內(nèi)存容量最高可達(dá) 64 GB。它減少了對(duì) DDR 的依賴,可支持最新軟件工具并且具有出色的代碼復(fù)用性,因此降低了 TCO。
擴(kuò)大影響
旗艦產(chǎn)品英特爾 數(shù)據(jù)中心 GPU Max 系列采用英特爾先進(jìn)的 IP 和封裝技術(shù),旨在加速 AI、科學(xué)計(jì)算和高級(jí)分析工作負(fù)載,滿足 E 級(jí)時(shí)代的要求。該系列基于英特爾 Xe HPC 架構(gòu),GPU 中配備有高帶寬緩存。在 oneAPI 開放生態(tài)系統(tǒng)的支持下,GPU 展現(xiàn)了出色的靈活,既可處理 SIMT (Single Instruction Multiple Threads,單指令多線程),也可處理 SIMD (Single Instruction Multiple Data,單指令多數(shù)據(jù)),它的封裝內(nèi)集成了多項(xiàng) IP 創(chuàng)新技術(shù),包括高帶寬內(nèi)存。
微秒級(jí)數(shù)據(jù)訪問
DAOS (分布式異步對(duì)象存儲(chǔ)) 是一種開源的軟件定義橫向擴(kuò)展對(duì)象存儲(chǔ)系統(tǒng),可以在單一存儲(chǔ)層中經(jīng)濟(jì)高效地為科學(xué)計(jì)算和 AI 應(yīng)用提供高帶寬、低時(shí)延和高 IOPS 的存儲(chǔ)容器。DAOS 原生支持結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集,同時(shí)還擺脫了傳統(tǒng)分布式存儲(chǔ)的局限性。
評(píng)論
查看更多