NoLoad 計算存儲設(shè)備與英特爾 Agilex FPGA 及英特爾 至強 處理器相結(jié)合,可為要求嚴苛的存儲和計算工作負載帶來出色性能,同時顯著降低TCO。
如今的計算工作負載比過去規(guī)模更大、更復(fù)雜、更多樣化。科學(xué)計算、人工智能 (AI)、機器學(xué)習(xí)(ML)、數(shù)據(jù)分析和其他專門任務(wù)的爆發(fā)式增長正在推動數(shù)據(jù)量呈指數(shù)級增長。而處理這些數(shù)據(jù)不僅需要大量算力,還需要具備低時延、高帶寬的數(shù)據(jù)存取能力。
計算存儲
(Computational Storage)
隨著存儲市場規(guī)模的擴大,我們需要新的技術(shù)和解決方案來傳輸、管理和保護已存儲的數(shù)據(jù)。要增加存儲容量,可視化、數(shù)據(jù)保護、數(shù)據(jù)安全(加密)和數(shù)據(jù)壓縮等存儲處理功能必不可少。然而,這些功能常涉及多種需要消耗大量計算周期的基礎(chǔ)設(shè)施服務(wù)。
過去,從 CPU 內(nèi)核卸載基礎(chǔ)設(shè)施功能的第一步是引入 SmartNIC。SmartNIC會使用 FPGA 來增強常規(guī)網(wǎng)卡 (NIC) 中以太網(wǎng)芯片組的性能。但“SmartNIC”這個詞某種程度上已被賦予了太多含義,不同供應(yīng)商提供的實現(xiàn)方案往往截然不同。不管怎樣,SmartNIC 在最基礎(chǔ)層面上可定義為可編程的網(wǎng)卡。換言之,SmartNIC 支持從 CPU 內(nèi)核中卸載基礎(chǔ)設(shè)施功能的數(shù)據(jù)路徑部分。
近期,英特爾推出基于 FPGA 的基礎(chǔ)設(shè)施處理單元(IPU),配備高端 FPGA 及緊密耦合的英特爾 至強 CPU 等高端處理器,將這一卸載過程提升至更高水平。IPU 是 SmartNIC 的演進產(chǎn)品,可視為“更智能的 SmartNIC”,它通過將能夠處理數(shù)據(jù)路徑功能的 FPGA 和能夠處理控制路徑功能的 CPU 相結(jié)合,可在更大程度上卸載主機系統(tǒng)上的工作負載。
英特爾 Agilex 7 FPGA 的高速收發(fā)器、高密度邏輯和大內(nèi)存,結(jié)合英特爾及其合作伙伴提供的知識產(chǎn)權(quán) (IP) 解決方案,可幫助開發(fā)人員輕松創(chuàng)建理想的在線、近線和離線存儲解決方案。
在數(shù)據(jù)中心領(lǐng)域,F(xiàn)PGA 可提供數(shù)據(jù)分析、AI、智能網(wǎng)絡(luò)、超融合存儲等功能實現(xiàn)加速所需的低時延卸載能力。FPGA 支持內(nèi)聯(lián)、旁路和多功能處理模式,通過減少復(fù)雜的瓶頸問題來卸載 CPU 的工作負載(圖 1)。
圖 1. FPGA 支持內(nèi)聯(lián)、旁路和多功能處理解決方案。
就計算存儲 (CS) 這一全新存儲范式而言,系統(tǒng)架構(gòu)的特點是將計算存儲功能 (CSF)接入存儲設(shè)備本身,進而卸載主機處理器上的工作負載,減少數(shù)據(jù)傳輸。使用這種架構(gòu),CSF 計算資源可以部署于固態(tài)盤 (SSD) 存儲設(shè)備本身[在這種情況下,這些設(shè)備將歸類為計算存儲設(shè)備 (CSD)],或者部署在位于固態(tài)盤和主機之間的設(shè)備上,例如基于 FPGA 的加速器、SmartNIC 或 IPU。
基于 FPGA 的加速器可以為包括壓縮和解壓縮、加密和解密、SQL 查詢以及圖算法(中心性算法、尋路算法、社區(qū)檢測算法等)在內(nèi)的更多功能加速。
另一個潛在的應(yīng)用是數(shù)據(jù)轉(zhuǎn)碼。例如,很多數(shù)據(jù)庫目前都在采用開源內(nèi)存格式 Apache Arrow(一種與語言無關(guān)的軟件框架,用于開發(fā)處理列式數(shù)據(jù)的數(shù)據(jù)分析應(yīng)用),因為它有助于在現(xiàn)代 CPU 和 GPU 硬件上進行高效的數(shù)據(jù)分析操作。此外,還有開源的磁盤數(shù)據(jù)存儲格式 Apache Parquet。該存儲格式提供高效的數(shù)據(jù)壓縮和編碼方案,能夠以更強的性能,批量處理復(fù)雜的數(shù)據(jù)。可以預(yù)見,Apache Arrow 和 Apache Parquet 之間的數(shù)據(jù)轉(zhuǎn)碼將變得越來越重要。
Eideticom NoLoad 解決方案釋放
第四代英特爾 至強 可擴展處理器強大性能
如前所述,計算存儲帶來的助益能夠提升應(yīng)用的性能和/或減少主機 CPU 內(nèi)核用量,而釋放出來的內(nèi)核資源可用于執(zhí)行其他創(chuàng)收任務(wù)。這可以提升基礎(chǔ)設(shè)施效率,降低 TCO。
Eideticom 是專為數(shù)據(jù)中心存儲或計算工作負載開發(fā)計算存儲解決方案的領(lǐng)航企業(yè),同時也是英特爾的合作伙伴之一1。Eideticom NoLoad 解決方案是一種基于 NVM Express (NVMe)的計算存儲處理器 (CSP)。NoLoad 計算存儲解決方案打破了處理存儲密集型或計算密集型工作負載時以 CPU 為中心的計算系統(tǒng)面臨的諸多限制。
NoLoad 解決方案現(xiàn)已量產(chǎn)并且正在出貨,它基于 Eideticom 硬件合作伙伴多種外形規(guī)格,如 BittWare 的 IA-220-U22 U. 2 模塊和 IA-420F3 卡——二者均采用了可通過 PCIe 4.0 與主機 CPU 進行通信的英特爾 Agilex 7 FPGA(圖 2)。
NoLoad 具備一整套功能,包括壓縮和解壓縮、加密和解密、去重和數(shù)據(jù)分析。
作為“金融科技”的集大成者,F(xiàn)SI將是 NoLoad 技術(shù)的一大受益者。FSI是指在交付金融服務(wù)方面使用新技術(shù)與傳統(tǒng)金融方法展開競爭的公司。AI、區(qū)塊鏈、云計算和大數(shù)據(jù)被視為 FSI 的 “ABCD”(四大關(guān)鍵領(lǐng)域)。
FSI 分析用例的
基準(zhǔn)測試
近期,我們通過一項基準(zhǔn)測試對在兩種不同計算環(huán)境中執(zhí)行的典型高端 FSI 任務(wù)進行了比較。該真實場景示例配備了一款性能出色、軟件定義的數(shù)據(jù)包捕獲與分析引擎。
基準(zhǔn)測試場景 1 僅在兩個第四代英特爾 至強 可擴展處理器[之前代號 Sapphire Rapids (SPR)] 上的軟件中運行。場景 2 則利用基于 FPGA 的加速器使 CPU 性能得到增強,且所有這些設(shè)備均接入 Eideticom NoLoad 解決方案。
FSI 任務(wù)涉及對 1 GB 數(shù)據(jù)文件中的股票市場數(shù)據(jù)執(zhí)行壓縮和解壓縮。
場景 1 的硬件配備的是 2 個主頻為 2 GHz 的第四代英特爾 至強 可擴展處理器(雙路平臺)(圖 3)。每個 CPU 包含 56 個內(nèi)核,每個內(nèi)核對應(yīng)兩個線程,因此共有 224 個可用內(nèi)核。
圖 3. 數(shù)據(jù)包的所有處理操作均在主機 CPU 內(nèi)核上進行。
場景 2 的硬件(圖 4)使用了在 CPU 和基于 FPGA 的加速器上實現(xiàn)的 NoLoad 解決方案。用于壓縮/解壓縮的是 2 個 IA-220-U2 卡。
圖 4. 來自主機的數(shù)據(jù)包經(jīng)由 PCIe 傳輸至 BittWare IA-220-U2,以使用 NoLoad 框架和 IP 實現(xiàn) FPGA 存儲服務(wù)加速。
在這一基準(zhǔn)測試中,數(shù)據(jù)包經(jīng)壓縮后寫入固態(tài)盤陣列。NoLoad 軟件堆棧支持在文件系統(tǒng)、內(nèi)核空間或用戶空間中使用 NoLoad 壓縮和解壓縮服務(wù)。
圖 5. 基于第四代英特爾 至強 可擴展處理器和英特爾 Agilex 7 FPGA 加速器的 Eideticom NoLoad 解決方案基準(zhǔn)測試結(jié)果。數(shù)據(jù)源自 Eideticom。
基準(zhǔn)測試結(jié)果
分析對比場景 1 和場景 2 中 3 個關(guān)鍵指標(biāo)(吞吐性能、CPU 內(nèi)核用量和總功耗)的測試結(jié)果(圖 5)可以清楚地看到,雖然基于 FPGA 的加速器的測試場景中性能幾乎相同,但所使用的 CPU 內(nèi)核數(shù)量大大減少,功耗也更低。FPGA 場景的總功耗為系統(tǒng)總功耗,包括 CPU 內(nèi)核、NMVe 存儲和兩個 FPGA 卡。FPGA 卸載 能力結(jié)合 NoLoad 解決方案釋放的 CPU 內(nèi)核現(xiàn)在可用于執(zhí)行其他任務(wù)或工作負載。
CPU內(nèi)核用量減少96%(越低越好) 功耗降低24%(越低越好)
表 1. 基于基準(zhǔn)測試結(jié)果的 TCO 計算和假設(shè)
注:
取決于 FPGA 卡(自主設(shè)計或從第三方供應(yīng)商處購買現(xiàn)貨)。
聯(lián)系 Eideticom 獲取 NoLoad 解決方案報價。
每個 CPU 內(nèi)核的價值 =(每小時 1.06 美元/8 個內(nèi)核)x 24 小時 x 30 天 = 95.40 美元。
假設(shè)電力成本 = 0.04 美元/千瓦。
假設(shè)兩種場景均在 2 秒內(nèi)完成操作。
TCO 節(jié)省情況估算
表 1 中從財務(wù)角度對使用基于 FPGA 的加速器的測試場景進行了考量。我們使用亞馬遜云服務(wù) EC2 實例的價格代表每個 CPU 內(nèi)核的價值。基于亞馬遜 EC2 F1 實例(提供基于 FPGA 的加速器的虛擬云服務(wù) + 每 CPU 內(nèi)核服務(wù)),我們假設(shè)每小時成本為 1.06 美元4。這一成本包含使用 1 個 FPGA 和 8 個虛擬 CPU 內(nèi)核的費用,不過為了簡化計算,假設(shè)該價格僅適用于 CPU 內(nèi)核。
第四代英特爾 至強 可擴展處理器
第四代英特爾 至強 可擴展處理器專為快速增長的計算密集型和內(nèi)存密集型工作負載實現(xiàn)更高性能而設(shè)計。
通過內(nèi)置加速器和軟件優(yōu)化,上一代英特爾 至強 可擴展處理器已被證明可以在真實場景下的目標(biāo)工作負載上實現(xiàn)出色的每瓦性能5。這不但可以提高 CPU 利用率、降低功耗、提升投資回報率(ROI),而且還能幫助企業(yè)實現(xiàn)可持續(xù)發(fā)展目標(biāo)。
第四代英特爾 至強 可擴展處理器內(nèi)置更多加速器,可為AI、數(shù)據(jù)分析、網(wǎng)絡(luò)、存儲和科學(xué)計算等快速增長的工作負載帶來更大的性能和能效優(yōu)勢。為實現(xiàn)新的內(nèi)置加速器功能,英特爾還為生態(tài)系統(tǒng)提供了操作系統(tǒng)級軟件、庫和 API 支持。值得一提的是,全新英特爾 至強 可擴展處理器還具備其他一些重要特性,包括支持 DDR5、PCI Express 5.0 和 Compute Express Link (CXL) v1.1。
英特爾 Agilex 7 FPGA
從數(shù)據(jù)中心到網(wǎng)絡(luò),再到邊緣,F(xiàn)PGA 在現(xiàn)代應(yīng)用中發(fā)揮著越來越重要的作用。FPGA 的靈活性、出色能效、大規(guī)模并行架構(gòu)和高輸入/輸出 (I/O) 帶寬使其在加速和/或卸載AI、存儲和網(wǎng)絡(luò)等廣泛任務(wù)方面非常具有吸引力。這些應(yīng)用中有很多都對內(nèi)存提出了嚴苛要求(包括內(nèi)存的容量、帶寬、時延和能效)。為了滿足這些應(yīng)用的嚴苛要求,英特爾開發(fā)了英特爾 Agilex 7 FPGA 和 SoC FPGA(圖 6)。
英特爾 Agilex 7 FPGA I 系列6 采用了英特爾的 10 納米 SuperFin 技術(shù),專為帶寬密集型應(yīng)用打造。這些 FPGA 和 SoC FPGA 包含支持外部 DDR4 內(nèi)存的硬核化控制器,同時還支持 FPGA 領(lǐng)域首個 CXL 硬核 IP,使開發(fā)人員能夠?qū)r延敏感型功能通過 CXL 互聯(lián)技術(shù)卸載至加速器上。
英特爾 Agilex 7 FPGA M 系列7 是第一款基于英特爾 7 制程工藝實現(xiàn),并配備有封裝 HBM2e 內(nèi)存的英特爾 Agilex FPGA。英特爾 7 制程工藝可實現(xiàn)更高的可編程邏輯結(jié)構(gòu)容量和性能,功耗也更低。硬核化控制器可支持 DDR5 和 LPDDR5 等先進的內(nèi)存技術(shù)。
英特爾 Agilex 7 FPGA 和 SoC FPGA 可帶來出色的 I/O 帶寬(這對于當(dāng)今需要處理海量數(shù)據(jù)負載的系統(tǒng)而言至關(guān)重要),收發(fā)器數(shù)據(jù)速率高達 116 Gbps,并可支持 PCIe 5.0 和 CXL 1.1/2.0。
總結(jié)
如今的計算工作負載比過去規(guī)模更大、更復(fù)雜、更多樣化。通過將全新英特爾 產(chǎn)品與 Eideticom 和 Bittware 等合作伙伴的創(chuàng)新解決方案相結(jié)合,客戶可顯著降低目標(biāo)用例或工作負載的 TCO。
在很多情況下,將算法密集型和時延敏感型功能卸載至基于英特爾 Agilex FPGA 的加速器上,可釋放主機 CPU 內(nèi)核,用于執(zhí)行其他創(chuàng)收任務(wù),使第四代英特爾 至強 可擴展處理器發(fā)揮更大的價值。FSI 正是眾多從中受益的用例之一。
未來,Eideticon Noload解決方案還將移植到更高版本的 BittWare 卡(IA-440i8)上,這么做可能會將用于此 FSI 用例的 FPGA 卡從 2 個減至 1 個。
審核編輯:湯梓紅
-
處理器
+關(guān)注
關(guān)注
68文章
19259瀏覽量
229652 -
英特爾
+關(guān)注
關(guān)注
61文章
9949瀏覽量
171693 -
cpu
+關(guān)注
關(guān)注
68文章
10854瀏覽量
211583 -
存儲
+關(guān)注
關(guān)注
13文章
4296瀏覽量
85799 -
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238253
原文標(biāo)題:Eideticom NoLoad? 解決方案釋放第四代英特爾? 至強? 可擴展處理器強大性能,更好支持存儲計算
文章出處:【微信號:英特爾FPGA,微信公眾號:英特爾FPGA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論