英特爾的年度創新活動最近在圣何塞舉行,該公司希望重新獲得在過去幾年中慢慢失去的大量技術動力。雖然英特爾一直在努力發布新產品,但進度的延遲和無法向親臨現場的觀眾展示他們的產品,使該公司及其產品失去了一些光澤。因此,對于在這次自疫情爆發以來舉辦的最大的現場技術活動,該公司正在盡可能多地展示其產品,以說服媒體、合作伙伴和客戶相信其CEO Pat Gelsinger的努力已經使該公司回到了正軌。
在英特爾過去幾年的奮斗中,沒有比他們的Sapphire Rapids服務器/工作站CPU更好的產品了。作為Intel真正的下一代產品,它帶來了從PCIe 5、DDR5到CXL的一切,以及一系列硬件加速卡,對于Sapphire Rapids的延遲,真的沒有什么可寫的。
但Sapphire Rapids即將到來。英特爾終于能夠看到這些開發工作隧道盡頭的光亮了。距離2023年第一季度的全面上市只有一個多季度,英特爾終于可以向更多人展示Sapphire Rapids了?;蛘邚母鼊諏嵉慕嵌葋砜?,英特爾現在需要在Sapphire Rapids的發布之前開始認真推廣它。
在今年的展會上,英特爾邀請媒體成員觀看預生產的Sapphire Rapids芯片的現場演示。演示的目的,除了讓媒體能夠說 "我們看到了它;它真的存在!"之外,也是為了開始展示Sapphire Rapids的一個更獨特的功能:其專用加速器塊的集合。
除了為CPU的處理器核心提供急需的更新外,Sapphire Rapids還為幾個常見的CPU關鍵服務器/工作站工作負載添加了專用加速器塊。簡單地說,這個想法是,固定功能芯片可以用一小部分功率完成任務,甚至比CPU核心更好,而且只需增加一小部分芯片尺寸。隨著超大規模企業和其他服務器運營商在計算密度和能源效率方面尋求重大改進,像這樣的特定領域加速器是英特爾向其客戶提供這種優勢的一個好方法。而且,競爭對手AMD預計不會有類似的加速器模塊,這對他們也沒有什么影響。
01Sapphire Rapids芯片
在我們進一步討論之前,我們先來看看Sapphire Rapids芯片的情況。
為了進行演示(以及提供給最終的評測者使用),英特爾使用預生產的芯片組裝了一些雙插口Sapphire Rapids系統。為了便于拍照,他們打開了一個系統并取出了CPU。
在這一點上,除了它的工作原理外,我們對芯片沒有什么可說的。由于它仍然是預生產產品,英特爾沒有披露時鐘速度或型號,也沒有透露非最終芯片的勘誤表。但我們所知道的是,這些芯片有60個CPU內核在運行,還有演示的加速器塊。
Sapphire Rapids加速器::AMX、DLB、DSA、IAA和AMX
不算Sapphire Rapids CPU核心上的AVX-512單元,服務器CPU將在每個CPU塊中配備4個專用加速器。
這些加速器是英特爾動態負載平衡器(DLB)、英特爾數據流加速器(DSA)、英特爾內存分析加速器(IAA)和英特爾快速輔助技術(QAT)。所有這些都作為專用設備掛在芯片網格上,本質上是作為PCIe加速器,已經集成到CPU芯片本身。這意味著加速器不消耗CPU核心資源(內存和I/O是另一回事),但這也意味著可用的加速器核心數量不會隨著CPU核心數量的增加而直接增加。
在這些加速器中,除了QAT,其他都是英特爾的新產品。QAT是個例外,因為該技術的上一代是在用于第三代至強(Ice Lake-SP)處理器的PCH(芯片組)中實現的,而從Sapphire Rapids開始,它被集成到CPU芯片本身。因此,雖然英特爾實施特定領域的加速器并不是一個新現象,但該公司在Sapphire Rapids的想法上是全力以赴的。
所有這些專用加速塊都是為了卸載一組特定的高吞吐量工作負載而設計的。例如,DSA可以加速數據復制和簡單計算,例如計算CRC32。同時,QAT是一個加密加速塊,也是一個數據壓縮/解壓縮塊。IAA也是類似的,即時數據壓縮和解壓縮,允許大型數據庫(即大數據)以壓縮形式保存在內存中。最后,DLB是加速服務器之間負載平衡的一個塊。
最后,還有Advanced Matrix Extension(AMX),它是Intel之前宣布的矩陣數學執行塊。與張量核和其他類型的矩陣加速器類似,這些是高效執行矩陣數學的超高密度塊。與其他加速器類型不同,AMX不是專用加速器,而是CPU內核的一部分,每個內核都有一個塊。
AMX是Intel在深度學習市場上的重頭戲,通過使用更密集的數據結構,它超越了目前使用AVX-512所能達到的吞吐量。雖然Intel將擁有超越這一點的GPU,但對于Sapphire Rapids,Intel希望解決需要人工智能推理的客戶群體,這些推理發生在非??拷麮PU內核的位置,而不是在一個靈活性較低、更專用的加速器中。
02實例演示
在活動上的演示中,Intel派出了測試團隊,設置并展示了一系列利用新加速器的真實情況演示,并可以對其性能進行基準測試。為此,英特爾希望展示其在自己的Sapphire Rapids硬件上與非加速(CPU)操作相比的優勢,即為什么應該在這些類型的工作負載中使用其加速器,并展示與在主要競爭對手AMD的EPYC(米蘭)CPU上執行相同工作負載相比的性能優勢。
當然,英特爾已經在內部運行這些數據。因此,這些演示的目的除了揭示這些性能數據外,還在于展示這些數據是真實的,以及它們是如何獲得這些數據的。毫無疑問,這是英特爾想要邁出的最好的一步。但它是用真正的芯片和真正的服務器來實現的,工作負載(對我來說)似乎是測試的合理任務。
QuickAssist技術演示
首先是QuickAssist Technology(QAT)加速器的演示。Intel從NGINX工作負載開始,測量OpenSSL加密性能。
為了達到大致相同的性能,Intel能夠在其Sapphire Rapids服務器上實現大約每秒66K的連接,僅使用QAT加速器和120(2x60)個CPU內核中的11個來處理演示的非加速位。相比之下,在Sapphire Rapids上無需任何QAT加速即可實現相同的吞吐量需要67個內核,而在雙插槽EPYC 7763服務器上則需要67個核心。
第二個QAT演示是在相同硬件上測量壓縮/解壓縮性能。正如我們對專用加速器塊的期望一樣,這個基準測試非常失敗。QAT硬件加速器超過了CPU,甚至在使用Intel高度優化的ISA-L庫時超過了CPU。與此同時,這幾乎是一項完全卸載的任務,因此它消耗了4個CPU內核的時間,而軟件工作負載中的所有120/128個CPU內核都是如此。
內存分析加速器演示
第二個演示是內存分析加速器。盡管名稱如此,它實際上并沒有加速任務的實際分析部分。相反,它是一個壓縮/解壓縮加速器,準備用于數據庫,以便可以在內存中操作它們,而無需大量的CPU性能成本。
在ClickHouse DB上運行演示,該場景演示了Sapphire Rapids系統與AMD EPYC系統相比,每秒查詢數達到59%的性能優勢(Intel沒有運行僅限軟件的Intel設置),并且總體上減少了內存帶寬使用量和內存使用量。
第二次IAA演示是在RocksDB上進行的,使用相同的Intel和AMD系統。Intel再次展示了IAA加速SPR系統,其性能提高了1.9倍,延遲幾乎降低了一半。
高級矩陣擴展演示
Intel設置的最后一個演示站配置為顯示Advanced Matrix Extensions(AMX)和Data Streaming Accelerator(DSA)。
從AMX開始,Intel使用TensorFlow和ResNet50神經網絡運行圖像分類基準測試。該測試在CPU上使用了非加速的FP32操作,AVX-512在Sapphire Rapids上加速了INT8,最后AMX也在Sappphire Rapid上加速了INT8。
這是加速器的又一次爆炸。由于CPU內核上的AMX塊,Sapphire Rapids系統在batch size為1的AVX-512 VNNI模式下的性能提高了2倍,而在bach size為16的情況下,性能提高了兩倍以上。當然,與EPYC CPU相比,這種情況看起來更適合Intel,因為當前Milan處理器不提供AVX-512VNNI。這里的總體性能提升不如從純CPU升級到AVX-512,但AVX-512s本身已經部分成為矩陣加速塊(除其他外)。
數據流加速器演示
最后,Intel演示了數據流加速器(DSA)塊,該塊將在Sapphire Rapids上展示專用的加速器塊。在這個測試中,Intel使用FIO設置了一個網絡傳輸演示,讓客戶端從Sapphire Rapids服務器讀取數據。這里使用DSA來卸載用于TCP數據包的CRC32計算,這一操作在Intel測試的非常高的數據速率(2x100GbE連接)下,CPU需求迅速增加。
這里使用單個CPU內核來展示效率(因為幾個CPU內核就足以使鏈路飽和),與在相同工作負載上僅使用Intel優化的ISA-L庫相比,DSA塊允許Sapphire Rapids在128K QD64順序讀取上提供76%的IOPS。EPYC系統的領先優勢甚至更大,DSA的延遲遠低于2000 us。
使用較小的16K QD256隨機讀取,在2個CPU內核上運行,也進行了類似的測試。DSA的性能優勢在這里沒有那么大——與Sapphire Rapids上的優化軟件相比,只有22%——但與EPYC相比,它的優勢更大,延遲更低。
這就是:在Intel的第4代Xeon(Sapphire Rapids)CPU上首次發布專用加速塊(和AMX)的新聞演示。我們看到了它,它確實存在,它是Sapphire Rapids計劃從明年開始為客戶帶來的一切的冰山一角。
鑒于特定于領域的加速器的性質和目的,我覺得這里沒有什么應該讓普通技術讀者感到驚訝的。DSA的存在正是為了加速專用工作負載,特別是那些CPU和/或能源密集型工作負載,這就是Intel在這里所做的。隨著服務器市場的競爭預計將成為CPU總體性能的一個熱點,這些加速塊是Intel為其Xeon處理器增加更多價值的一種方式,并且在AMD和其他推出更多CPU內核的競爭對手中脫穎而出。
預計在未來幾個月內,隨著英特爾最終將推出下一代服務器CPU,Sapphire Rapids將有更多的應用。
審核編輯 :李倩
-
英特爾
+關注
關注
61文章
9978瀏覽量
171856 -
cpu
+關注
關注
68文章
10872瀏覽量
211995 -
加速器
+關注
關注
2文章
800瀏覽量
37905
原文標題:英特爾Sapphire Rapids硬件加速器的作用大揭秘
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論