Intel下一代旗艦級CPU Sapphire Rapids將會是Intel在CPU領域的一次重要新產品。該CPU將會使用Intel 7工藝,并且大規模使用了chiplet(芯片粒)技術,從而讓單個CPU中可以包含高達60個核心,從而讓Intel不至于在高級封裝驅動的下一代CPU競爭中落后AMD。
Sapphire Rapids早在幾年前就已經宣布要開發,而其正式出貨在多次推遲后,終于在最近幾個月有了更確定的消息。根據最近Intel發布的消息,Sapphire Rapids將在2023年正式出貨。而在9月底,Intel也在自家舉辦的活動Innovation Event上發布了基于Sapphire Rapids樣片的demo,這也讓Sapphire Rapids的一些重要特性讓外界有了更加詳細的認知。
在Sapphire Rapids的這些新特性中,除了chiplet這一個廣為人知的技術之外,最值得關注的就是使用了異構計算的架構,集成了許多為專門計算領域優化的加速器(domain specific accelerator,DSA)。在過去的幾十年中,由于CPU性能借著摩爾定律的高速發展而飛速提升,大多數時候用戶會考慮只使用CPU來處理所有的算法,即使用一個通用架構來解決所有問題。然而,隨著摩爾定律的發展接近瓶頸,使用一個通用架構解決所有問題已經不再現實,因為CPU性能的發展速度已經跟不上應用的需求,因此異構計算的思路得到了越來越多的重視,即為了重要的應用專門設計相關的計算加速模塊,從而加速計算性能,同時也改善效率。
我們認為Intel在下一代CPU Sapphire Rapids中引入大量異構計算是一個里程碑式的事件,這是因為傳統上來說通用型CPU和異構計算是兩個芯片設計陣營,通用CPU設計的時候會嘗試改善性能從而說服用戶無需使用異構計算;而Intel這次在Sapphire Rapids中主動引入大量異構計算加速器,這也說明了異構計算確實已經成為極其重要的主流設計方案,與其單獨設計CPU然后讓其他公司去設計相關的異構計算芯片搶走市場,還不如在自己的CPU中主動擁抱異構計算,集成相關的加速器,來確保滿足用戶的需求。
具體來看,這次Intel在Sapphire Rapids中集成的獨立加速器主要包括動態負載平衡模塊(DLB),數據流加速器(DSA),內存內分析加速器(IAA),以及快速協助模塊(QAT)。這些獨立的加速器是作為一個單獨模塊集成在CPU之外的。除了這些單獨加速模塊之外,Intel還在每個CPU核心中集成了用于矩陣計算加速的AMX模塊(Advanced Matrix Extensions)。
我們不妨來看一下這些加速模塊的具體功能。DLB的主要功能是加速不同服務器之間的負載均衡,從而保證服務器的大規模部署分布式計算。DSA主要用于加速CPU和存儲(NVMe以及TCP)之間的數據交換和數據轉換。IAA主要用于數據庫應用,可以加速數據庫相關應用中的數據壓縮和解壓。QAT主要用于網絡相關應用中的數據壓縮和加密運算。最后,AMX主要是用于人工智能相關的矩陣運算。
我們可以看到,這些加速器幾乎都是針對目前最火熱的大數據應用,主要目的都是改善這些大數據應用中的痛點。DSA,IAA和QAT針對的應用目前基本都是CPU是主要計算單元,但是由于在數據傳輸等領域傳統CPU的效率不高,目前有不少公司試著在用專門的ASIC來取代CPU,因此Intel這次在Sapphire Rapids中引入這些加速器正是一個希望能保住這些市場中公司份額的舉動。AMX主要針對矩陣運算,目前雖然GPU是人工智能相關計算的主流計算單元,但是也有一些模型因為需要使用的一些算子GPU支持不夠好,仍然是在CPU上計算,而Intel的AMX正是針對這些模型的部署做加速。
異構計算為軟件定義芯片鋪平道路
如前所述,Intel在Sapphire Rapids中加入了大量異構計算特性,其主要目的是為了提升性能,確保市場競爭力。而除了這之外,異構計算其實還有另外一個優勢,就是可以實現軟件定義芯片。這是因為異構計算中,不同的加速器模塊相對獨立,因此可以通過軟件的方式來實現控制這些加速器的開關。這也事實上讓付費訂閱芯片功能這樣的商業模型成為了可行:使用同一款芯片,用戶可以在不同的時間點根據需求靈活訂閱相關的芯片功能并支付相關的費用,從而讓整個芯片的購買和使用過程更加靈活。
對這樣新商業模式的嘗試也正是Intel在Sapphire Rapids里計劃要做的。Intel之前把這樣的模式稱為Software Defined Silicon(SDSi),而在上周Intel剛剛發布的針對該功能的正式Linux代碼中,該模式被改名成了Intel On-Demand(IOD)。根據Intel公布的代碼,IOD將會首先檢測相關的加速器IP是否存在于對應的物理芯片中,而在檢測到相關的加速器IP之后,管理員可以通過IOD來激活這些加速器IP。同時,IOD還可以統計這些相關加速器IP的使用頻率,從而幫助系統管理員來決定要購買哪種對應的付費訂閱方案。
隨著先進半導體工藝的成本越來越高,事實上使用軟件定義芯片正在成為越來越合理。使用軟件定義芯片,芯片設計公司只需要設計一款芯片,然后可以通過軟件的形式來針對不同的用戶群體。這樣一來,芯片公司就無需為了不同的受眾群體而設計多款不同的芯片,因為在先進半導體工藝中,每一款芯片的NRE成本都是非常高的。當然,軟件定義芯片造成了芯片面積的一些浪費(例如入門級用戶可能不會付費激活大多數加速器IP),但是在NRE成本越來越高的今天,通過一些芯片面積來交換較低的總NRE成本正在成為越來越合理的選擇。
軟件和異構計算引領行業變革
隨著摩爾定律逐漸走向飽和,軟件(包括狹義的軟件定義芯片和廣義的軟件-芯片協同優化)和異構計算將會引領高性能計算芯片繼續演進。從行業上來看,除了上文討論的Intel之外,AMD和Nvidia在相關方向上都有重要的布局。
AMD在異構計算和軟件方面的布局主要包括對于Xilinx的收購和在高性能計算GPU(CDNA系列)領域的軟件生態投資。收購FPGA領域的領導者Xilinx確保了AMD有機會能把FPGA技術和處理器業務整合在一起,而FPGA正是異構計算的一個重要范式之一。在軟件方面,AMD繼續大力投資CDNA系列GPU和相關軟件生態(包括與CUDA競爭的ROCM生態),預計在未來5-10年內會把CDNA系列GPU生態打造成和Nvidia生態有一較高下的實力。
Nvidia在軟件生態方面擁有護城河極高的CUDA,我們認為在可預計的將來該軟件生態將會成為Nvidia繼續大力布局的領域同時也將是Nvidia最大的競爭力來源之一。隨著AMD和Intel進一步在GPU和AI加速卡領域的投資,該領域的競爭會變得愈加激烈,軟件生態也將會成為決定市場競爭力最關鍵的核心之一。在異構計算領域,我們也看到了Nvidia在GPU設計中越來越針對相關算法做專用加速器,例如針對整數計算的Tensor Core,以及在最新Hopper系列GPU中加入的Transformer Engine IP。另外一個不容小覷的方向是Nvidia自動駕駛芯片,在Nvidia公布的Orin等自動駕駛芯片中,我們可以看到它集成了多種針對專門應用的加速器,可謂是異構計算的典范。
我們預計,整個高性能計算芯片行業都會繼續大力布局軟件和異構計算,而在某一個時間點,軟件和異構計算將會慢慢融合,例如針對特定算法應用優化的異構計算IP(軟件芯片協同優化),同時通過軟件定義芯片的方式來實現潛在的新商業模式。整個行業將會看到越來越多在軟件方面的投資和收購(例如Intel不久之前對于codeplay的收購),同時整個芯片設計范式將會看到越來越多軟件和芯片設計的協同優化。
-
芯片
+關注
關注
456文章
50965瀏覽量
424857 -
cpu
+關注
關注
68文章
10882瀏覽量
212236
發布評論請先 登錄
相關推薦
評論