電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)生成式人工智能(GenAI)經(jīng)歷2023年的興起,在2024年迎來新的高度,近期文生視頻又火爆全網(wǎng)。GenAI將滲透到教育、就業(yè)、制造、醫(yī)療和交通等各個(gè)領(lǐng)域,創(chuàng)新應(yīng)用不斷涌現(xiàn)。這其中除了GPU對AI至關(guān)重要之外,不斷優(yōu)化的CPU性能同樣必不可少。在AI時(shí)代,以Arm為代表的半導(dǎo)體設(shè)計(jì)及軟件平臺(tái)公司為這些創(chuàng)新奠定基石。
Arm高級副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理Mohamed Awad分析,計(jì)算正越來越專用化,通用CPU不再能滿足需求。以基礎(chǔ)設(shè)施領(lǐng)域來看,計(jì)算轉(zhuǎn)型持續(xù)朝向更復(fù)雜的倉庫級計(jì)算。與此同時(shí),許多頭部企業(yè)正在打造定制芯片,并希望對支持云計(jì)算關(guān)鍵工作負(fù)載的計(jì)算進(jìn)行優(yōu)化。
近日,Arm 宣布推出兩款全新 Arm Neoverse 計(jì)算子系統(tǒng) (CSS) —— Neoverse CSS N3 和 Neoverse CSS V3,專注于釋放芯粒等新技術(shù)的潛力,并更大限度地優(yōu)化實(shí)際工作負(fù)載的 TCO,這對于包括AI、數(shù)據(jù)庫、網(wǎng)絡(luò)等在內(nèi)的整個(gè)生態(tài)系統(tǒng)至關(guān)重要。
CSS N3 和 CSS V3均基于全新的第三代 Neoverse IP 構(gòu)建,N 系列聚焦能效,而V系列平臺(tái)針對性能優(yōu)先,這也是V系列首次引入CSS。
Neoverse CSS N3和CSS V3性能顯著提升
據(jù)Arm 基礎(chǔ)設(shè)施事業(yè)部產(chǎn)品解決方案副總裁 Dermot O’Driscoll介紹,CSS N3在進(jìn)行了調(diào)優(yōu)后,提供滿足基礎(chǔ)設(shè)施性能要求的高效計(jì)算。CSS N3與CSS N2 相比,其每核心的每瓦性能提升20%。CSS N3 的首個(gè)實(shí)例可提供 32 核,熱設(shè)計(jì)功耗 (TDP) 低至 40W。其可擴(kuò)展性非常強(qiáng),可覆蓋電信、網(wǎng)絡(luò)和 DPU 等一系列應(yīng)用。同時(shí)還考慮到橫向擴(kuò)展云配置。CSS N3 基于新的 Neoverse N3 IP 平臺(tái)打造,為 N 系列產(chǎn)品引入了 Armv9.2 功能,能為每個(gè)核心提供 2MB 的專用 L2 緩存,并支持最新的 PCIe 和 CXL I/O 標(biāo)準(zhǔn)以及 UCIe 芯粒標(biāo)準(zhǔn)。
CSS V3 基于新的Neoverse V3 核心打造,是 Arm 目前單線程性能最高的 Neoverse 核心。與CSS N2 產(chǎn)品相比,CSS V3的單芯片性能提高了50%。CSS V3 在單芯片上最多可擴(kuò)展至 128 核,并支持最新的高速內(nèi)存和 I/O 標(biāo)準(zhǔn)。V3 為 Arm 機(jī)密計(jì)算架構(gòu) (CCA) 提供硬件支持。V3也可提供業(yè)界領(lǐng)先的專用 L2 緩存大小,顯著改善性能表現(xiàn)。
以下(見下圖)是基于 Neoverse N 系列和 V 系列打造的芯片在一些關(guān)鍵工作負(fù)載下的性能數(shù)據(jù)。Dermot O’Driscoll表示,這種代際產(chǎn)品之間的性能提升只有通過 Arm 才能實(shí)現(xiàn),因?yàn)?Arm 能讓客戶掌握創(chuàng)新的步伐,而不受制于技術(shù)供應(yīng)商。
與AI的耦合,面向AI基礎(chǔ)設(shè)施
新的CPU核心帶來全方位的良好提升,包括從視頻處理到 SQL 數(shù)據(jù)庫的性能均有所躍進(jìn)。N 系列在壓縮方面取得性能優(yōu)勢,可降低云服務(wù)運(yùn)營商的成本,并最終降低云服務(wù)客戶的成本。V 系列顯著提高了協(xié)議緩沖區(qū)的性能,這是在數(shù)據(jù)中心內(nèi)傳輸數(shù)據(jù)的一項(xiàng)關(guān)鍵功能。在這里,Dermot O’Driscoll重點(diǎn)解析了通過分析關(guān)鍵工作負(fù)載核心的任務(wù)算法,對微架構(gòu)進(jìn)行調(diào)整從而獲得的性能效果。
AI數(shù)據(jù)分析工作負(fù)載就是最好的例證。XGBoost 是一種強(qiáng)大且廣泛使用的機(jī)器學(xué)習(xí) (ML) 算法,可以幫助人們理解數(shù)據(jù)并做出更明智的決策。例如為人們推薦下一個(gè)媒體內(nèi)容,預(yù)測高峰時(shí)段的打車費(fèi)用,以及等提供相關(guān)的機(jī)票優(yōu)惠等等。
在這個(gè)用例中(見下圖),通過改進(jìn)分支預(yù)測,更好地管理最后一級緩存和相關(guān)內(nèi)存帶寬,以及大幅增加 L2 緩存。其結(jié)果令人驚嘆,N3 的性能提升高達(dá) 196%。
目前行業(yè)重點(diǎn)放在訓(xùn)練大語言模型(LLM)上,但更多業(yè)務(wù)落地在AI推理。分析師認(rèn)為,已部署的 AI 服務(wù)器中有高達(dá) 80% 專用于推理。也就是說找到合適的模型和模型配置,并加以訓(xùn)練,然后將其部署到更具成本效益的計(jì)算基礎(chǔ)設(shè)施上。
Dermot O’Driscoll表示,這一轉(zhuǎn)變意味著吞吐量是考量因素之一,而在基于 Arm 架構(gòu)的芯片上,Token 生成吞吐量表現(xiàn)相當(dāng)優(yōu)異。其他考量因素還包括靈活性、易于部署,可支持各種軟件框架,具備低成本和高能效等優(yōu)勢。CPU 推理將是生成式AI計(jì)算應(yīng)用的關(guān)鍵組成。下圖為Arm在CPU推理的 LLM 優(yōu)化方面的初步數(shù)據(jù)。可以看到,這些工作負(fù)載已從 ML 專用的 Neoverse 功能(如 Bfloat16、MatMul、SVE 和 SVE2),以及微架構(gòu)優(yōu)化中受益。
當(dāng)然,除了CPU的AI推理,AI加速器也備受關(guān)注。據(jù)最新統(tǒng)計(jì),打造 AI 加速器的公司已接近 80 家。以NVIDIA來看,NVIDIA不僅利用其領(lǐng)先的 Hopper GPU,同時(shí)也使用了基于 Neoverse V2 平臺(tái)的緊耦合計(jì)算芯粒Grace。Dermot O’Driscoll談到,NVIDIA Grace Hopper 的一大關(guān)鍵創(chuàng)新在于內(nèi)存容量和共享內(nèi)存模式。這種緊耦合的 CPU 加上加速器配置,對大參數(shù) LLM 非常有益,對檢索-增強(qiáng)-生成 (RAG) 等新興方法也很有幫助。Neoverse CSS 是專為幫助客戶在基于Arm領(lǐng)先的 CPU 平臺(tái)上,快速打造通用計(jì)算芯粒而推出的產(chǎn)品。它能提供客戶所需的所有接口,以便選擇耦合自身的加速器。
通用芯粒互連技術(shù) (UCIe) 是一項(xiàng)行業(yè)標(biāo)準(zhǔn),旨在解決芯粒物理層兼容性的問題。Arm和生態(tài)系統(tǒng)合作伙伴正積極參與這個(gè)項(xiàng)目。協(xié)議層存在多種標(biāo)準(zhǔn),包括 PCIe、CXL 和 AMBA。Arm 深入?yún)⑴c到 AMBA CHI,引入芯片到芯片 (C2C) 的擴(kuò)展功能,但系統(tǒng)架構(gòu)層面仍面臨難題。例如,怎樣在設(shè)計(jì)時(shí)對芯粒進(jìn)行邏輯分區(qū),如何設(shè)置直接內(nèi)存訪問 (DMA) 和中斷、電源和安全等管理功能,要建立可互操作的生態(tài)系統(tǒng),就需要在生態(tài)系統(tǒng)層面一致地解決這些問題。
Arm近期發(fā)布了芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA) ,正與 20 多家合作伙伴一同對此進(jìn)行審核,齊心協(xié)力推動(dòng)整個(gè) Arm 生態(tài)系統(tǒng)釋放芯粒技術(shù)的潛力。
Arm全面設(shè)計(jì)生態(tài)項(xiàng)目不斷壯大
去年十月,Arm將廣泛的半導(dǎo)體產(chǎn)業(yè)匯聚一起,借由 Arm 全面設(shè)計(jì),圍繞 Arm 計(jì)算子系統(tǒng)開展創(chuàng)新設(shè)計(jì)。僅僅推出短短四個(gè)月內(nèi),Arm 全面設(shè)計(jì)已經(jīng)有 20 多家成員加入。其中包括新的 EDA 和配套 IP 提供商,以及來自包括韓國、中國臺(tái)灣、中國大陸和印度等戰(zhàn)略市場的芯片設(shè)計(jì)合作伙伴。Arm基礎(chǔ)設(shè)施事業(yè)部營銷副總裁 Eddie Ramirez表示,Arm正在與三家主要代工廠合作,以確保 CSS 產(chǎn)品能在其先進(jìn)工藝節(jié)點(diǎn)上進(jìn)行優(yōu)化。定制芯片離不開可靠供應(yīng)鏈的支持,唯有 Arm 可提供多樣的技術(shù)和選擇。
去年,Socionext 成為首家宣布計(jì)劃在臺(tái)積公司領(lǐng)先的2納米工藝上開發(fā)基于CSS芯粒的合作伙伴。這款配置 32 核的芯粒可與其他芯粒結(jié)合使用,提供可擴(kuò)展且經(jīng)濟(jì)高效的計(jì)算解決方案。該設(shè)計(jì)將基于新推出的Neoverse CSS V3 來打造。
智原科技也在構(gòu)建基于芯粒的服務(wù)器芯片,該芯片將搭載 64 顆 N 系列核心,并基于英特爾代工服務(wù)的 18A 工藝節(jié)點(diǎn)進(jìn)行生產(chǎn)制造。
此外,ADTechnology 將提供高性價(jià)比的16 核 CSS N 系列邊緣服務(wù)器平臺(tái),他們將與三星代工廠合作,為邊緣計(jì)算釋放更強(qiáng)大的算力。
Arm 全面設(shè)計(jì)合作伙伴正在打造多款基于 CSS 的 SoC,以賦能新一代 AI 服務(wù)器,并借助各大代工廠的前沿工藝完成這項(xiàng)任務(wù)。
Arm軟件生態(tài)系統(tǒng)優(yōu)勢凸顯
Arm軟件生態(tài)系統(tǒng)也在迅速擴(kuò)展,幫助開發(fā)者簡化部署流程,提高采用 Arm技術(shù)的硬件的生產(chǎn)效率。Eddie Ramirez介紹說,去年,80%的云原生計(jì)算基金會(huì) (CNCF) 畢業(yè)項(xiàng)目原生支持 Arm 架構(gòu)。CNCF是開源云原生軟件領(lǐng)域的中堅(jiān)力量,也是當(dāng)今許多現(xiàn)代軟件和云服務(wù)的基礎(chǔ)。Arm 與云服務(wù)提供商一同提供可免費(fèi)訪問的基于 Neoverse 平臺(tái)的云實(shí)例,以簡化軟件開發(fā)者的資源訪問路徑。例如,OCI 最近宣布計(jì)劃向 CNFC 捐贈(zèng) 300 萬美元的計(jì)算積分,旨在助力實(shí)現(xiàn)所有項(xiàng)目支持 Arm 架構(gòu)。
再來看Arm Neoverse 軟件生態(tài)系統(tǒng),它正在不斷擴(kuò)展以滿足基礎(chǔ)設(shè)施軟件應(yīng)用領(lǐng)域的所有開發(fā)者的需求。從主流編程語言、軟件工具、所有主要 Linux 發(fā)行版,到支持網(wǎng)絡(luò)、存儲(chǔ)和大數(shù)據(jù)以及 AI 應(yīng)用的項(xiàng)目,這包括軟件棧各個(gè)級別的知名開源企業(yè)。此外還包括大量獨(dú)立軟件供應(yīng)商 (ISV),他們可提供各類應(yīng)用和 SaaS 產(chǎn)品。這一生態(tài)系統(tǒng)正成為云服務(wù)提供商部署其云服務(wù)的上佳之選,以便能夠充分利用 Arm 提供的 TCO 優(yōu)勢。
此外,主要的企業(yè)軟件 ISV 承諾將 Arm 平臺(tái)用于其核心產(chǎn)品組合。Oracle 發(fā)布的 Oracle Database 19c 支持基于 Arm 架構(gòu)的服務(wù)器,可用于云端和本地部署。這種向傳統(tǒng)企業(yè)軟件的轉(zhuǎn)變,以及部分大型 ISV 的投資,是 Arm 生態(tài)系統(tǒng)不斷擴(kuò)展的又一例證。
Eddie Ramirez表示,超過 15 年在 Neoverse 軟件生態(tài)系統(tǒng)的投資,讓Arm實(shí)現(xiàn)了強(qiáng)大的軟件支持水平,助力超過五萬家公司在支持 Arm 的基礎(chǔ)設(shè)施上部署關(guān)鍵工作負(fù)載。這也是 Arm 及其合作伙伴生態(tài)系統(tǒng)降低部署成本,并提高正在部署的各類定制芯片可用性的另一種方式。
小結(jié):
過去幾年,Arm 能夠在基礎(chǔ)設(shè)施領(lǐng)域取得不小的進(jìn)展,Mohamed Awad認(rèn)為主要是卓越性能、靈活性以及生態(tài)系統(tǒng)三方面助力。
如今,AI 正成為包括網(wǎng)絡(luò)、安全和存儲(chǔ)等諸多領(lǐng)域不可或缺的一部分,它可應(yīng)用到包括小型終端到交換機(jī)、路由器和基站等各種設(shè)備在內(nèi)的整個(gè)基礎(chǔ)設(shè)施中。Arm 在軟件、 IP 和芯片生態(tài)系統(tǒng)中提供出色性能和靈活性,從而降低配置的總成本并加速產(chǎn)品上市。Arm 將持續(xù)發(fā)揮關(guān)鍵作用,協(xié)助科技先行者解決由AI轉(zhuǎn)型帶來的不斷增長的數(shù)據(jù)和計(jì)算需求。
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886
發(fā)布評論請先 登錄
相關(guān)推薦
評論