作者:Arm 基礎(chǔ)設(shè)施事業(yè)部 AI 解決方案架構(gòu)師 Na Li
(Arm 工程部技術(shù)總監(jiān) Milos Puzovic 和 Arm 基礎(chǔ)設(shè)施事業(yè)部軟件工程師 Nobel Chowdary Mandepudi 參與了本文撰寫)
Llama 是一個專為開發(fā)者、研究人員和企業(yè)打造的開源大語言模型 (LLM) 庫,旨在推動生成式 AI 的創(chuàng)新、實驗及可靠地擴展。Llama 3.1 405B 是 Llama 系列中性能領(lǐng)先的模型之一,然而部署和使用如此大型的模型對缺乏足夠計算資源的個人或企業(yè)機構(gòu)來說具有相當大的挑戰(zhàn)。為了解決上述挑戰(zhàn),Meta 推出了 Llama 3.3 70B 模型。該模型在保持 Llama 3.1 70B 模型架構(gòu)的同時,應(yīng)用了最新的后訓(xùn)練技術(shù)以提升模型評估性能。同時,在推理、數(shù)學計算、常識理解、指令遵循和工具使用方面都有顯著改進。盡管 Llama 3.3 70B 模型的體量顯著減小,其性能卻與 Llama 3.1 405B 模型相當。
Arm 工程團隊與 Meta 緊密協(xié)作,在 Google Axion 上對 Llama 3.3 70B 模型進行了推理性能評估。Google Axion 是基于 Arm Neoverse V2 平臺構(gòu)建的定制 AArch64 處理器系列,通過 Google Cloud 提供。與傳統(tǒng)的現(xiàn)成處理器相比,Google Axion 具備更高的性能、更低的能耗以及更強的可擴展性,充分滿足了數(shù)據(jù)中心在 AI 時代的需求。
基準測試結(jié)果顯示,在運行 Llama 3.3 70B 模型時,基于 Axion 處理器的 C4A 虛擬機 (VM) 可提供順暢的 AI 體驗,并在不同的用戶批次大小下均達到了人類可讀性水平,即人們閱讀文本的平均速度,從而使開發(fā)者在基于文本的應(yīng)用中,在獲得與使用 Llama 3.1 405B 模型結(jié)果相當?shù)母哔|(zhì)量輸出的同時,顯著降低了對大量算力資源的需求。
Google Axion 處理器上運行
Llama 3.3 70B 的 CPU 推理性能
Google Cloud 提供的基于 Axion 的 C4A 虛擬機,最多可配備 72 個虛擬 CPU (vCPU) 和 576 GB RAM。在這些測試中,我們使用了中檔高性價比的 c4a-standard-32 機器類型來部署 4 位量化的 Llama 3.3 70B 模型。為了運行我們的性能測試,我們使用了流行的 Llama.cpp 框架,該框架從 b4265 版本開始,已通過 Arm Kleidi 進行了優(yōu)化。Kleidi 集成提供了優(yōu)化的內(nèi)核,以確保 AI 框架可以充分發(fā)揮 Arm CPU 的 AI 功能和性能。下面,我們來看看具體結(jié)果。
提示詞編碼速度是指語言模型處理和解釋用戶輸入的速度。如圖 1 所示,由于提示詞編碼利用了多核并行處理技術(shù),因此在不同批次大小的測試中,其性能始終穩(wěn)定在每秒約 50 個詞元左右。此外,不同提示詞規(guī)模測得的速度也相當。
圖 1:運行 Llama 3.3 70B 模型時的提示詞編碼速度
詞元生成速度衡量的是運行 Llama 3.3 70B 模型時模型生成響應(yīng)的速度。Arm Neoverse CPU 利用先進的 SIMD 指令(如 Neon 和 SVE)優(yōu)化機器學習 (ML) 工作流,可加速通用矩陣乘法 (GEMM)。為了進一步提高吞吐量,尤其是在處理更大批次時,Arm 引入了專門的優(yōu)化指令,如有符號點積 (SDOT) 和矩陣乘法累加 (MMLA)。
如圖 2 所示,隨著用戶批次大小的增加,詞元生成的速度相應(yīng)提升,而在不同詞元生成規(guī)模下測得的速度保持相對一致。這種在更大批次下實現(xiàn)更高吞吐量的能力,對于構(gòu)建高效服務(wù)多用戶的可擴展系統(tǒng)至關(guān)重要。
圖 2:運行 Llama 3.3 70B 模型時的詞元生成速度
為了評估多用戶同時與模型交互時每個用戶所感受到的性能,我們測量了每批次詞元的生成速度。每批次詞元的生成速度至關(guān)重要,因為這直接影響用戶與模型交互時的實時體驗。
如圖 3 所示,當批次大小最多 4 時,詞元生成速度可實現(xiàn)人類可讀性的平均水平。這表明,隨著系統(tǒng)擴展以滿足多用戶需求,其性能仍然保持穩(wěn)定。為應(yīng)對更多并發(fā)用戶的需求,可以采用 vLLM 等服務(wù)框架。這些框架通過優(yōu)化 KV 緩存管理顯著提高了系統(tǒng)的可擴展性。
圖 3:不同批次大小下,以批次模式運行 Llama 3.3 70B 模型時每個用戶的提示詞生成速度與人類可讀性的平均水平的對比
革新生成式 AI 體驗
Llama 3.3 70B 模型能夠高效地發(fā)揮大規(guī)模 AI 的優(yōu)勢,預(yù)示著潛在的變革。由于 Llama 3.3 70B 模型使用較小的參數(shù)規(guī)模,不僅使生成式 AI 處理技術(shù)更容易被生態(tài)系統(tǒng)采用,同時也減少了所需的計算資源。此外,Llama 3.3 70B 模型有助于提高 AI 的處理效率,這對于數(shù)據(jù)中心和云計算工作負載至關(guān)重要。在模型評估基準方面,Llama 3.3 70B 的性能也與 Llama 3.1 405B 模型相當。
通過基準測試工作,我們展示了基于 Arm Neoverse 平臺的 Google Axion 處理器在運行 Llama 3.3 70B 模型時可提供流暢高效的體驗,并在多個用戶批次大小測試中實現(xiàn)了與人類可讀性水平相當?shù)奈谋旧尚阅堋?/p>
我們很榮幸能繼續(xù)與 Meta 保持密切的合作關(guān)系,在 Arm 計算平臺上實現(xiàn)開源 AI 創(chuàng)新,從而確保 Llama LLM 跨硬件平臺順暢、高效地運行。
-
處理器
+關(guān)注
關(guān)注
68文章
19317瀏覽量
230099 -
ARM
+關(guān)注
關(guān)注
134文章
9104瀏覽量
367870 -
Neoverse
+關(guān)注
關(guān)注
0文章
9瀏覽量
4609 -
生成式AI
+關(guān)注
關(guān)注
0文章
505瀏覽量
488
原文標題:在基于 Arm Neoverse 平臺的處理器上實現(xiàn)更高效的生成式 AI
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論