视频一区欧美,视频一二三区,亚洲精品久久久成人

作者：Arm 基礎設施事業部數據中心解決方案架構師 Ravi Malhotra

在過去一年里，生成式人工智能 (AI) 吸引了科技行業的目光，大家都在想方設法地將大語言模型 (LLM) 部署到其位于云端和邊緣側服務器上的應用中。雖然 GPU 和加速器憑借優異的性能，一直是這些部署任務的默認首選平臺。但在推理領域，除了 GPU 和加速器之外，還有其他可行的選擇。長期以來，CPU 一直被用于傳統的 AI 和機器學習 (ML) 用例，由于 CPU 能夠處理廣泛多樣的任務且部署起來更加靈活，因此當企業和開發者尋求將 LLM 集成到產品和服務中時，CPU 成了熱門選擇。

本文將介紹基于 Arm Neoverse 的 AWS Graviton3 CPU 在規模化靈活運行 Llama 3[1] 和 Phi-3[2] 等業內標準 LLM 方面的能力，并展示與其他基于 CPU 的服務器平臺相比的主要優勢。

AWS Graviton3 上的 LLM 性能

為了展示基于 Arm 平臺的服務器 CPU 在 LLM 推理方面的能力，Arm 軟件團隊和我們的合作伙伴對 llama.cpp 中實現的 int4 和 int8 內核進行了優化，以利用這些較新的指令[3]。我們在 AWS Graviton3 平臺上進行了多次實驗，以測量不同場景下對性能的影響，并將影響因素隔離開。

所有實驗均在 AWS r7g.16xlarge 實例上進行，該實例帶有 64 個虛擬 CPU (vCPU) 和 512 GB 的內存。所用的模型是經過 int4 量化的 Llama3-8B。

提示詞處理

提示詞詞元 (Token) 通常是并行處理的，即使對于單次操作 (batch=1)，也會使用所有可用核心。在這方面，經過 Arm 優化，每秒處理的詞元數提升了 2.5 倍；在處理更大的批次大小時，性能小幅提升。

圖：提示詞處理經優化得到提升

詞元生成

詞元生成以自回歸的方式進行，對于所需生成的輸出長度高度敏感。在這方面，經過 Arm 優化，吞吐量最多可提高兩倍，有助于處理更大的批次大小。

圖：詞元生成經優化得到提升

延遲

詞元生成的延遲對 LLM 的交互式部署非常重要。對于下個詞元響應時間 (time-to-next-token)，100ms 的延遲是關鍵的目標指標，這是基于人們每秒 5-10 個單詞的典型閱讀速度計算得出的。在下方圖表中，我們看到在單次操作和批量處理的場景下，AWS Graviton3 都能滿足 100ms 的延遲要求，因此適合于作為 LLM 的部署目標。

我們使用了兩組不同的模型 Llama3-8B 和 Phi-3-mini (3.8B)，以展示不同規模的 LLM 的延遲情況。

圖：AWS Graviton3 的下個詞元響應時間延遲情況

即使是在 2019 年推出的 AWS Graviton2 這樣的上一代 Arm 服務器平臺上，也能運行多達 80 億參數的新 LLM，并且在單次操作和批量處理的場景下，均能滿足 100ms 的延遲要求。

圖：AWS Graviton2 的下個詞元響應時間延遲情況

性能比較

此外，我們使用經過 int4 量化的 Llama3-8B 模型，比較了它在 AWS Graviton3 與在 AWS 上其他新一代服務器 CPU 的性能。

AWS Graviton3：r7g.16xlarge，64 個 vCPU，512 GB 內存，3.43 美元/小時

第四代 Intel Xeon：r7i.16xlarge，64 個 vCPU，512 GB 內存，4.23 美元/小時

第四代 AMD EPYC：r7a.16xlarge，64 個 vCPU（SMT 關閉），512 GB 內存，4.87 美元/小時

我們發現，相較于其他兩款 CPU，在提示詞處理和詞元生成方面，AWS Graviton3 的性能高出三倍。

圖：提示詞處理比較

圖：詞元生成比較

同樣值得注意的是，AWS Graviton3 CPU 比第四代 x86 CPU 更具成本效益，這在 Graviton3 實例相對較低的定價中就有所體現。鑒于 LLM 對算力的要求已經非常高，以單位價格詞元數量來計算總體擁有成本 (TCO)，是推動 LLM 在數據中心內廣泛采用的關鍵。

在這一點上，AWS Graviton3 擁有顯著優勢，每美元詞元數量最高多了三倍，不僅在 CPU 中處于領先，也為希望在采用 LLM 的過程中逐步擴大規模的用戶提供了令人信服的優勢。

圖：LLM 推理的 TCO 比較

結論

當開發者想要在其應用中部署專用 LLM 時，服務器 CPU 為開發者提供了靈活、經濟和簡化的起點。Arm 新增了幾項關鍵特性，有助于顯著提升 LLM 的性能。得益于此，基于 Arm Neoverse 的服務器處理器（如 AWS Graviton3）不僅能提供優于其他服務器 CPU 的 LLM 性能，還能為更多應用開發者降低采用 LLM 的門檻。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

ARM

ARM

+關注

關注
134

文章
9351

瀏覽量
377435
cpu

cpu

+關注

關注
68

文章
11077

瀏覽量
217030
服務器

服務器

+關注

關注
13

文章
9793

瀏覽量
87947
人工智能

人工智能

+關注

關注
1806

文章
49011

瀏覽量
249365

原文標題：在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現出色性能

文章出處：【微信號：Arm社區，微信公眾號：Arm社區】歡迎添加關注！文章轉載請注明出處。

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

基于Arm平臺的服務器CPU在LLM推理方面的能力

評論

電子發燒友