色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Arm平臺的服務器CPU在LLM推理方面的能力

Arm社區 ? 來源:Arm社區 ? 2024-09-02 10:39 ? 次閱讀

作者:Arm 基礎設施事業部數據中心解決方案架構師 Ravi Malhotra

在過去一年里,生成式人工智能 (AI) 吸引了科技行業的目光,大家都在想方設法地將大語言模型 (LLM) 部署到其位于云端和邊緣側服務器上的應用中。雖然 GPU 和加速器憑借優異的性能,一直是這些部署任務的默認首選平臺。但在推理領域,除了 GPU 和加速器之外,還有其他可行的選擇。長期以來,CPU 一直被用于傳統的 AI 和機器學習 (ML) 用例,由于 CPU 能夠處理廣泛多樣的任務且部署起來更加靈活,因此當企業和開發者尋求將 LLM 集成到產品和服務中時,CPU 成了熱門選擇。

本文將介紹基于 Arm Neoverse 的 AWS Graviton3 CPU 在規模化靈活運行 Llama 3[1] 和 Phi-3[2] 等業內標準 LLM 方面的能力,并展示與其他基于 CPU 的服務器平臺相比的主要優勢。

AWS Graviton3 上的 LLM 性能

為了展示基于 Arm 平臺的服務器 CPU 在 LLM 推理方面的能力,Arm 軟件團隊和我們的合作伙伴對 llama.cpp 中實現的 int4 和 int8 內核進行了優化,以利用這些較新的指令[3]。我們在 AWS Graviton3 平臺上進行了多次實驗,以測量不同場景下對性能的影響,并將影響因素隔離開。

所有實驗均在 AWS r7g.16xlarge 實例上進行,該實例帶有 64 個虛擬 CPU (vCPU) 和 512 GB 的內存。所用的模型是經過 int4 量化的 Llama3-8B。

提示詞處理

提示詞詞元 (Token) 通常是并行處理的,即使對于單次操作 (batch=1),也會使用所有可用核心。在這方面,經過 Arm 優化,每秒處理的詞元數提升了 2.5 倍;在處理更大的批次大小時,性能小幅提升。

wKgZombVJWOABZiwAAC1R4Lad8U807.jpg

圖:提示詞處理經優化得到提升

詞元生成

詞元生成以自回歸的方式進行,對于所需生成的輸出長度高度敏感。在這方面,經過 Arm 優化,吞吐量最多可提高兩倍,有助于處理更大的批次大小。

wKgaombVJXGAU4KhAACZ1iY9KO8934.jpg

圖:詞元生成經優化得到提升

延遲

詞元生成的延遲對 LLM 的交互式部署非常重要。對于下個詞元響應時間 (time-to-next-token),100ms 的延遲是關鍵的目標指標,這是基于人們每秒 5-10 個單詞的典型閱讀速度計算得出的。在下方圖表中,我們看到在單次操作和批量處理的場景下,AWS Graviton3 都能滿足 100ms 的延遲要求,因此適合于作為 LLM 的部署目標。

我們使用了兩組不同的模型 Llama3-8B 和 Phi-3-mini (3.8B),以展示不同規模的 LLM 的延遲情況。

wKgaombVJXqAZBYbAABbE4xCkOA083.jpg

圖:AWS Graviton3 的下個詞元響應時間延遲情況

即使是在 2019 年推出的 AWS Graviton2 這樣的上一代 Arm 服務器平臺上,也能運行多達 80 億參數的新 LLM,并且在單次操作和批量處理的場景下,均能滿足 100ms 的延遲要求。

wKgaombVJYSAI1e2AABhDyiVSbc280.jpg

圖:AWS Graviton2 的下個詞元響應時間延遲情況

性能比較

此外,我們使用經過 int4 量化的 Llama3-8B 模型,比較了它在 AWS Graviton3 與在 AWS 上其他新一代服務器 CPU 的性能。

AWS Graviton3:r7g.16xlarge,64 個 vCPU,512 GB 內存,3.43 美元/小時

第四代 Intel Xeon:r7i.16xlarge,64 個 vCPU,512 GB 內存,4.23 美元/小時

第四代 AMD EPYC:r7a.16xlarge,64 個 vCPU(SMT 關閉),512 GB 內存,4.87 美元/小時

我們發現,相較于其他兩款 CPU,在提示詞處理和詞元生成方面,AWS Graviton3 的性能高出三倍。

wKgaombVJZCAInheAAC4THiDjZo711.jpg

圖:提示詞處理比較

wKgaombVJaGANHHKAACWWFYo87g573.jpg

圖:詞元生成比較

同樣值得注意的是,AWS Graviton3 CPU 比第四代 x86 CPU 更具成本效益,這在 Graviton3 實例相對較低的定價中就有所體現。鑒于 LLM 對算力的要求已經非常高,以單位價格詞元數量來計算總體擁有成本 (TCO),是推動 LLM 在數據中心內廣泛采用的關鍵。

在這一點上,AWS Graviton3 擁有顯著優勢,每美元詞元數量最高多了三倍,不僅在 CPU 中處于領先,也為希望在采用 LLM 的過程中逐步擴大規模的用戶提供了令人信服的優勢。

wKgaombVJcaAWj85AACBjQtvHZ8341.jpg

圖:LLM 推理的 TCO 比較

結論

當開發者想要在其應用中部署專用 LLM 時,服務器 CPU 為開發者提供了靈活、經濟和簡化的起點。Arm 新增了幾項關鍵特性,有助于顯著提升 LLM 的性能。得益于此,基于 Arm Neoverse 的服務器處理器(如 AWS Graviton3)不僅能提供優于其他服務器 CPU 的 LLM 性能,還能為更多應用開發者降低采用 LLM 的門檻。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9084

    瀏覽量

    367387
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10854

    瀏覽量

    211585
  • 服務器
    +關注

    關注

    12

    文章

    9123

    瀏覽量

    85328
  • 人工智能
    +關注

    關注

    1791

    文章

    47183

    瀏覽量

    238259

原文標題:在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現出色性能

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    安謀科技與鴻鈞微電子攜手,加速服務器CPU產業和生態落地

    深入合作。雙方將依托安謀科技高性能Arm?IP及自研產品,結合鴻鈞微電子通用處理領域豐富的研發經驗和強大的產品創新能力,共同推進Arm
    的頭像 發表于 05-24 14:24 ?2283次閱讀
    安謀科技與鴻鈞微電子攜手,加速<b class='flag-5'>服務器</b><b class='flag-5'>CPU</b>產業和生態落地

    AI推理CPU當道,Arm驅動高效引擎

    本應發揮關鍵作用,但其重要性卻常常被忽視。 ? “對于那些希望將大語言模型(LLM)集成到產品和服務中的企業和開發者來說,CPU 通常是首選”。Arm 中國區業務全球副總裁鄒挺
    的頭像 發表于 11-13 14:34 ?2391次閱讀
    AI<b class='flag-5'>推理</b><b class='flag-5'>CPU</b>當道,<b class='flag-5'>Arm</b>驅動高效引擎

    Arm芯片引領國產服務器逆襲?

    架構,不斷創新,逐步構筑能效、成本、生態環境等方面的優勢。基于開放的Arm芯片IP授權,眾多廠商共同參與了Arm服務器架構規范標準的制定。2016年4月,
    發表于 06-03 13:20

    Arm服務器助力解決CPU的設計問題

    的 Neoverse 平臺提供了設計一款服務器 CPU 的基礎,包括 CPU 核心的微架構和配套的制程。Arm
    發表于 09-08 14:32

    服務器CPU

    服務器CPU 服務器CPU,顧名思義,就是服務器上使用的
    發表于 12-17 10:15 ?582次閱讀

    AMD推出首款基于ARMCPU與開發平臺 加快ARM服務器生態系統發展

    加快ARM服務器生態系統發展,AMD推出首款由服務器處理廠商研發的基于ARMCPU與開發
    發表于 02-11 15:36 ?1025次閱讀

    ARM服務器CPU終于正式量產

    昨日,期盼已久的ARM服務器CPU終于正式量產了!---貴州華芯通半導體技術有限公司 (以下簡稱 “華芯通”) 北京國家會議中心舉辦新品發布會,宣布其第一代可商用的
    的頭像 發表于 12-01 09:00 ?7468次閱讀

    華為首款Arm架構服務器CPU鯤鵬920,業界最高性能Arm架構服務器CPU

    TaiShan系列服務器主要面向大數據、分布式存儲和ARM原生應用等場景,發揮ARM架構多核、高能效等方面的優勢,為企業構建高性能、低功耗
    的頭像 發表于 01-09 09:39 ?1.2w次閱讀

    關于Arm服務器芯片的現狀和發展分析

    從華為公布的測試數據來看,鯤鵬920Arm原生應用方面的優勢最為明顯,具有2倍于同類產品的性能。除了安卓APP和移動游戲外,基于Arm的IoT平臺
    的頭像 發表于 08-29 09:45 ?9020次閱讀

    騰訊云TI平臺利用NVIDIA Triton推理服務器構造不同AI應用場景需求

    騰訊云 TI 平臺 TI-ONE 利用 NVIDIA Triton 推理服務器構造高性能推理服務部署平臺
    的頭像 發表于 09-05 15:33 ?1931次閱讀

    如何使用NVIDIA Triton 推理服務器來運行推理管道

    使用集成模型 NVIDIA Triton 推理服務器上為 ML 模型管道提供服務
    的頭像 發表于 07-05 16:30 ?1415次閱讀
    如何使用NVIDIA Triton <b class='flag-5'>推理</b><b class='flag-5'>服務器</b>來運行<b class='flag-5'>推理</b>管道

    EDA軟件ARM服務器的應用解析

    將EDA軟件應用于ARM服務器的方向上,專注數字實現EDA的芯行紀科技有限公司(以下簡稱“芯行紀”)旗下智能布局規劃工具AmazeFP已能支持ARMv8服務器,如圖二所示,
    發表于 09-15 12:25 ?860次閱讀
    EDA軟件<b class='flag-5'>在</b><b class='flag-5'>ARM</b><b class='flag-5'>服務器</b>的應用解析

    服務器cpu和普通電腦cpu的區別

    服務器CPU和普通電腦CPU之間存在許多區別。以下文章中,我們將詳細介紹服務器CPU和普通電腦
    的頭像 發表于 02-01 11:14 ?6633次閱讀

    gpu服務器cpu服務器的區別對比,終于知道怎么選了!

    gpu服務器cpu服務器的區別主要體現在架構設計、性能特點、能耗效率、應用場景、市場定位等方面,以上幾個
    的頭像 發表于 08-01 11:41 ?483次閱讀

    服務器cpu和臺式機cpu區別

    服務器CPU和臺式機CPU的區別是一個復雜的話題,涉及到多個方面,包括設計、性能、功耗、可靠性、成本等。 服務器
    的頭像 發表于 10-10 15:12 ?1140次閱讀
    主站蜘蛛池模板: 调教美丽的白丝袜麻麻视频| 91原创在线| 伊人色啪啪天天综合婷婷| 一本久道久久综合婷婷五月| 24小时日本在线| YELLOW高清视频免费观看| 囯产精品久久久久免费蜜桃 | 久久无码av三级| 麻豆国产人妻欲求不满| 内射白嫩少妇超碰| 日日撸影院在线| 亚洲AV久久无码精品九九软件 | 电影果冻传媒在线播放| 国产欧美一区二区精品仙草咪| 國産麻豆AVMDMD0179| 老司机午夜影院味味| 欧美在线亚洲综合国产人| 午夜DJ国产精华日本无码| 亚洲中字幕永久在线观看| 99这里只有是精品2| 国产精品成人影院| 久久re这里视频只有精品首页 | 蜜桃成熟时2在线| 日本日本熟妇中文在线视频| 亚洲h视频在线观看| 37pao成人国产永久免费视频| 白洁在线观看| 黄色三级网站| 啪啪做羞羞事小黄文| 亚洲精品国产高清嫩草影院| 67194免费入口| 国产电影无码午夜在线播放| 久久精品男人影院| 日日干夜夜啪蕉视频| 在公交车上被JB草坏了被轮J了 | 羞羞答答影院在线| 综合精品欧美日韩国产在线| 粉嫩国产14xxxxx0000| 久久三级视频| 婷婷精品国产亚洲AV在线观看| 在线自拍亚洲视频欧美|