主奴h 调教学校,在线观看精品视频看看播放,亚洲mm色国产网站

近日在北京舉行的2023年中國國際服務貿易交易會（下文簡稱：服貿會）上，作為英特爾人工智能產品組合的重要成員，Habana Gaudi2實力亮相，它在海內外諸多大語言模型（Large Language Model，下文簡稱：LLM）的加速上，已展現了出眾實力，成為業界焦點。

AI技術飛速發展，LLM風起云涌，但由于AI模型尤其是LLM的訓練與推理需要消耗大量資源和成本，在生產環境部署和使用這些模型變得極具挑戰。如何提升性能降低開銷，使AI技術更快普及，是行業內共同關注的話題。

專為加速LLM的訓練和推理設計

Habana Gaudi2 正是專為高性能、高效率大規模深度學習任務而設計的AI加速器，具備24個可編程 Tensor 處理器核心（TPCs）、21個100Gbps（RoCEv2）以太網接口、96GB HBM2E內存容量、2.4TB/秒的總內存帶寬、48MB片上SRAM，并集成多媒體處理引擎。該加速器能夠通過性能更高的計算架構、更先進的內存技術和集成RDMA實現縱向擴展，為中國用戶提供更高的深度學習效率與更優性價比。Gaudi2 的計算速度十分出色，它的架構能讓加速器并行執行通用矩陣乘法 (GeMM) 和其他運算，從而加快深度學習工作流。這些特性使 Gaudi2 成為 LLM 訓練和推理的理想選擇，亦將成為大規模部署AI的更優解。

在服貿會上，英特爾展示了Habana Gaudi2 對ChatGLM2-6B的加速能力。ChatGLM2-6B是開源中英雙語對話模型ChatGLM-6B的第二代版本，加強了初代模型對話流暢等優質特性。得益于專為深度學習設計的架構，Habana Gaudi2 可以靈活地滿足單節點、多節點的大規模分布式大語言模型訓練，在ChatGLM2-6B上，能夠支持更長的上下文，并帶來極速對話體驗。

在千億參數大模型上大顯身手

實際上，Habana Gaudi2 的卓越性能早已嶄露頭角。在今年6月公布的MLCommonsMLPerf基準測試中，Gaudi2在GPT-3模型、計算機視覺模型ResNet-50（使用8個加速器）、Unet3D（使用8個加速器），以及自然語言處理模型BERT（使用8個和64個加速器）上均取得了優異結果。近日，MLCommons又繼續公布了針對60億參數大語言模型及計算機視覺與自然語言處理模型GPT-J的MLPerf推理v3.1性能基準測試結果，其中包括基于Habana Gaudi2加速器、第四代英特爾至強可擴展處理器，以及英特爾至強CPU Max系列的測試結果。

數據顯示，Habana Gaudi2在GPT-J-99 和GPT-J-99.9 上的服務器查詢和離線樣本的推理性能分別為78.58 次/秒和84.08 次/秒。該測試采用 FP8數據類型，并在這種新數據類型上達到了 99.9% 的準確率，這無疑再一次印證了Gaudi2的出色性能。此外，基于第四代英特爾至強可擴展處理器的7個推理基準測試也顯示出其對于通用AI工作負載的出色性能。截至目前，英特爾仍是唯一一家使用行業標準的深度學習生態系統軟件提交公開CPU結果的廠商。

另一個讓Habana Gaudi2 大顯身手的模型是BLOOMZ。BLOOM是一個擁有 1760 億參數的自回歸模型，訓練后可用于生成文本序列，它可以處理 46 種語言和 13 種編程語言，而BLOOMZ是與BLOOM架構完全相同的模型，它是BLOOM基于多個任務的調優版本。Habana與著名AI平臺Hugging Face合作進行了 Gaudi2 在BLOOMZ模型上的基準測試¹。如圖1所示，對于參數量達1760億的模型 BLOOMZ（BLOOMZ-176B），Gaudi2性能表現出色，時延僅為約3.7 秒；對于參數量為 70 億的較小模型 BLOOMZ-7B，Gaudi2 的時延優勢更加顯著，單設備約為第一代 Gaudi 的37.21%，而當設備數量都增加為8后，這一百分比進一步下降至約24.33%。

圖 1. BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的推理時延測試結果

此外，在Meta發布的開源大模型Llama 2上，Gaudi2的表現依然出眾。圖2顯示了70億參數和130億參數兩種Llama 2模型的推理性能。模型分別在一臺Habana Gaudi2設備上運行，batch size=1，輸出token長度256，輸入token長度不定，使用BF16精度。報告的性能指標為每個token的延遲（不含第一個）。對于128至2000輸入token，在70億參數模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒，而對于130億參數模型，范圍為每token 15.5-20.4毫秒²。

圖 2.基于HabanaGaudi2，70億和130億參數Llama 2模型的推理性能

值得一提的是，Habana 的SynapseAI 軟件套件在模型部署和優化的過程中起到了至關重要的作用。SynapseAI 軟件套件不僅支持使用 PyTorch 和 DeepSpeed 來加速LLM的訓練和推理，還支持 HPU Graph和DeepSpeed-inference，這兩者都非常適合時延敏感型應用。因此，在Habana Gaudi2上部署模型非常簡單，尤其是對LLM等數十億以上參數的模型推理具有較優的速度優勢，且無需編寫復雜的腳本。

LLM的成功堪稱史無前例。有人說，LLM讓AI技術朝著通用人工智能（AGI）的方向邁進了一大步，而因此面臨的算力挑戰也催生了更多技術的創新。Habana Gaudi2 正是在這一背景下應運而生，以其強大的性能和性價比優勢加速深度學習工作負載。Habana Gaudi2的出色表現更進一步顯示了英特爾AI產品組合的競爭優勢，以及英特爾對加速從云到網絡到邊緣再到端的工作負載中大規模部署AI的承諾。英特爾將持續引領產品技術創新，豐富和優化包括英特爾至強可擴展處理器、英特爾數據中心 GPU等在內的AI產品組合，助力中國本地AI市場發展。

參考資料：

1.https://huggingface.co/blog/zh/habana-gaudi-2-bloom

2.Habana Gaudi2深度學習加速器：所有測量使用了一臺HLS2 Gaudi2服務器上的Habana SynapseAI 1.10版和optimum-habana 1.6版，該服務器具有八個Habana Gaudi2 HL-225H Mezzanine卡和兩個英特爾至強白金8380 CPU@2.30GHz以及1TB系統內存。2023年7月進行測量。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

英特爾

英特爾

+關注

關注
61

文章
9978

瀏覽量
171883
cpu

cpu

+關注

關注
68

文章
10873

瀏覽量
212052

原文標題：Hold住千億參數大模型，Gaudi?2 有何優勢

文章出處：【微信號：英特爾中國，微信公眾號：英特爾中國】歡迎添加關注！文章轉載請注明出處。

【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

那些擁有數十億甚至數千億參數的大規模模型成為了現實可能。Transformer 等機制模型架構的橫空出世，徹底改變了模型訓練的效率和性能。

發表于 12-24 13:10

階躍星辰發布國內首個千億參數端到端語音大模型

近日，階躍星辰在官方公眾號上宣布了一項重大突破——推出Step-1o千億參數端到端語音大模型。該模型被譽為“國內首個千億

發表于 12-17 13:43 ?223次閱讀

【迅為電子】龍芯LS2K1000LA和LS2K1000有何區別？

發表于 11-13 14:13 ?282次閱讀

【迅為電子】龍芯LS<b class='flag-5'>2</b>K1000LA和LS<b class='flag-5'>2</b>K1000<b class='flag-5'>有</b><b class='flag-5'>何</b>區別？

英特爾發布Gaudi3 AI加速器,押注低成本優勢挑戰市場

英特爾近期震撼發布了專為AI工作負載設計的Gaudi3加速器，這款新芯片雖在速度上不及英偉達熱門型號H100與H200 GPU，但英特爾巧妙地將競爭優勢聚焦于其更為親民的價格與總擁有成本（TCO）上。

發表于 09-26 16:16 ?836次閱讀

昆侖萬維開源2千億稀疏大模型Skywork-MoE

近日，昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型，該模型擁有高達2千億參數，不僅性能強勁，而且推理成本更低，為人工智能領

發表于 06-04 14:44 ?584次閱讀

通義千問開源千億級參數模型

通義千問近日開源了其首個千億級參數模型Qwen1.5-110B，這是其全系列中首個達到千億級別的開源模型。Qwen1.5-110B模型繼承了

發表于 05-08 11:01 ?759次閱讀

通義千問推出1100億參數開源模型

通義千問近日震撼發布1100億參數的開源模型Qwen1.5-110B，這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個千億級

發表于 05-06 10:49 ?590次閱讀

ARM-based相比ARM cortex有何優勢？

你看好ARM-based架構嗎相比ARM cortex有何優勢 ARM其他還有什么架構啊，感覺曝光的好少。。

發表于 04-24 06:55

英特爾進軍AI芯片市場：推出Gaudi 3 AI加速卡與Xeon 6處理器

Gaudi 3作為英特爾在AI領域的最新力作，旨在與英偉達等市場領導者展開競爭。據英特爾透露，這款芯片在能效和AI模型運行速度方面均表現出色，相比英偉達的芯片具有顯著優勢。

發表于 04-10 15:37 ?805次閱讀

百度智能云推出全新輕量級大模型

在近日舉辦的百度智能云千帆產品發布會上，三款全新的輕量級大模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny，引起了業界的廣泛關注。相較于傳統的千億級別參數大模型

發表于 03-22 10:28 ?678次閱讀

百川智能發布超千億大模型Baichuan 3

百川智能近日發布了超千億參數的大語言模型Baichuan 3，引發了業界的廣泛關注。這款模型在多個權威通用能力評測中表現卓越，展現了其強大的語義理解和生成能力。

發表于 01-31 14:58 ?862次閱讀

獵戶星空發布強大AI大模型

近日，獵戶星空在2024·傅盛的開年AI大課暨獵戶星空企業應用大模型發布會上，正式發布了其最新研發的大模型。這個大模型擁有140億參數，卻能實現千億

發表于 01-22 14:31 ?712次閱讀

熱電分離銅基板與普通銅基板相比有何優勢？

熱電分離銅基板與普通銅基板相比有何優勢？熱電分離銅基板與普通銅基板相比，在許多方面都具有顯著的優勢。以下將詳細介紹熱電分離銅基板的優點，并向您解釋其為何在許多應用中被廣泛采用。首先

發表于 01-18 11:43 ?882次閱讀

M.2接口的固態硬盤有何優勢？

M.2接口的固態硬盤有何優勢？ M.2接口的固態硬盤(M.2 SSD)是現代計算機存儲設備中的一

發表于 01-15 14:31 ?2090次閱讀

UPS大功率電源有何優勢？購買大功率UPS電源的訣竅

UPS大功率電源有何優勢？購買大功率UPS電源的訣竅? UPS（不間斷電源）是一種能夠在停電或電網出現問題時提供臨時電力供應的設備。大功率UPS電源是指電力輸出大于10千瓦的UPS設備。它與普通

發表于 01-10 13:46 ?1136次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Hold住千億參數大模型，Gaudi?2 有何優勢

評論

【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

階躍星辰發布國內首個千億參數端到端語音大模型

【迅為電子】龍芯LS2K1000LA和LS2K1000有何區別？

英特爾發布Gaudi3 AI加速器,押注低成本優勢挑戰市場

昆侖萬維開源2千億稀疏大模型Skywork-MoE

通義千問開源千億級參數模型

通義千問推出1100億參數開源模型

ARM-based相比ARM cortex有何優勢？

英特爾進軍AI芯片市場：推出Gaudi 3 AI加速卡與Xeon 6處理器

百度智能云推出全新輕量級大模型

百川智能發布超千億大模型Baichuan 3

獵戶星空發布強大AI大模型

熱電分離銅基板與普通銅基板相比有何優勢？

M.2接口的固態硬盤有何優勢？

UPS大功率電源有何優勢？購買大功率UPS電源的訣竅