色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

源2.0-M32大模型發布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀

北京2024年8月23日/美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數為37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優化大模型推理的一種主流技術,它顯著減少了模型的內存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰。

源2.0-M32大模型研發團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現,最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現高并發推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。

評測結果顯示,源2.0-M32量化版在多個業界主流的評測任務中性能表現突出,特別是在MATH(數學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內存占用,其采用的GPTQ量化方法通過精細調整,成功將模型適配至int4和int8精度級別。通過定制化算子優化,源2.0-M32量化版實現了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環境中均能高效運行。未來,隨著量化技術的進一步優化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發揮更廣泛的作用,為用戶提供更高效的智能服務。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3471

    瀏覽量

    42936
  • 算力
    +關注

    關注

    1

    文章

    1043

    瀏覽量

    15101
  • 大模型
    +關注

    關注

    2

    文章

    2781

    瀏覽量

    3432
收藏 人收藏

    評論

    相關推薦

    Meta發布Llama 3.2量化模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型量化
    的頭像 發表于 10-29 11:05 ?569次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個維度進行,包括但不限于技術架構、性能表現、應用場景、定制化能力、開源與成本等方面。以下是對Llama
    的頭像 發表于 10-27 14:37 ?663次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展一直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 一、Llama 3 語言模型的核心功能 上下文理解 :
    的頭像 發表于 10-27 14:15 ?466次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發布Llama3.2:一個多語言大型語言模型
    的頭像 發表于 10-12 09:39 ?942次閱讀
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama</b>-3.2-1B-Instruct<b class='flag-5'>模型</b>

    Meta即將發布超強開源AI模型Llama 3-405B

    在人工智能領域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發布其最新力作——Llama 3-405B,一個擁有驚人4050億參數的開源大
    的頭像 發表于 07-18 09:58 ?1129次閱讀

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯網,簡單快捷完成本地化部署。點擊觀看Llama3快速部署教程:Step.1準備部署包進入Firefly下載中心
    的頭像 發表于 06-06 08:02 ?918次閱讀
    【AIBOX上手指南】快速部署<b class='flag-5'>Llama3</b>

    浪潮信息重磅發布2.0-M32”開源大模型

    浪潮信息近日發布了一款全新的開源大模型——“2.0-M32”。這款大模型在“
    的頭像 發表于 06-05 14:50 ?894次閱讀

    浪潮信息發布2.0-M32開源大模型,模算效率大幅提升

    5月28日,浪潮信息發布2.0-M32”開源大模型?!?b class='flag-5'>源2.0-M32”在基于”
    的頭像 發表于 05-29 09:34 ?542次閱讀
    浪潮信息<b class='flag-5'>發布</b><b class='flag-5'>源</b><b class='flag-5'>2.0-M32</b>開源大<b class='flag-5'>模型</b>,模算效率大幅提升

    浪潮信息發布2.0-M32”開源大模型

    浪潮信息近日推出了革命性的“2.0-M32”開源大模型。該模型2.0系列基礎上,引入了“基
    的頭像 發表于 05-29 09:08 ?776次閱讀

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新發布的開源大語言模型(LLM), 當前已開源8B和70B參數量的預訓練模型權重,并支持指令微調。
    的頭像 發表于 05-10 10:34 ?1274次閱讀
    Optimum Intel三步完成<b class='flag-5'>Llama3</b>在算力魔方的本地<b class='flag-5'>量化</b>和部署

    Meta Llama 3基礎模型現已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發布的兩款Llama 3基礎模型——Llama 3 8B和
    的頭像 發表于 05-09 10:39 ?485次閱讀

    高通支持Meta Llama 3在驍龍終端上運行

    高通與Meta攜手合作,共同推動Meta的Llama 3大語言模型(LLM)在驍龍驅動的各類終端設備上實現高效運行。此次合作致力于優化Llama
    的頭像 發表于 05-09 10:37 ?507次閱讀

    使用OpenVINO?在你的本地設備上離線運行Llama3之快手指南

    在人工智能領域,大型語言模型(LLMs)的發展速度令人震驚。2024年4月18日,Meta正式開源了LLama系列的新一代大模型Llama3,在這一領域中樹立了新的里程碑。
    的頭像 發表于 04-26 09:42 ?969次閱讀
    使用OpenVINO?在你的本地設備上離線<b class='flag-5'>運行</b><b class='flag-5'>Llama3</b>之快手指南

    Llama 3 王者歸來,Airbox 率先支持部署

    前天,智算領域迎來一則令人振奮的消息:Meta正式發布了備受期待的開源大模型——Llama3Llama3的卓越性能Meta表示,
    的頭像 發表于 04-22 08:33 ?775次閱讀
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者歸來,Airbox 率先支持部署

    百度智能云國內首家支持Llama3全系列訓練推理!

    4月18日,Meta 正式發布 Llama 3,包括8B 和 70B 參數的大模型,官方號稱有史以來最強大的開源大模型。
    的頭像 發表于 04-20 09:20 ?477次閱讀
    百度智能云國內首家支持<b class='flag-5'>Llama3</b>全系列訓練推理!
    主站蜘蛛池模板: 父亲在线日本综艺免费观看全集 | 亚洲狠狠网站色噜噜 | 夫外出被公侵犯日本电影 | 撅高 自己扒开 调教 | 国产精品悠悠久久人妻精品 | 69日本人XXXX护士HD | 国产美女久久久久久久久久久 | 亚洲精品自在线拍2019 | 在线天天看片视频免费观看 | 日本不卡一二三 | 久久青草热热在线精品 | 久久99热这里只频精品6 | 亚洲精品久久一区二区三区四区 | 吃奶啃奶玩乳漫画 | 国产精品无码AV天天爽色欲 | caoporn 免费视频 | 艳鉧动漫片1~6全集在线 | 亚洲黄色高清 | 久草在线福利资站免费视频 | 自拍偷拍2 | 亚洲 色 欧美 爱 视频 日韩 | 第四色播日韩AV第一页 | 748亚洲大胆国模人体 | 一区二区三区福利视频 | 色狗综合网 | 色婷婷国产精品视频一区二区 | 中字幕久久久人妻熟女天美传媒 | 国产久青青青青在线观看 | 高清 国产 在线 亚洲 | 翘臀少妇被扒开屁股日出水爆乳 | 国模孕妇模特季玥之粉红 | 久久99热这里只有精品66 | 九九影院午夜理论片无码 | 国产精品美女久久久网站动漫 | 日韩精品亚洲专区在线影院 | 免费A级毛片无码无遮挡内射 | 三级黄色高清视频 | 国产人妻人伦精品98 | 嫩草影院地址一二三 | 亚洲性夜夜色综合网站 | 337p啪啪人体大胆 |