色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-05-10 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

Llama3簡介

Llama3 是Meta最新發(fā)布的開源大語言模型(LLM), 當(dāng)前已開源8B和70B參數(shù)量的預(yù)訓(xùn)練模型權(quán)重,并支持指令微調(diào)。詳情參見:

https://ai.meta.com/blog/meta-llama-3/

Llama3性能優(yōu)異,8B和70B參數(shù)模型的性能在chatbot-arena-leaderboard中皆進入前十;LLama-3-70b-Instruct僅次于閉源的GPT-4系列模型。

排行榜鏈接:

https://chat.lmsys.org/?leaderboard

b3bd5d62-0dfd-11ef-a297-92fbcf53809c.png

魔搭社區(qū)已提供Llama3 8B和70B模型的預(yù)訓(xùn)練權(quán)重下載,實測下載速度平均34MB/s。

b3d29b8c-0dfd-11ef-a297-92fbcf53809c.png

請讀者用下面的命令把Meta-Llama-3-8B模型的預(yù)訓(xùn)練權(quán)重下載到本地待用。

git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B.git
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-70B.git

算力魔方是一款可以DIY的迷你主機,采用了抽屜式設(shè)計,后續(xù)組裝、升級、維護只需要拔插模塊。通過選擇不同算力的計算模塊,再搭配不同的 IO 模塊可以組成豐富的配置,適應(yīng)不同場景。

性能不夠時,可以升級計算模塊提升算力;IO 接口不匹配時,可以更換 IO 模塊調(diào)整功能,而無需重構(gòu)整個系統(tǒng)。

本文以下所有步驟將在帶有英特爾i7-1265U處理器的算力魔方上完成驗證。

02

三步完成Llama3的INT4量化和本地部署

把Meta-Llama-3-8B模型的預(yù)訓(xùn)練權(quán)重下載到本地后,接下來本文將依次介紹基于Optimum Intel工具將Llama進行INT4量化,并完成本地部署。

Optimum Intel作為Transformers和Diffusers庫與Intel提供的各種優(yōu)化工具之間的接口層,它給開發(fā)者提供了一種簡便的使用方式,讓這兩個庫能夠利用Intel針對硬件優(yōu)化的技術(shù),例如:OpenVINO、IPEX等,加速基于Transformer或Diffusion構(gòu)架的AI大模型在英特爾硬件上的推理計算性能。

Optimum Intel代碼倉連接:

https://github.com/huggingface/optimum-intel。

01

第一步,搭建開發(fā)環(huán)境

請下載并安裝Anaconda,然后用下面的命令創(chuàng)建并激活名為optimum_intel的虛擬環(huán)境:

conda create -n optimum_intel python=3.11 #創(chuàng)建虛擬環(huán)境
conda activate optimum_intel        #激活虛擬環(huán)境
python -m pip install --upgrade pip     #升級pip到最新版本

由于Optimum Intel代碼迭代速度很快,請用從源代碼安裝的方式,安裝Optimum Intel和其依賴項openvino與nncf。

python -m pip install "optimum-intel[openvino,nncf]"@git+https://github.com/huggingface/optimum-intel.git

02

第二步,用optimum-cli對Llama3模型進行INT4量化

optimum-cli是Optimum Intel自帶的跨平臺命令行工具,可以不用編寫量化代碼,實現(xiàn)對Llama3模型的量化。

執(zhí)行命令將Llama3-8B模型量化為INT4 OpenVINO格式模型:

optimum-cli export openvino --model D:llama3Meta-Llama-3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym llama3_int4_ov_model

b40612c8-0dfd-11ef-a297-92fbcf53809c.png

03

第三步:編寫推理程序llama3_int4_ov_infer.py

基于Optimum Intel工具包的API函數(shù)編寫Llama3的推理程序,非常簡單,只需要調(diào)用六個API函數(shù):

1.

初始化OpenVINO Core對象:ov.Core()

2.

編譯并載入Llama3模型到指定DEVICE:OVModelForCausalLM.from_pretrained()

3.

實例化Llama3模型的Tokenizer:tok=AutoTokenizer.from_pretrained()

4.

將自然語言轉(zhuǎn)換為Token序列:tok(question, return_tensors="pt", **{})

5.

生成答案的Token序列:ov_model.generate()

6.

將答案Token序列解碼為自然語言:tok.batch_decode()

完整范例程序如下所示,下載鏈接:

import openvino as ov
from transformers import AutoConfig, AutoTokenizer
from optimum.intel.openvino import OVModelForCausalLM


# 初始化OpenVINO Core對象
core = ov.Core()
ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
model_dir = "d:\llama3_int4_ov_model" #llama3 int4模型路徑
DEVICE = "CPU" #可更換為"GPU", "AUTO"...
# 編譯并載入Llama3模型到DEVICE
ov_model = OVModelForCausalLM.from_pretrained(
  model_dir,
  device=DEVICE,
  ov_config=ov_config,
  config=AutoConfig.from_pretrained(model_dir, trust_remote_code=True),
  trust_remote_code=True,
)
# 載入Llama3模型的Tokenizer
tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 設(shè)置問題
question = "What's the OpenVINO?" 
# 將自然語言轉(zhuǎn)換為Token序列
input_tokens = tok(question, return_tensors="pt", **{})
# 生成答案的Token序列
answer = ov_model.generate(**input_tokens, max_new_tokens=128)
# 將答案Token序列解碼為自然語言并顯示
print(tok.batch_decode(answer, skip_special_tokens=True)[0])

運行l(wèi)lama3_int4_ov_infer.py:

python llama3_int4_ov_infer.py

運行結(jié)果,如下所示:

b41a8794-0dfd-11ef-a297-92fbcf53809c.png

03

構(gòu)建圖形化的Llama3 demo

請先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

下載范例程序:

然后運行:

python llama3_webui.py

運行結(jié)果如下:

b5465e9a-0dfd-11ef-a297-92fbcf53809c.png

b574c000-0dfd-11ef-a297-92fbcf53809c.jpg

04

總結(jié)

Optimum Intel工具包簡單易用,僅需三步即可完成開發(fā)環(huán)境搭建、LLama模型INT4量化和推理程序開發(fā)。基于Optimum Intel工具包開發(fā)Llama3推理程序僅需調(diào)用六個API函數(shù),方便快捷的實現(xiàn)將Llama3本地化部署在基于英特爾處理器的算力魔方上。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19864

    瀏覽量

    234424
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4826

    瀏覽量

    86524
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    324

    瀏覽量

    792
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    114

    瀏覽量

    457
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    371

    瀏覽量

    561

原文標題:Optimum Intel三步完成Llama3在算力魔方的本地量化和部署 | 開發(fā)者實戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    能RADXA微服務(wù)器試用體驗】+ GPT語音與視覺交互:1,LLM部署

    。環(huán)境變量的配置,未來具體項目中我們會再次提到。 下面我們正式開始項目。項目從輸入到輸出分別涉及了語音識別,圖像識別,LLM,TTS這幾個與AI相關(guān)的模塊。先從最核心的LLM開始。 由于LLAMA3
    發(fā)表于 06-25 15:02

    使用 NPU 插件對量化Llama 3.1 8b 模型進行推理時出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    發(fā)表于 06-25 07:20

    菱FX3U接入MQTT平臺的三步

    菱FX3U接入MQTT平臺的三步第一:PLC網(wǎng)關(guān)通過串口采集菱FX3U的數(shù)據(jù) 第二
    發(fā)表于 11-11 16:01 ?1318次閱讀
    <b class='flag-5'>三</b>菱FX<b class='flag-5'>3</b>U接入MQTT平臺的<b class='flag-5'>三步</b>

    Llama 3 王者歸來,Airbox 率先支持部署

    前天,智領(lǐng)域迎來一則令人振奮的消息:Meta正式發(fā)布了備受期待的開源大模型——Llama3Llama3的卓越性能Meta表示,Llama3
    的頭像 發(fā)表于 04-22 08:33 ?957次閱讀
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者歸來,Airbox 率先支持<b class='flag-5'>部署</b>

    使用OpenVINO?在你的本地設(shè)備上離線運行Llama3之快手指南

    人工智能領(lǐng)域,大型語言模型(LLMs)的發(fā)展速度令人震驚。2024年4月18日,Meta正式開源了LLama系列的新一代大模型Llama3,在這一領(lǐng)域中樹立了新的里程碑。
    的頭像 發(fā)表于 04-26 09:42 ?1139次閱讀
    使用OpenVINO?在你的<b class='flag-5'>本地</b>設(shè)備上離線運行<b class='flag-5'>Llama3</b>之快手指南

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團隊推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯(lián)網(wǎng),簡單快捷完成本地部署。點擊觀看
    的頭像 發(fā)表于 06-06 08:02 ?1207次閱讀
    【AIBOX上手指南】快速<b class='flag-5'>部署</b><b class='flag-5'>Llama3</b>

    源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

    北京2024年8月23日?/美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開源大模型。4bit量化版推理運行顯存僅需
    的頭像 發(fā)表于 08-25 22:06 ?642次閱讀
    源2.0-M32大模型發(fā)布<b class='flag-5'>量化</b>版 運行顯存僅需23GB 性能可媲美<b class='flag-5'>LLaMA3</b>

    使用OpenVINO 2024.4魔方部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3魔方
    的頭像 發(fā)表于 10-12 09:39 ?1422次閱讀
    使用OpenVINO 2024.4<b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上<b class='flag-5'>部署</b><b class='flag-5'>Llama</b>-3.2-1B-Instruct模型

    從零開始訓(xùn)練一個大語言模型需要投資多少錢?

    關(guān)于訓(xùn)練技巧和模型評估的文章,但很少有直接告訴你如何估算訓(xùn)練時間和成本的。前面分享了一些關(guān)于大模型/本地知識庫的安裝部署方法,無需編寫代碼,即可使用 Ollama+AnythingLLM搭建企業(yè)私有知識庫 ,或者, 三步
    的頭像 發(fā)表于 11-08 14:15 ?757次閱讀
    從零開始訓(xùn)練一個大語言模型需要投資多少錢?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一個開源的大語言模型服務(wù)工具,它的核心目的是簡化大語言模型(LLMs)的本地部署和運行過程,請參考《Gemma 2+Ollama
    的頭像 發(fā)表于 11-23 17:22 ?3701次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> 3.2 Vision模型<b class='flag-5'>本地</b><b class='flag-5'>部署</b>

    魔方本地部署Phi-4模型

    ?作者:魔方創(chuàng)始人/英特爾邊緣計算創(chuàng)新大使 劉 前面我們分享了《Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑》,
    的頭像 發(fā)表于 01-15 11:05 ?479次閱讀
    <b class='flag-5'>在</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>上<b class='flag-5'>本地</b><b class='flag-5'>部署</b>Phi-4模型

    如何在邊緣端獲得GPT4-V的能力:魔方+MiniCPM-V 2.6

    作者:魔方創(chuàng)始人/英特爾邊緣計算創(chuàng)新大使 劉 前面我們分享了《
    的頭像 發(fā)表于 01-20 13:40 ?600次閱讀
    如何在邊緣端獲得GPT4-V的能力:<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>+MiniCPM-V 2.6

    魔方IO擴展模塊介紹 網(wǎng)絡(luò)篇1

    不同的總線接口功能。不同場景中,有采用串口、網(wǎng)絡(luò)或者是CAN總線通信,魔方?都可以通過模塊的選型提供支持;并且可以根據(jù)場景需要,提供微定制服務(wù)。 以上
    的頭像 發(fā)表于 04-09 14:33 ?297次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>IO擴展模塊介紹 網(wǎng)絡(luò)篇1

    基于魔方的智能文檔信息提取方案

    ?作者:魔方創(chuàng)始人/英特爾創(chuàng)新大使劉 一,引言 大數(shù)據(jù)時代,文檔數(shù)據(jù)量急劇增加,傳統(tǒng)的手工方式已無法滿足快速獲取有效信息的需求。深度
    的頭像 發(fā)表于 05-15 10:37 ?180次閱讀
    基于<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>的智能文檔信息提取方案

    基于魔方與PP-OCRv5的OpenVINO智能文檔識別方案

    )團隊最新推出的PP-OCRv5模型精度和效率上實現(xiàn)了顯著突破,結(jié)合Intel OpenVINO工具套件的硬件加速能力,能夠為各類文檔處理場景提供更強大的支持。 二,
    的頭像 發(fā)表于 06-12 21:19 ?377次閱讀
    基于<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>魔方</b>與PP-OCRv5的OpenVINO智能文檔識別方案
    主站蜘蛛池模板: 天天狠狠弄夜夜狠狠躁·太爽了 | 亚洲精品tv久久久久久久久久 | 国产不卡一卡2卡三卡4卡网站 | 工口肉肉彩色不遮挡 | 亚洲免费无l码中文在线视频 | 国产在线亚洲v天堂a | 成人性生交大片 | 亚洲精品无码专区在线播放 | 少妇内射视频播放舔大片 | 久久国产精品萌白酱免费 | 日本护士在线观看 | 亚洲精品成人久久久影院 | 国色天香视频在线社区 | 超碰国产亚洲人人 | 中文字幕午夜乱理片 | 我在厨房摸岳的乳HD在线观看 | 毛片亚洲毛片亚洲毛片 | 被老师按在办公桌吸奶头 | 国产午夜人做人免费视频中文 | 杨幂被视频在线观看 | 国产精品一区二区AV白丝在线 | xxx88中国| 国产一区二区不卡老阿姨 | 一攻多受高h大总攻 | 亚洲中文字幕无码一久久区 | 亚洲精品永久免费 | 午夜神器老司机高清无码 | 钉钉女老师 | 7m凹凸国产刺激在线视频 | 国产欧美精品国产国产专区 | 亚洲 欧美 日韩 卡通 另类 | 老汉老太bbbbbxxxxx | 国产99久久九九免费精品无码 | 囯产精品久久久久久久久免费蜜桃 | 日日噜噜噜夜夜爽爽狠狠 | 在线精品视频成人网 | 野花日本大全免费高清完整版 | 久久久久久久伊人电影 | 超碰在线公开视频 | 在线免费观看亚洲视频 | 日韩成人性视频 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品