色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在Ollama中使用OpenVINO后端

英特爾物聯(lián)網(wǎng) ? 來源:OpenVINO 中文社區(qū) ? 2025-04-14 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:OpenVINO 中文社區(qū)

為什么選擇 Ollama + OpenVINO 組合?

雙引擎驅(qū)動的技術(shù)優(yōu)勢

Ollama 和 OpenVINO 的結(jié)合為大型語言模型(LLM)的管理和推理提供了強(qiáng)大的雙引擎驅(qū)動。Ollama 提供了極簡的模型管理工具鏈,而 OpenVINO 則通過 Intel 硬件(CPU/GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。

項目地址:openvino_contrib

(https://github.com/openvinotoolkit/openvino_contrib/tree/master/modules/ollama_openvino)

Ollama 的核心價值

1.極簡的 LLM 管理工具鏈:Ollama 提供了簡單易用的命令行工具,用戶可以輕松地下載、管理和運(yùn)行各種 LLM 模型。

2.支持模型一鍵部署:通過簡單的命令,用戶可以快速部署和調(diào)用模型,無需復(fù)雜的配置。

3.提供統(tǒng)一的 API 接口Ollama 提供了統(tǒng)一的 API 接口,方便開發(fā)者集成到各種應(yīng)用中。

4.活躍的開源社區(qū)生態(tài):Ollama 擁有活躍的開源社區(qū),用戶可以獲取豐富的資源和支持。

Ollama 局限性

Ollama 目前僅支持 llama.cpp 作為后端,這帶來了一些不便:

1.硬件兼容性受限:llama.cpp 主要針對 CPU 以及NVIDIA GPU優(yōu)化,無法充分利用 INTEL GPU 或 NPU 等硬件加速能力,導(dǎo)致在需要高性能計算的場景下表現(xiàn)不足。

2.性能瓶頸:對于大規(guī)模模型或高并發(fā)場景,llama.cpp 的性能可能無法滿足需求,尤其是在處理復(fù)雜任務(wù)時,推理速度較慢。

OpenVINO 的突破性能力

1.為 Intel 硬件提供深度優(yōu)化(CPU/iGPU/Arc dGPU/NPU):OpenVINO 針對 Intel 硬件進(jìn)行了深度優(yōu)化,能夠充分發(fā)揮 CPU、集成 GPU、獨(dú)立 GPU 和 NPU 的性能潛力。

2.支持跨平臺異構(gòu)計算:OpenVINO 支持跨平臺異構(gòu)計算,能夠在不同硬件平臺上實現(xiàn)高效的模型推理。

3.提供模型量化壓縮工具鏈:OpenVINO 提供了豐富的模型量化壓縮工具鏈,能夠顯著減少模型大小,提升推理速度。

4.實現(xiàn)推理性能顯著提升:通過 OpenVINO 的優(yōu)化,模型推理性能可以得到顯著提升,特別是在大規(guī)模模型和高并發(fā)的場景。

5.可擴(kuò)展性與靈活性支持: OpenVINO GenAI 為 Ollama-OV 提供了強(qiáng)大的可擴(kuò)展性和靈活性,支持speculative decoding,Prompt-lookup decoding, pipeline parallel, continuous batching 等 pipeline 優(yōu)化技術(shù),為未來更多 pipeline serving 優(yōu)化奠定了堅實基礎(chǔ)。

集成帶來的開發(fā)者紅利

1.極簡開發(fā)體驗:保留 Ollama 的 CLI 交互特性,開發(fā)者可以繼續(xù)使用熟悉的命令行工具進(jìn)行模型管理和調(diào)用。

2.性能飛躍:通過 OpenVINO 獲得硬件級加速,模型推理性能得到顯著提升,特別是在大規(guī)模模型和高并發(fā)場景下。

3.多硬件適配,生態(tài)擴(kuò)展:OpenVINO 的支持使得 Ollama 能夠適配多種硬件平臺,擴(kuò)展了其應(yīng)用生態(tài),為開發(fā)者提供了更多的選擇和靈活性。

三步開啟加速體驗

1. 下載預(yù)先編譯好了 Linux、Windows 系統(tǒng)的可執(zhí)行文件,文件下載地址:

下載鏈接參考:

https://github.com/openvinotoolkit/openvino_contrib/tree/master/modules/ollama_openvino#%E7%99%BE%E5%BA%A6%E4%BA%91%E7%9B%98

源碼編譯參考:

https://github.com/openvinotoolkit/openvino_contrib/tree/master/modules/ollama_openvino#building-from-source

2. 配置 OpenVINO GenAI 的環(huán)境

以 windows 系統(tǒng)為例,首先將下載的 OpenVINO GenAI 壓縮包解壓到目錄 openvino_genai_windows_2025.2.0.0.dev20250320_x86_64 下。

然后執(zhí)行以下命令:

cd openvino_genai_windows_2025.2.0.0.dev20250320_x86_64
setupvars.bat

3. 設(shè)置 cgocheck

Windows:

set GODEBUG=cgocheck=0

Linux:

export GODEGUG=cgocheck=0

到此,可執(zhí)行文件已經(jīng)下載完成、OpenVINO GenAI、OpenVINO、CGO環(huán)境也已經(jīng)配置完成。

自定義模型實戰(zhàn)

因為 Ollama model library 不支持上傳非 GGUF 格式的 IR,所以我們在本地基于 OpenVINO IR 制作 Ollama 支持的 OCI image;我們以 DeepSeek-R1-Distill-Qwen-7B 為例:

1. 下載 OpenVINO IR 模型,從 ModelScope 下載:

pip install modelscope
   modelscope download --model zhaohb/DeepSeek-R1-Distill-Qwen-7B-int4-ov --local_dir ./DeepSeek-R1-Distill-Qwen-7B-int4-ov

2. 把下載的 OpenVINO IR 的目錄打包成 *tar.gz 的格式

tar -zcvf DeepSeek-R1-Distill-Qwen-7B-int4-ov.tar.gz DeepSeek-R1-Distill-Qwen-7B-int4-ov

3. 創(chuàng)建 Modelfile 文件

FROM DeepSeek-R1-Distill-Qwen-7B-int4-ov.tar.gz
ModelType "OpenVINO"
InferDevice "GPU"
PARAMETER repeat_penalty 1.0
PARAMETER top_p 1.0
PARAMETER temperature 1.0

4. 創(chuàng)建 ollama 支持的模型

ollama create
DeepSeek-R1-Distill-Qwen-7B-int4-ov:v1 -f Modelfile

這樣我們就創(chuàng)建了 DeepSeek-R1-Distill-Qwen-7B-int4-ov:v1 可以供 Ollama OpenVINO 后端使用的模型。

5. 使用該模型

ollama run DeepSeek-R1-Distill-Qwen-7B-int4-ov:v1 "請幫我推薦北京著名的景點"

至此,您已經(jīng)掌握了如何在 Ollama 中使用 OpenVINO 后端。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10204

    瀏覽量

    174917
  • 接口
    +關(guān)注

    關(guān)注

    33

    文章

    9029

    瀏覽量

    153879
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4963

    瀏覽量

    131560
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35404

    瀏覽量

    280988
  • OpenVINO
    +關(guān)注

    關(guān)注

    0

    文章

    115

    瀏覽量

    509

原文標(biāo)題:當(dāng) Ollama 遇上 OpenVINO? :解鎖多硬件 AI 推理新范式

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    何在bash中使用條件語句

    今天我們介紹一下如何在 bash 中使用條件語句。
    的頭像 發(fā)表于 12-09 17:27 ?2525次閱讀
    如<b class='flag-5'>何在</b>bash<b class='flag-5'>中使</b>用條件語句

    何在Linux中使用htop命令

    本文介紹如何在 Linux 中使用 htop 命令。
    的頭像 發(fā)表于 12-04 14:45 ?3299次閱讀
    如<b class='flag-5'>何在</b>Linux<b class='flag-5'>中使</b>用htop命令

    何在OpenVINO工具包中使用帶推理引擎的blob?

    無法確定如何在OpenVINO?工具包中使用帶推理引擎的 blob。
    發(fā)表于 08-15 07:17

    無法在OpenVINO工具套件中使用ENetwork.層怎么解決?

    OpenVINO? 工具套件 2021.4 中使用 IENetwork.層 。 收到錯誤:openvino.inference_engine.ie_api。IENetwork 對象沒有屬性“層”
    發(fā)表于 08-15 06:41

    何在VxWorks系統(tǒng)中使用TrueType字庫

    何在VxWorks系統(tǒng)中使用TrueType字庫
    發(fā)表于 03-29 12:25 ?19次下載

    何在UltraScale+設(shè)計中使用UltraRAM模塊

    了解如何在UltraScale +設(shè)計中包含新的UltraRAM模塊。 該視頻演示了如何在UltraScale + FPGA和MPSoC中使用UltraRAM,包括新的Xilinx參數(shù)化宏(XPM)工具。
    的頭像 發(fā)表于 11-22 05:50 ?8498次閱讀

    何在java代碼中使用HTTP代理IP

    何在java代碼中使用HTTP代理IP。
    的頭像 發(fā)表于 08-04 15:38 ?2518次閱讀

    何在python代碼中使用HTTP代理IP

    何在python代碼中使用HTTP代理IP。
    的頭像 發(fā)表于 08-04 15:46 ?1516次閱讀

    何在PHP代碼中使用HTTP代理IP

    何在PHP代碼中使用HTTP代理IP。
    的頭像 發(fā)表于 08-04 16:08 ?2715次閱讀

    何在Arduino中使用伺服電機(jī)

    電子發(fā)燒友網(wǎng)站提供《如何在Arduino中使用伺服電機(jī).zip》資料免費(fèi)下載
    發(fā)表于 10-24 09:46 ?3次下載
    如<b class='flag-5'>何在</b>Arduino<b class='flag-5'>中使</b>用伺服電機(jī)

    何在Arduino中使用LDR

    電子發(fā)燒友網(wǎng)站提供《如何在Arduino中使用LDR.zip》資料免費(fèi)下載
    發(fā)表于 10-31 09:50 ?0次下載
    如<b class='flag-5'>何在</b>Arduino<b class='flag-5'>中使</b>用LDR

    何在Arduino中使用Modbus

    電子發(fā)燒友網(wǎng)站提供《如何在Arduino中使用Modbus.zip》資料免費(fèi)下載
    發(fā)表于 11-22 11:21 ?14次下載
    如<b class='flag-5'>何在</b>Arduino<b class='flag-5'>中使</b>用Modbus

    何在Arduino中使用微型伺服

    電子發(fā)燒友網(wǎng)站提供《如何在Arduino中使用微型伺服.zip》資料免費(fèi)下載
    發(fā)表于 11-28 09:50 ?1次下載
    如<b class='flag-5'>何在</b>Arduino<b class='flag-5'>中使</b>用微型伺服

    何在測試中使用ChatGPT

    Dimitar Panayotov 在 2023 年 QA Challenge Accepted 大會 上分享了他如何在測試中使用 ChatGPT。
    的頭像 發(fā)表于 02-20 13:57 ?1093次閱讀

    在MAC mini4上安裝Ollama、Chatbox及模型交互指南

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 一,簡介 本文將指導(dǎo)您如何在MAC mini4上安裝Ollama和Chatbox,并下載Deepseek-r1:32b模型。Ollama是一個用于管理和運(yùn)行
    的頭像 發(fā)表于 03-11 17:17 ?849次閱讀
    在MAC mini4上安裝<b class='flag-5'>Ollama</b>、Chatbox及模型交互指南
    主站蜘蛛池模板: 9277高清在线观看视频 | 国产在线高清亚洲精品一区 | 毛片大全网站 | 欧美末成年videos在线 | 亚洲精品高清视频 | 久久99精品AV99果冻 | 国产精品视频免费视频 | 国产人妻人伦精品1国产 | 亚洲精品国产乱码AV在线观看 | 午夜福利免费视频921000电影 | 国产精品久人妻精品 | 老师我好爽再深一点老师好涨 | 天天澡夜夜澡人人澡 | 99视频在线免费看 | 好吊妞国产欧美日韩视频 | 4438全国免费观看 | 青青青手机视频 | 日韩精品无码久久一区二区三 | 九九精品久久 | 女人张开腿让男人桶爽免 | 最近韩国日本免费观看mv免费版 | 国产精品亚洲精品久久品 | ai换脸女明星被躁在线观看免费 | 青青草原伊人 | 神马伦理2019影院不卡片 | 国产成人精品综合在线 | 亚洲一区二区三区高清网 | 男人国产AV天堂WWW麻豆 | 上原结衣快播 | 55夜色66夜亚洲精品播放 | 日本少妇内射视频播放舔 | 美女露出撒尿的部位 | 女人 我狠狠疼你 | 久久99re7在线视频精品 | 一区二区三区无码被窝影院 | 99久久久久精品国产免费麻豆 | 青青青草免费 | 午夜家庭影院 | 99精品视频免费在线观看 | 日韩欧美精品有码在线播放 | 狠狠狠的在啪线香蕉 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品