色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認(rèn)識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

如何在Ollama中使用OpenVINO后端

來源：OpenVINO 中文社區(qū)

為什么選擇 Ollama + OpenVINO 組合?

雙引擎驅(qū)動的技術(shù)優(yōu)勢

Ollama 和 OpenVINO 的結(jié)合為大型語言模型（LLM）的管理和推理提供了強(qiáng)大的雙引擎驅(qū)動。Ollama 提供了極簡的模型管理工具鏈，而 OpenVINO 則通過 Intel 硬件（CPU/GPU/NPU）為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調(diào)用流程，還顯著提升了推理性能，特別適合需要高性能和易用性的場景。

項目地址：openvino_contrib

（https://github.com/openvinotoolkit/openvino_contrib/tree/master/modules/ollama_openvino）

Ollama 的核心價值

1.極簡的 LLM 管理工具鏈：Ollama 提供了簡單易用的命令行工具，用戶可以輕松地下載、管理和運(yùn)行各種 LLM 模型。

2.支持模型一鍵部署：通過簡單的命令，用戶可以快速部署和調(diào)用模型，無需復(fù)雜的配置。

3.提供統(tǒng)一的 API 接口：Ollama 提供了統(tǒng)一的 API 接口，方便開發(fā)者集成到各種應(yīng)用中。

4.活躍的開源社區(qū)生態(tài)：Ollama 擁有活躍的開源社區(qū)，用戶可以獲取豐富的資源和支持。

Ollama 局限性

Ollama 目前僅支持 llama.cpp 作為后端，這帶來了一些不便：

1.硬件兼容性受限：llama.cpp 主要針對 CPU 以及NVIDIA GPU優(yōu)化，無法充分利用 INTEL GPU 或 NPU 等硬件加速能力，導(dǎo)致在需要高性能計算的場景下表現(xiàn)不足。

2.性能瓶頸：對于大規(guī)模模型或高并發(fā)場景，llama.cpp 的性能可能無法滿足需求，尤其是在處理復(fù)雜任務(wù)時，推理速度較慢。

OpenVINO 的突破性能力

1.為 Intel 硬件提供深度優(yōu)化（CPU/iGPU/Arc dGPU/NPU）：OpenVINO 針對 Intel 硬件進(jìn)行了深度優(yōu)化，能夠充分發(fā)揮 CPU、集成 GPU、獨(dú)立 GPU 和 NPU 的性能潛力。

2.支持跨平臺異構(gòu)計算：OpenVINO 支持跨平臺異構(gòu)計算，能夠在不同硬件平臺上實現(xiàn)高效的模型推理。

3.提供模型量化壓縮工具鏈：OpenVINO 提供了豐富的模型量化壓縮工具鏈，能夠顯著減少模型大小，提升推理速度。

4.實現(xiàn)推理性能顯著提升：通過 OpenVINO 的優(yōu)化，模型推理性能可以得到顯著提升，特別是在大規(guī)模模型和高并發(fā)的場景。

5.可擴(kuò)展性與靈活性支持： OpenVINO GenAI 為 Ollama-OV 提供了強(qiáng)大的可擴(kuò)展性和靈活性，支持speculative decoding，Prompt-lookup decoding， pipeline parallel， continuous batching 等 pipeline 優(yōu)化技術(shù)，為未來更多 pipeline serving 優(yōu)化奠定了堅實基礎(chǔ)。

集成帶來的開發(fā)者紅利

1.極簡開發(fā)體驗：保留 Ollama 的 CLI 交互特性，開發(fā)者可以繼續(xù)使用熟悉的命令行工具進(jìn)行模型管理和調(diào)用。

2.性能飛躍：通過 OpenVINO 獲得硬件級加速，模型推理性能得到顯著提升，特別是在大規(guī)模模型和高并發(fā)場景下。

3.多硬件適配，生態(tài)擴(kuò)展：OpenVINO 的支持使得 Ollama 能夠適配多種硬件平臺，擴(kuò)展了其應(yīng)用生態(tài)，為開發(fā)者提供了更多的選擇和靈活性。

三步開啟加速體驗

1. 下載預(yù)先編譯好了 Linux、Windows 系統(tǒng)的可執(zhí)行文件，文件下載地址：

下載鏈接參考:

https://github.com/openvinotoolkit/openvino_contrib/tree/master/modules/ollama_openvino#%E7%99%BE%E5%BA%A6%E4%BA%91%E7%9B%98

源碼編譯參考:

https://github.com/openvinotoolkit/openvino_contrib/tree/master/modules/ollama_openvino#building-from-source

2. 配置 OpenVINO GenAI 的環(huán)境

以 windows 系統(tǒng)為例，首先將下載的 OpenVINO GenAI 壓縮包解壓到目錄 openvino_genai_windows_2025.2.0.0.dev20250320_x86_64 下。

然后執(zhí)行以下命令：

cd openvino_genai_windows_2025.2.0.0.dev20250320_x86_64
setupvars.bat

3. 設(shè)置 cgocheck

Windows：

set GODEBUG=cgocheck=0

Linux：

export GODEGUG=cgocheck=0

到此，可執(zhí)行文件已經(jīng)下載完成、OpenVINO GenAI、OpenVINO、CGO環(huán)境也已經(jīng)配置完成。

自定義模型實戰(zhàn)

因為 Ollama model library 不支持上傳非 GGUF 格式的 IR，所以我們在本地基于 OpenVINO IR 制作 Ollama 支持的 OCI image；我們以 DeepSeek-R1-Distill-Qwen-7B 為例：

1. 下載 OpenVINO IR 模型，從 ModelScope 下載：

pip install modelscope
   modelscope download --model zhaohb/DeepSeek-R1-Distill-Qwen-7B-int4-ov --local_dir ./DeepSeek-R1-Distill-Qwen-7B-int4-ov

2. 把下載的 OpenVINO IR 的目錄打包成 *tar.gz 的格式

tar -zcvf DeepSeek-R1-Distill-Qwen-7B-int4-ov.tar.gz DeepSeek-R1-Distill-Qwen-7B-int4-ov

3. 創(chuàng)建 Modelfile 文件

FROM DeepSeek-R1-Distill-Qwen-7B-int4-ov.tar.gz
ModelType "OpenVINO"
InferDevice "GPU"
PARAMETER repeat_penalty 1.0
PARAMETER top_p 1.0
PARAMETER temperature 1.0

4. 創(chuàng)建 ollama 支持的模型

ollama create
DeepSeek-R1-Distill-Qwen-7B-int4-ov:v1 -f Modelfile

這樣我們就創(chuàng)建了 DeepSeek-R1-Distill-Qwen-7B-int4-ov:v1 可以供 Ollama OpenVINO 后端使用的模型。

5. 使用該模型

ollama run DeepSeek-R1-Distill-Qwen-7B-int4-ov:v1 "請幫我推薦北京著名的景點"

至此，您已經(jīng)掌握了如何在 Ollama 中使用 OpenVINO 后端。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴