色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用vLLM+OpenVINO加速大語言模型推理

英特爾物聯網 ? 來源:英特爾物聯網 ? 2024-11-15 14:20 ? 次閱讀

作者:

武卓 博士 英特爾 OpenVINO 布道師

隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰。vLLM 作為高效的大模型推理框架,通過 OpenVINO 的優化,vLLM 用戶不僅能夠更高效地部署大模型,還能提升吞吐量和處理能力,從而在成本、性能和易用性上獲得最佳平衡。這種優化對于需要快速響應和節省資源的云端或邊緣推理應用尤為重要。目前,OpenVINO 最新版本 OpenVINO 2024.4 中已經支持與 vLLM 框架的集成,只需要一步安裝,一步配置,就能夠以零代碼修改的方式,將 OpenVINO 作為推理后端,在運行 vLLM 對大語言模型的推理時獲得推理加速。

15954672-9db3-11ef-93f3-92fbcf53809c.png

01vLLM 簡介

vLLM 是由加州大學伯克利分校開發的開源框架,專門用于高效實現大語言模型(LLMs)的推理和部署。它具有以下優勢:

高性能:相比 HuggingFace Transformers 庫,vLLM 能提升多達24倍的吞吐量。

易于使用:無需對模型架構進行任何修改即可實現高性能推理。

低成本:vLLM 的出現使得大模型的部署更加經濟實惠。

02一步安裝:搭建 vLLM+OpenVINO 阿里云ECS開發環境

下面我們以在阿里云的免費云服務器 ECS 上運行通義千問 Qwen2.5 模型為例,詳細介紹如何通過簡單的兩步,輕松實現 OpenVINO 對 vLLM 大語言模型推理服務的加速。

在阿里云上申請免費的云服務器 ECS 資源,并選擇 Ubuntu22.04 作為操作系統

159ee2fe-9db3-11ef-93f3-92fbcf53809c.png

接著進行遠程連接后,登錄到終端操作界面。

請按照以下步驟配置開發環境:

1. 更新系統并安裝 Python 3 及虛擬環境:

sudo apt-get update -y
sudo apt-get install python3 python3.10-venv -y

2. 建立并激活 Python 虛擬環境:

python3 -m venv vllm_env
source vllm_env/bin/activate

3. 克隆 vLLM 代碼倉庫并安裝依賴項:

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install --upgrade 
pippip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

4. 安裝 vLLM 的 OpenVINO 后端:

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此,環境搭建完畢。

03魔搭社區大語言模型下載

接下來,去魔搭社區下載最新的通義千問2.5系列大語言模型,這里以 Qwen2.5-0.5B-Instruct 模型的下載為例。

模型下載地址為:

https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

魔搭社區為開發者提供了多種模型下載的方式,這里我們以“命令行下載“方式為例。

首先用以下命令安裝 modelscope:

pip install modelscope

接著運行以下命令完成模型下載:

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

下載后的模型,默認存放在以下路徑中:

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct

本次運行的推理腳本,我們以 vllm 倉庫中 examples 文件夾中的 offline_inference.py 推理腳本為例。由于 vLLM 默認的腳本是從 Hugging Face 平臺上直接下載模型,而由于網絡連接限制無法從該平臺直接下載模型,因此我們采用上面的方式將模型從魔搭社區中下載下來,接下來使用以下命令,修改腳本中第14行,將原腳本中的模型名稱“"facebook/opt-125m"”替換為下載后存放Qwen2.5模型的文件夾路徑”

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct“即可,效果如下圖所示。

15c54458-9db3-11ef-93f3-92fbcf53809c.png

04一步配置:配置并運行推理腳本

接下來,在運行推理腳本,完成 LLMs 推理之前,我們再針對 OpenVINO 作為推理后端,進行一些優化的配置。使用如下命令進行配置:

export VLLM_OPENVINO_KVCACHE_SPACE=1 
export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

VLLM_OPENVINO_KVCACHE_SPACE:用于指定鍵值緩存(KV Cache)的大小(例如,VLLM_OPENVINO_KVCACHE_SPACE=100 表示為 KV 緩存分配 100 GB 空間)。較大的設置可以讓 vLLM 支持更多并發請求。由于本文運行在阿里云的免費 ECS 上空間有限,因此本次示例中我們將該值設置為1。實際使用中,該參數應根據用戶的硬件配置和內存管理方式進行設置。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8:用于控制 KV 緩存的精度。默認情況下,會根據平臺選擇使用 FP16 或 BF16 精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS:用于啟用模型加載階段的 U8 權重壓縮。默認情況下,權重壓縮是關閉的。通過設置 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON 來開啟權重壓縮。

為了優化 TPOT(Token Processing Over Time)和 TTFT(Time To First Token)性能,可以使用 vLLM 的分塊預填充功能(--enable-chunked-prefill)。根據實驗結果,推薦的批處理大小為 256(--max-num-batched-tokens=256)。

最后,讓我們來看看 vLLM 使用 OpenVINO 后端運行大語言模型推理的效果,運行命令如下:

python offline_inference.py

除了運行以上配置,可以利用 OpenVINO 在 CPU 上輕松實現 vLLM 對大語言模型推理加速外,也可以利用如下配置在英特爾集成顯卡和獨立顯卡等 GPU 設備上獲取 vLLM 對大語言模型推理加速。

export VLLM_OPENVINO_DEVICE=GPU 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

05結論

通過在 vLLM 中集成 OpenVINO 優化,用戶能夠顯著提升大語言模型的推理效率,減少延遲并提高資源利用率。簡單的配置步驟即可實現推理加速,使得在阿里云等平臺上大規模并發請求的處理變得更加高效和經濟。OpenVINO 的優化讓用戶在保持高性能的同時降低部署成本,為 AI 模型的實時應用和擴展提供了強有力的支持。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    9949

    瀏覽量

    171692
  • 大模型
    +關注

    關注

    2

    文章

    2423

    瀏覽量

    2640
  • OpenVINO
    +關注

    關注

    0

    文章

    92

    瀏覽量

    196

原文標題:開發者實戰|一步安裝,一步配置:用 vLLM + OpenVINO? 輕松加速大語言模型推理

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    壓縮模型加速推理嗎?

    位壓縮和“無”配置下都運行了 115 毫秒,盡管精度有所下降。我認為將 float 網絡參數壓縮為 uint8_t 不僅可以節省內存,還可以加快推理速度。那么,壓縮模型是否應該加速推理
    發表于 01-29 06:24

    如何在OpenVINO工具包中使用帶推理引擎的blob?

    無法確定如何在OpenVINO?工具包中使用帶推理引擎的 blob。
    發表于 08-15 07:17

    在AI愛克斯開發板上用OpenVINO?加速YOLOv8目標檢測模型

    《在 AI 愛克斯開發板上用 OpenVINO 加速 YOLOv8 分類模型》介紹了在 AI 愛克斯開發板上使用 OpenVINO 開發套件部署并測評 YOLOv8 的分類
    的頭像 發表于 05-12 09:08 ?1311次閱讀
    在AI愛克斯開發板上用<b class='flag-5'>OpenVINO</b>?<b class='flag-5'>加速</b>YOLOv8目標檢測<b class='flag-5'>模型</b>

    自訓練Pytorch模型使用OpenVINO?優化并部署在AI愛克斯開發板

    本文章將依次介紹如何將 Pytorch 自訓練模型經過一系列變換變成 OpenVINO IR 模型形式,而后使用 OpenVINO Python API 對 IR
    的頭像 發表于 05-26 10:23 ?926次閱讀
    自訓練Pytorch<b class='flag-5'>模型</b>使用<b class='flag-5'>OpenVINO</b>?優化并部署在AI愛克斯開發板

    AI愛克斯開發板上使用OpenVINO加速YOLOv8目標檢測模型

    《在AI愛克斯開發板上用OpenVINO加速YOLOv8分類模型》介紹了在AI愛克斯開發板上使用OpenVINO 開發套件部署并測評YOLOv8的分類
    的頭像 發表于 05-26 11:03 ?1238次閱讀
    AI愛克斯開發板上使用<b class='flag-5'>OpenVINO</b><b class='flag-5'>加速</b>YOLOv8目標檢測<b class='flag-5'>模型</b>

    如何將Pytorch自訓練模型變成OpenVINO IR模型形式

    本文章將依次介紹如何將Pytorch自訓練模型經過一系列變換變成OpenVINO IR模型形式,而后使用OpenVINO Python API 對IR
    的頭像 發表于 06-07 09:31 ?1985次閱讀
    如何將Pytorch自訓練<b class='flag-5'>模型</b>變成<b class='flag-5'>OpenVINO</b> IR<b class='flag-5'>模型</b>形式

    OpenVINO? C++ API編寫YOLOv8-Seg實例分割模型推理程序

    本文章將介紹使用 OpenVINO 2023.0 C++ API 開發YOLOv8-Seg 實例分割(Instance Segmentation)模型的 AI 推理程序。本文 C++ 范例程序的開發環境是 Windows + V
    的頭像 發表于 06-25 16:09 ?1581次閱讀
    用<b class='flag-5'>OpenVINO</b>? C++ API編寫YOLOv8-Seg實例分割<b class='flag-5'>模型</b><b class='flag-5'>推理</b>程序

    主流大模型推理框架盤點解析

    vLLM是一個開源的大模型推理加速框架,通過PagedAttention高效地管理attention中緩存的張量,實現了比HuggingFace Transformers高14-24倍
    發表于 10-10 15:09 ?5260次閱讀
    主流大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>框架盤點解析

    基于OpenVINO Python API部署RT-DETR模型

    平臺實現 OpenVINO 部署 RT-DETR 模型實現深度學習推理加速, 在本文中,我們將首先介紹基于 OpenVINO Python
    的頭像 發表于 10-20 11:15 ?959次閱讀
    基于<b class='flag-5'>OpenVINO</b> Python API部署RT-DETR<b class='flag-5'>模型</b>

    NNCF壓縮與量化YOLOv8模型OpenVINO部署測試

    OpenVINO2023版本衍生出了一個新支持工具包NNCF(Neural Network Compression Framework – 神經網絡壓縮框架),通過對OpenVINO IR格式模型的壓縮與量化更好的提升
    的頭像 發表于 11-20 10:46 ?1602次閱讀
    NNCF壓縮與量化YOLOv8<b class='flag-5'>模型</b>與<b class='flag-5'>OpenVINO</b>部署測試

    如何加速語言模型推理

    的主要挑戰。本文將從多個維度深入探討如何加速語言模型推理過程,以期為相關領域的研究者和開發者提供參考。
    的頭像 發表于 07-04 17:32 ?516次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務
    的頭像 發表于 07-24 11:38 ?857次閱讀

    使用OpenVINO C++在哪吒開發板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習推理的速度,且支持來自
    的頭像 發表于 10-12 09:55 ?326次閱讀
    使用<b class='flag-5'>OpenVINO</b> C++在哪吒開發板上<b class='flag-5'>推理</b>Transformer<b class='flag-5'>模型</b>

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言
    的頭像 發表于 10-29 14:12 ?387次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    vLLM項目加入PyTorch生態系統,引領LLM推理新紀元

    vLLM項目概述 vLLM的成就與實際應用 支持流行模型 安裝與使用vLLM 總結 一,vLLM項目概述
    的頭像 發表于 12-18 17:06 ?74次閱讀
    <b class='flag-5'>vLLM</b>項目加入PyTorch生態系統,引領LLM<b class='flag-5'>推理</b>新紀元
    主站蜘蛛池模板: 摸董事长的裤裆恋老小说| 国产亚洲精品a在线观看app| 国产精品久久久久久久人热 | 九九久久精品国产| 免费国产久久啪久久爱| 沙发上小泬12P| 最新国产av.在线视频| 国产精品第100页| 免费一级片网站| 香蕉尹人综合精品| 99re28久久热在线观看| 国产女合集小岁9三部| 欧美日韩一区在线观看| 亚洲欧美人成视频在线| 出租屋交换人妻 全文| 久久re亚洲在线视频| 欧美特黄99久久毛片免费| 涩涩视频下载| 99在线观看视频| 久久re热线视频精品99| 乌克兰黄色录像| yellow在线观看免费高清的日本 | 国产人妻精品午夜福利免费不卡| 免费视频精品38| 中文字幕不卡在线高清| 国产在线观看香蕉视频| 受坐在攻腿上H道具PLAY| 99在线观看视频免费| 毛片一区二区三区| 亚洲色图在线视频| 极品虎白在线观看| 亚洲AV无码乱码国产麻豆P| 高潮久久久久久久久不卡| 女仆乖H调教跪趴| 99国产这里只有精品视频| 久久青青草原| 24小时日本免费看| 男女AA片免费| SORA是什么意思| 日本又黄又裸一级大黄裸片| 成人亚洲乱码在线|