色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TensorRT-LLM初探(一)運行llama

冬至子 ? 來源:oldpan博客 ? 作者:Oldpan ? 2023-11-16 17:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前文

TensorRT-LLM正式出來有半個月了,一直沒有時間玩,周末趁著有時間跑一下。

之前玩內測版的時候就需要cuda-12.x,正式出來仍是需要cuda-12.x,主要是因為tensorr-llm中依賴的CUBIN(二進制代碼)是基于cuda12.x編譯生成的,想要跑只能更新驅動。

因此,想要快速跑TensorRT-LLM,建議直接將nvidia-driver升級到535.xxx,利用docker跑即可,省去自己折騰環境, 至于想要自定義修改源碼,也在docker中搞就可以 。

理論上替換原始代碼中的該部分就可以使用別的cuda版本了(batch manager只是不開源,和cuda版本應該沒關系,主要是FMA模塊,另外TensorRT-llm依賴的TensorRT有cuda11.x版本,配合inflight_batcher_llm跑的triton-inference-server也和cuda12.x沒有強制依賴關系):

image.png

tensorrt-llm中預先編譯好的部分

說完環境要求,開始配環境吧!

搭建運行環境以及庫

首先拉取鏡像,宿主機顯卡驅動需要高于等于535:

docker pull nvcr.io/nvidia/tritonserver:23.10-trtllm-python-py3

這個鏡像是前幾天剛出的,包含了運行TensorRT-LLM的所有環境(TensorRT、mpi、nvcc、nccl庫等等),省去自己配環境的煩惱。

拉下來鏡像后,啟動鏡像:

docker run -it -d --cap-add=SYS_PTRACE --cap-add=SYS_ADMIN --security-opt seccomp=unconfined --gpus=all --shm-size=16g --privileged --ulimit memlock=-1 --name=develop nvcr.io/nvidia/tritonserver:23.10-trtllm-python-py3 bash

接下來的操作全在這個容器里。

編譯tensorrt-llm

首先獲取git倉庫,因為這個鏡像中 只有運行需要的lib ,模型還是需要自行編譯的(因為依賴的TensorRT,用過trt的都知道需要構建engine),所以首先編譯tensorrRT-LLM:

# TensorRT-LLM uses git-lfs, which needs to be installed in advance.
apt-get update && apt-get -y install git git-lfs

git clone https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM
git submodule update --init --recursive
git lfs install
git lfs pull

然后進入倉庫進行編譯:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt

一般不會有環境問題,這個docekr中已經包含了所有需要的包,執行build_wheel的時候會按照腳本中的步驟pip install一些需要的包,然后運行cmake和make編譯文件:

..
adding 'tensorrt_llm/tools/plugin_gen/templates/functional.py.tpl'
adding 'tensorrt_llm/tools/plugin_gen/templates/plugin.cpp.tpl'
adding 'tensorrt_llm/tools/plugin_gen/templates/plugin.h.tpl'
adding 'tensorrt_llm/tools/plugin_gen/templates/plugin_common.cpp'
adding 'tensorrt_llm/tools/plugin_gen/templates/plugin_common.h'
adding 'tensorrt_llm/tools/plugin_gen/templates/tritonPlugins.cpp.tpl'
adding 'tensorrt_llm-0.5.0.dist-info/LICENSE'
adding 'tensorrt_llm-0.5.0.dist-info/METADATA'
adding 'tensorrt_llm-0.5.0.dist-info/WHEEL'
adding 'tensorrt_llm-0.5.0.dist-info/top_level.txt'
adding 'tensorrt_llm-0.5.0.dist-info/zip-safe'
adding 'tensorrt_llm-0.5.0.dist-info/RECORD'
removing build/bdist.linux-x86_64/wheel
Successfully built tensorrt_llm-0.5.0-py3-none-any.whl

然后pip install tensorrt_llm-0.5.0-py3-none-any.whl即可。

運行

首先編譯模型,因為最近沒有下載新模型,還是拿舊的llama做例子。其實吧,其他llm也一樣(chatglm、qwen等等),只要trt-llm支持,編譯運行方法都一樣的,在hugging face下載好要測試的模型即可。

這里我執行:

python /work/code/TensorRT-LLM/examples/llama/build.py 
                --model_dir /work/models/GPT/LLAMA/llama-7b-hf   # 可以替換為你自己的llm模型
                --dtype float16 
                --remove_input_padding 
                --use_gpt_attention_plugin float16 
                --enable_context_fmha 
                --use_gemm_plugin float16 
                --use_inflight_batching   # 開啟inflight batching
                --output_dir /work/trtModel/llama/1-gpu

然后就是TensorRT的編譯、構建engine的過程(因為使用了plugin,編譯挺快的,這里我只用了一張A4000,所以沒有設置world_size,默認為1),這里有很多細節,后續會聊。

編譯好engine后,會生成/work/trtModel/llama/1-gpu,后續會用到。

執行以下命令:

cd tensorrtllm_backend
mkdir triton_model_repo

# 拷貝出來模板模型文件夾
cp -r all_models/inflight_batcher_llm/* triton_model_repo/

# 將剛才生成好的`/work/trtModel/llama/1-gpu`移動到模板模型文件夾中
cp /work/trtModel/llama/1-gpu/* triton_model_repo/tensorrt_llm/1

image.png

設置好之后進入tensorrtllm_backend執行:

python3 scripts/launch_triton_server.py --world_size=1 --model_repo=triton_model_repo

順利的話就會輸出:

root@6aaab84e59c0:/work/code/tensorrtllm_backend# I1105 14:16:58.286836 2561098 pinned_memory_manager.cc:241] Pinned memory pool is created at '0x7ffb76000000' with size 268435456
I1105 14:16:58.286973 2561098 cuda_memory_manager.cc:107] CUDA memory pool is created on device 0 with size 67108864
I1105 14:16:58.288120 2561098 model_lifecycle.cc:461] loading: tensorrt_llm:1
I1105 14:16:58.288135 2561098 model_lifecycle.cc:461] loading: preprocessing:1
I1105 14:16:58.288142 2561098 model_lifecycle.cc:461] loading: postprocessing:1
[TensorRT-LLM][WARNING] max_tokens_in_paged_kv_cache is not specified, will use default value
[TensorRT-LLM][WARNING] batch_scheduler_policy parameter was not found or is invalid (must be max_utilization or guaranteed_no_evict)
[TensorRT-LLM][WARNING] kv_cache_free_gpu_mem_fraction is not specified, will use default value of 0.85 or max_tokens_in_paged_kv_cache
[TensorRT-LLM][WARNING] max_num_sequences is not specified, will be set to the TRT engine max_batch_size
[TensorRT-LLM][WARNING] enable_trt_overlap is not specified, will be set to true
[TensorRT-LLM][WARNING] [json.exception.type_error.302] type must be number, but is null
[TensorRT-LLM][WARNING] Optional value for parameter max_num_tokens will not be set.
[TensorRT-LLM][INFO] Initializing MPI with thread mode 1
I1105 14:16:58.392915 2561098 python_be.cc:2199] TRITONBACKEND_ModelInstanceInitialize: postprocessing_0_0 (CPU device 0)
I1105 14:16:58.392979 2561098 python_be.cc:2199] TRITONBACKEND_ModelInstanceInitialize: preprocessing_0_0 (CPU device 0)
[TensorRT-LLM][INFO] MPI size: 1, rank: 0
I1105 14:16:58.732165 2561098 model_lifecycle.cc:818] successfully loaded 'postprocessing'
I1105 14:16:59.383255 2561098 model_lifecycle.cc:818] successfully loaded 'preprocessing'
[TensorRT-LLM][INFO] TRTGptModel maxNumSequences: 16
[TensorRT-LLM][INFO] TRTGptModel maxBatchSize: 8
[TensorRT-LLM][INFO] TRTGptModel enableTrtOverlap: 1
[TensorRT-LLM][INFO] Loaded engine size: 12856 MiB
[TensorRT-LLM][INFO] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +0, GPU +8, now: CPU 13144, GPU 13111 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] Init cuDNN: CPU +2, GPU +10, now: CPU 13146, GPU 13121 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] TensorRT-managed allocation in engine deserialization: CPU +0, GPU +12852, now: CPU 0, GPU 12852 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +0, GPU +8, now: CPU 13164, GPU 14363 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] Init cuDNN: CPU +0, GPU +8, now: CPU 13164, GPU 14371 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] TensorRT-managed allocation in IExecutionContext creation: CPU +0, GPU +0, now: CPU 0, GPU 12852 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +0, GPU +8, now: CPU 13198, GPU 14391 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] Init cuDNN: CPU +0, GPU +10, now: CPU 13198, GPU 14401 (MiB)
[TensorRT-LLM][INFO] [MemUsageChange] TensorRT-managed allocation in IExecutionContext creation: CPU +0, GPU +0, now: CPU 0, GPU 12852 (MiB)
[TensorRT-LLM][INFO] Using 2878 tokens in paged KV cache.
I1105 14:17:17.299293 2561098 model_lifecycle.cc:818] successfully loaded 'tensorrt_llm'
I1105 14:17:17.303661 2561098 model_lifecycle.cc:461] loading: ensemble:1
I1105 14:17:17.305897 2561098 model_lifecycle.cc:818] successfully loaded 'ensemble'
I1105 14:17:17.306051 2561098 server.cc:592] 
+------------------+------+
| Repository Agent | Path |
+------------------+------+
+------------------+------+

I1105 14:17:17.306401 2561098 server.cc:619] 
+-------------+-----------------------------------------------------------------+------------------------------------------------------------------------------------------------------+
| Backend     | Path                                                            | Config                                                                                               |
+-------------+-----------------------------------------------------------------+------------------------------------------------------------------------------------------------------+
| tensorrtllm | /opt/tritonserver/backends/tensorrtllm/libtriton_tensorrtllm.so | {"cmdline":{"auto-complete-config":"false","backend-directory":"/opt/tritonserver/backends","min-com |
|             |                                                                 | pute-capability":"6.000000","default-max-batch-size":"4"}}                                           |
| python      | /opt/tritonserver/backends/python/libtriton_python.so           | {"cmdline":{"auto-complete-config":"false","backend-directory":"/opt/tritonserver/backends","min-com |
|             |                                                                 | pute-capability":"6.000000","shm-region-prefix-name":"prefix0_","default-max-batch-size":"4"}}       |
+-------------+-----------------------------------------------------------------+------------------------------------------------------------------------------------------------------+

I1105 14:17:17.307053 2561098 server.cc:662] 
+----------------+---------+--------+
| Model          | Version | Status |
+----------------+---------+--------+
| ensemble       | 1       | READY  |
| postprocessing | 1       | READY  |
| preprocessing  | 1       | READY  |
| tensorrt_llm   | 1       | READY  |
+----------------+---------+--------+

I1105 14:17:17.393318 2561098 metrics.cc:817] Collecting metrics for GPU 0: NVIDIA RTX A4000
I1105 14:17:17.393534 2561098 metrics.cc:710] Collecting CPU metrics
I1105 14:17:17.394550 2561098 tritonserver.cc:2458] 
+----------------------------------+----------------------------------------------------------------------------------------------------------------------------------------------------+
| Option                           | Value                                                                                                                                              |
+----------------------------------+----------------------------------------------------------------------------------------------------------------------------------------------------+
| server_id                        | triton                                                                                                                                             |
| server_version                   | 2.39.0                                                                                                                                             |
| server_extensions                | classification sequence model_repository model_repository(unload_dependents) schedule_policy model_configuration system_shared_memory cuda_shared_ |
|                                  | memory binary_tensor_data parameters statistics trace logging                                                                                      |
| model_repository_path[0]         | /work/triton_models/inflight_batcher_llm                                                                                                           |
| model_control_mode               | MODE_NONE                                                                                                                                          |
| strict_model_config              | 1                                                                                                                                                  |
| rate_limit                       | OFF                                                                                                                                                |
| pinned_memory_pool_byte_size     | 268435456                                                                                                                                          |
| cuda_memory_pool_byte_size{0}    | 67108864                                                                                                                                           |
| min_supported_compute_capability | 6.0                                                                                                                                                |
| strict_readiness                 | 1                                                                                                                                                  |
| exit_timeout                     | 30                                                                                                                                                 |
| cache_enabled                    | 0                                                                                                                                                  |
+----------------------------------+----------------------------------------------------------------------------------------------------------------------------------------------------+

I1105 14:17:17.423479 2561098 grpc_server.cc:2513] Started GRPCInferenceService at 0.0.0.0:8001
I1105 14:17:17.424418 2561098 http_server.cc:4497] Started HTTPService at 0.0.0.0:8000

這時也就啟動了triton-inference-server,后端就是TensorRT-LLM。

可以看到LLAMA-7B-FP16精度版本,占用顯存為:

+---------------------------------------------------------------------------------------+
Sun Nov  5 14:20:46 2023       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.113.01             Driver Version: 535.113.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA RTX A4000               Off | 00000000:01:00.0 Off |                  Off |
| 41%   34C    P8              16W / 140W |  15855MiB / 16376MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

客戶端

然后我們請求一下吧,先走http接口

# 執行
curl -X POST localhost:8000/v2/models/ensemble/generate -d '{"text_input": "What is machine learning?", "max_tokens": 20, "bad_words": "", "stop_words": ""}'

# 得到返回結果
{"model_name":"ensemble","model_version":"1","sequence_end":false,"sequence_id":0,"sequence_start":false,"text_output":" ?  What is machine learning? Machine learning is a subfield of computer science that focuses on the development of algorithms that can learn"}

triton目前不支持SSE方法,想stream可以使用grpc協議,官方也提供了grpc的方法,首先安裝triton客戶端:

pip install tritonclient[all]

然后執行:

python3 inflight_batcher_llm/client/inflight_batcher_llm_client.py --request-output-len 200 --tokenizer_dir /work/models/GPT/LLAMA/llama-7b-hf --tokenizer_type llama --streaming

請求后可以看到是一個token一個token返回的,也就是我們使用chatgpt3.5時,一個字一個字蹦的意思:

... 
[29953]
[29941]
[511]
[450]
[315]
[4664]
[457]
[310]
output_ids =  [[0, 19298, 297, 6641, 29899, 23027, 3444, 29892, 1105, 7598, 16370, 408, 263, 14547, 297, 3681, 1434, 8401, 304, 4517, 297, 29871, 29896, 29947, 29946, 29955, 29889, 940, 3796, 472, 278, 23933, 5977, 322, 278, 7021, 16923, 297, 29258, 265, 1434, 8718, 670, 1914, 27144, 297, 29871, 29896, 29947, 29945, 29896, 29889, 940, 471, 263, 29323, 261, 310, 278, 671, 310, 21837, 7984, 292, 322, 471, 278, 937, 304, 671, 263, 10489, 380, 994, 29889, 940, 471, 884, 263, 410, 29880, 928, 9227, 322, 670, 8277, 5134, 450, 315, 4664, 457, 310, 3444, 313, 29896, 29947, 29945, 29896, 511, 450, 315, 4664, 457, 310, 12730, 313, 29896, 29947, 29945, 29946, 511, 450, 315, 4664, 457, 310, 13616, 313, 29896, 29947, 29945, 29945, 511, 450, 315, 4664, 457, 310, 9556, 313, 29896, 29947, 29945, 29955, 511, 450, 315, 4664, 457, 310, 17362, 313, 29896, 29947, 29945, 29947, 511, 450, 315, 4664, 457, 310, 12710, 313, 29896, 29947, 29945, 29929, 511, 450, 315, 4664, 457, 310, 14198, 653, 313, 29896, 29947, 29953, 29900, 511, 450, 315, 4664, 457, 310, 28806, 313, 29896, 29947, 29953, 29896, 511, 450, 315, 4664, 457, 310, 27440, 313, 29896, 29947, 29953, 29906, 511, 450, 315, 4664, 457, 310, 24506, 313, 29896, 29947, 29953, 29941, 511, 450, 315, 4664, 457, 310]]
Input: Born in north-east France, Soyer trained as a
Output:  chef in Paris before moving to London in 1 847. He worked at the Reform Club and the Royal Hotel in Brighton before opening his own restaurant in 1 851 . He was a pioneer of the use of steam cooking and was the first to use a gas stove. He was also a prolific writer and his books included The Cuisine of France (1 851 ), The Cuisine of Italy (1 854), The Cuisine of Spain (1 855), The Cuisine of Germany (1 857), The Cuisine of Austria (1 858), The Cuisine of Russia (1 859), The Cuisine of Hungary (1 860), The Cuisine of Switzerland (1 861 ), The Cuisine of Norway (1 862), The Cuisine of Sweden (1863), The Cuisine of

因為開了inflight batching,其實可以同時多個請求打過來,修改request_id不要一樣就可以:

# user 1
python3 inflight_batcher_llm/client/inflight_batcher_llm_client.py --request-output-len 200 --tokenizer_dir /work/models/GPT/LLAMA/llama-7b-hf --tokenizer_type llama --streaming --request_id 1
# user 2
python3 inflight_batcher_llm/client/inflight_batcher_llm_client.py --request-output-len 200 --tokenizer_dir /work/models/GPT/LLAMA/llama-7b-hf --tokenizer_type llama --streaming --request_id 2

至此就快速過完整個TensorRT-LLM的運行流程。

使用建議

非常建議使用docker,人生苦短。

在我們實際使用中,vllm在batch較大的場景并不慢,利用率也能打滿。TensorRT-LLM和vllm的速度在某些模型上快某些模型上慢,各有優劣。

image.png

TensorRT-LLM的特點就是借助TensorRT,TensorRT后續更新越快,支持特性越牛逼,TensorRT-LLM也就越牛逼。靈活性上,我感覺vllm和TensorRT-LLM不分上下,加上大模型的結構其實都差不多,甚至TensorRT-LLM都沒有上onnx-parser,在后續更新模型上,python快速搭建模型效率也都差不了多少。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • python
    +關注

    關注

    56

    文章

    4832

    瀏覽量

    87779
  • GPU芯片
    +關注

    關注

    1

    文章

    306

    瀏覽量

    6233
  • HTTP接口
    +關注

    關注

    0

    文章

    21

    瀏覽量

    1988
  • ChatGPT
    +關注

    關注

    29

    文章

    1591

    瀏覽量

    9250
收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發表于 06-12 15:37 ?809次閱讀
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS應用的最佳實踐

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發表于 07-04 14:38 ?847次閱讀

    【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互:1,LLM部署

    。環境變量的配置,未來在具體項目中我們會再次提到。 下面我們正式開始項目。項目從輸入到輸出分別涉及了語音識別,圖像識別,LLM,TTS這幾個與AI相關的模塊。先從最核心的LLM開始。 由于LLAMA
    發表于 06-25 15:02

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama
    發表于 03-05 08:07

    現已公開發布!歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

    能。該開源程序庫現已作為 NVIDIA NeMo 框架的部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。 大語言模型徹底改變了人工智能領域,并創造了與數字世界交互
    的頭像 發表于 10-27 20:05 ?1589次閱讀
    現已公開發布!歡迎使用 NVIDIA <b class='flag-5'>TensorRT-LLM</b> 優化大語言模型推理

    淺析tensorrt-llm搭建運行環境以及庫

    之前玩內測版的時候就需要cuda-12.x,正式出來仍是需要cuda-12.x,主要是因為tensorr-llm中依賴的CUBIN(二進制代碼)是基于cuda12.x編譯生成的,想要跑只能更新驅動。
    的頭像 發表于 11-13 14:42 ?2929次閱讀
    淺析<b class='flag-5'>tensorrt-llm</b>搭建<b class='flag-5'>運行</b>環境以及庫

    點亮未來:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驅動的 Windows PC 上運行新模型

    微軟 Ignite 2023 技術大會發布的新工具和資源包括 OpenAI?Chat?API 的 TensorRT-LLM 封裝接口、RTX 驅動的性能改進 DirectML?for?Llama?2
    的頭像 發表于 11-16 21:15 ?1002次閱讀
    點亮未來:<b class='flag-5'>TensorRT-LLM</b> 更新加速 AI 推理性能,支持在 RTX 驅動的 Windows PC 上<b class='flag-5'>運行</b>新模型

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 發布的 LLaMA 2,是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下代版本,并且具有
    的頭像 發表于 02-21 16:00 ?1760次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM個開源庫,用于優化從 PC 到云端的 NVIDIA GPU 上
    的頭像 發表于 04-28 10:36 ?1120次閱讀

    Meta發布基于Code LlamaLLM編譯器

    近日,科技巨頭Meta在其X平臺上正式宣布推出了款革命性的LLM編譯器,這模型家族基于Meta Code Llama構建,并融合了先進的代碼優化和編譯器功能。
    的頭像 發表于 06-29 17:54 ?1905次閱讀

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的應用價值?!?/div>
    的頭像 發表于 08-23 15:48 ?1233次閱讀

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發表于 11-19 14:29 ?1443次閱讀
    <b class='flag-5'>TensorRT-LLM</b>低精度推理優化

    NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

    感謝眾多用戶及合作伙伴直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布!
    的頭像 發表于 11-28 10:43 ?804次閱讀
    NVIDIA <b class='flag-5'>TensorRT-LLM</b> Roadmap現已在GitHub上公開發布

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?1021次閱讀

    在NVIDIA TensorRT-LLM中啟用ReDrafter的些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-LLM
    的頭像 發表于 12-25 17:31 ?842次閱讀
    在NVIDIA <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的<b class='flag-5'>一</b>些變化
    主站蜘蛛池模板: 在线观看亚洲成人 | 欧美怡春院 | 成人片黄网站色大片免费观看 | 成人做受视频试看60秒 | 污污免费在线观看 | 国产美女久久 | 国产精品黄色网 | www.av小四郎.com| 九色网战| 亚洲另类无码专区丝袜 | 欧洲成人一区二区三区 | 欧美丰满熟妇hdxx | 国产最新毛片 | 性欧美videos高清精品 | 丰满少妇人妻无码 | 亚洲日本欧美日韩高观看 | 国产在线高清理伦片a | 八戒八戒在线www视频中文 | 欧美丝袜脚交 | 久久久欧美精品sm网站 | 欧美一级做a爰片久久高潮 欧美一级做a爰片免费视频 | 一级做a爰片性色毛片武则天 | 国产精品社区 | 暖暖视频日本 | 久久久久久久久久99精品 | wwwcom欧美| 比色毛片 | 日韩欧美精品国产 | 国产精品分类 | 国产精品一区二区羞羞答答 | 国产免费又粗又猛又爽 | 久久人人爽爽 | 国产又猛又黄又爽三男一女 | 99精品国产在热久久 | 黄瓜污视频 | 粉嫩av一区二区在线观看 | 久人久人久人久久久久人 | 人妻无码一区二区三区 | 国产少妇露脸精品自啪网站 | 欧美粗又大 | youjizz自拍 | 中文字幕在线观看亚洲日韩 | 小明www永久免费播放平台 | 精品一区二区三区免费 | 99视频精品| 色播国产| 寡妇av | 男女互操视频 | 欧美亚洲视频在线观看 | 亚洲 综合 清纯 丝袜 自拍 | 视频一二区| 老色批永久免费网站www | 少妇中文字幕乱码亚洲影视 | 成人性生交大全免费中文版 | 无码人妻出轨黑人中文字幕 | 五月天激情综合网 | 国产成人三级在线观看视频 | 婷综合 | 亚洲天堂网一区 | 成年人黄色大片 | 国产伦精品一区二区三区在线播放 | 国产毛片3| 成人性生交大片免费看r老牛网站 | 二区视频在线观看 | 成人福利视频网 | 国产9色在线 | 日韩 | 成人在线手机视频 | 人妻无码一区二区三区四区 | 粉嫩av国产一区二区三区 | 色婷婷久久久 | 免费高清欧美大片在线观看 | videosgratis极品另类灌满高清资源 | 男人的天堂你懂的 | 色婷婷狠狠久久综合五月 | 波多野结衣有码 | 播五月婷婷 | 国产午夜伦理片 | www8888久久爱站网 | 又黄又爽又色视频免费 | 久久国产原创 | 国产99久久九九精品无码 | 人妻一本久道久久综合久久鬼色 | 日本在线观看黄色 | 热久久国产精品 | 免费一级片 | 色橹橹欧美在线观看视频高清 | 色伊人亚洲综合网站 | 午夜老湿机 | 欧美多人片高潮野外做片黑人 | 91丝袜国产在线播放 | 欧美片一区二区 | 日韩成人av毛片 | 大江大河第三部50集在线观看旭豪 | 国产成人精品无码免费看 | av免费网站观看 | 中文字幕一区三区 | 51精品国产人成在线观看 | 在线观看麻豆 | 91视频地址| 视频区图片区小说区 | 精品在线视频免费观看 | 欧美性色黄大片手机版 | 天堂av资源网| 九九国产 | 日本丰满护士爆乳xxxx | 中文字幕乱码人妻一区二区三区 | 色呦在线 | a片免费视频在线观看 | 黄色av片三级三级三级免费看 | 91狠狠爱| sm在线看| 农村偷人一级超爽毛片 | 污污的网站在线免费观看 | 天天综合网天天综合色 | 欧美黄色片免费看 | 亚洲日本天堂 | 久久av喷吹av高潮av萌白 | 日本成人在线视频网站 | julia中文字幕在线 | 日韩毛片在线看 | 成人黄网站片免费视频 | 欧美自拍嘿咻内射在线观看 | 99无码熟妇丰满人妻啪啪 | 亚洲区自拍 | 成人毛片在线观看 | 国产情侣一区 | 亚洲欧美一区二区三区不卡 | 欧美成人吸奶水做爰 | 91精品久久久久久久久中文字幕 | 秋霞福利视频 | 久久99精品久久久久久hb无码 | 呦呦在线视频 | 色视频欧美一区二区三区 | 亚洲精品色午夜无码专区日韩 | 久久国产精品免费一区二区三区 | 综合精品国产 | 91网站在线免费观看 | 久久天堂影院 | 青青草自拍视频 | 午夜黄色毛片 | 色哟哟哟www精品视频观看软件 | 欧美孕妇姓交大片 | 亚洲第一视频区 | 精品99999| 少妇与和尚h乱ⅹh | 艳妇乳肉豪妇荡乳xxx | 久日精品| 国产999在线观看 | 亚洲国产天堂久久综合226114 | youjizzcom中国少妇| 美女啪网站 | 国产精品资源网 | 粗壮挺进人妻水蜜桃成熟 | 中文字幕无线精品亚洲乱码一区 | 免费看色 | 婷婷色在线视频 | 欧洲一区二区三区四区 | 人妻熟人中文字幕一区二区 | 亚洲天天 | 日本高清视频www夜色资源 | 亚洲欧美日韩一区在线观看 | 性视频播放免费视频 | 亚洲国产精华液网站w | 99久久免费精品国产男女高不卡 | 亚洲成人黄色在线 | 六月丁香激情 | 精品国产99高清一区二区三区 | 一区二区欧美在线 | 国产精品久久久久久妇女6080 | 中国丰满少妇xxxxx高潮 | a√天堂网| 日本久久爱 | 久久久久一区二区三区 | 日韩最新视频 | 人人妻人人澡人人爽精品日本 | 中文字幕av伊人av无码av | 亚洲中文无码永久免 | 天堂av在线官网 | 亚洲男人的天堂网站 | 美女视频黄是免费 | 亚洲国产精品一区二区久久hs | 日本欧美久久久 | 四川丰满妇女毛片四川话 | 亚洲无人区一区二区三区入口 | 蜜臀av无码人妻精品 | 99久久久久成人国产免费 | 国产真人性做爰久久网站 | 中文字幕视频观看 | 牛牛av在线 | 国产又爽又猛又粗的视频a片 | 成年女人a毛片免费视频 | 久久精品国产成人av | 亚洲一级特黄 | 在线成人亚洲 | 在线成人一区 | 农村妇女做爰偷拍视频 | av桃色 | 久久精品国产免费看久久精品 | 亚洲黄色免费观看 | 把插八插露脸对白内射 | 国产精品久久久久影院老司 | 日b视频免费观看 | av无毛 | 久久国产色av免费观看 | 精品国产精品一区二区夜夜嗨 | 一级影片在线观看 | 中文字幕在线观 | 男女超爽视频免费播放 | 无码人妻丰满熟妇区五十路 | 久久国产一二三 | 国产午夜网站 | 国产精品三p一区二区 | 欧美精品亚洲精品 | 久久久久久久久久久久久9999 | 日本欧美中文字幕 | 狠狠cao日日穞夜夜穞av | 国产亚洲精久久久久久无码 | 欧美人与zoxxxx另类 | 国产精品久久久久久久妇女 | 欧美性受xxxx白人性爽 | 亚洲国产精品成人无久久精品 | 影音先锋日韩资源 | 亚洲综合国产 | 日韩片在线 | 亚洲一区二区黄色 | 色香蕉在线视频 | 青草精品国产福利在线视频 | 动漫无遮挡羞视频在线观看 | 欧美色视频在线播放 | 亚洲色丰满少妇高潮18p | av不卡网站| 69中国xxxxxxxxx96| 中文字幕成人在线视频 | 中国精学生妹品射精久久 | 中国美女囗交视频免费看 | 日本高清无吗 | 国产成人精品123区免费视频 | 国产一区二区三区四区五区加勒比 | 99福利视频导航 | 懂色av一区二区三区免费观看 | 一区二区视频网站 | 伊人天天干 | 好吊妞视频988gao免费软件 | 青青草视频网站 | 免费污网站在线观看 | 福利视频在线播放 | 老妇裸体性激交老太视频 | 国产精品丝袜一区二区三区 | 国产91玉足脚交在线播放 | 亚洲免费资源 | 天天躁日日躁狠狠躁 | 国产精品久久久久永久免费 | 中文字幕无码日韩专区 | 国产精品国产亚洲精品看不卡 | 清纯粉嫩极品夜夜嗨av | 国产白嫩美女在线观看 | 蜜臀va | 国产网站免费看 | 国产乱人伦偷精精品视频 | 中文字幕亚洲一区二区三区 | 久久久亚洲精品一区二区三区浴池 | 国产网站一区二区 | 蜜桃久久久久久久 | 免费人妻无码不卡中文字幕18禁 | 噼里啪啦在线高清观看免费 | 丰满少妇被猛烈进入无码 | 日本少妇丰满做爰图片 | 久久久综合九色合综 | 一区二区在线 | 欧洲 | 精品乱人伦一区二区三区 | 久久这里只有精品9 | 91在线网址 | 中文字幕女优 | 99久久99这里只有免费费精品 | 亚洲综合av在线在线播放 | 欧美aa在线观看 | 午夜精品久久久久久久99水蜜桃 | 国产影片中文字幕 | 久久久久国色av免费观看 | 日本做爰xxxⅹ高潮欧美 | 成人久色 | 一级黄色美女 | 久久一本人碰碰人碰 | 国产香港明星裸体xxxx视频 | 久草资源福利 | 国产高清精品一区 | 国产成人av大片大片在线播放 | 美女裸体无遮挡免费视频网站 | 国产成人福利视频 | 婷婷丁香综合 | 亚洲日韩欧美视频 | 中文字幕三级视频 | 国产精品swag| 久久视频在线免费观看 | 九九九免费观看视频 | 国产精品福利久久久 | 日本在线观看黄色 | 国产精品入口免费 | 日本精品久久久久中文字幕 | 免费国产a| 国产av新搬来的白领女邻居 | 亚洲不卡视频在线 | 亚洲欧美精品一中文字幕 | 成人亚洲一区 | 四虎影在永久在线观看 | 欧美日一本 | 欧美性精品 | 欧美另类极品videosbest最新版本 | 亚洲一区二区观看 | 亚洲25p| 人妻熟女一区二区aⅴ林晓雪 | 亚洲男人精品 | av动漫精品| 777午夜福利理论电影网 | 美国一级大黄一片免费中文 | 成人无码一区二区三区网站 | xxxxxxxx黄色片 | 免费毛片大肚孕妇孕交av | 国产精品福利片 | 99精品国产自在现线10页 | 3344永久在线观看视频免费 | 成年人黄色毛片 | 欧美精品videosexo极品 | 韩国19禁无遮挡啪啪无码网站 | 91高清视频在线观看 | 亚洲一区二区三区写真 | 黄色精品视频 | 91久久偷偷做嫩草影院 | 成年无码av片完整版 | 日韩在线一区二区三区四区 | 偷拍做爰吃奶视频免费看 | 亚洲人成电影网站色mp4 | 99热这里精品 | 欧美xxxx胸大 | 婷婷久久一区二区三区 | 国产一区二区三区久久久 | 色阁av| 久久99精品久久久久久水蜜桃 | 久久精品视频91 | 日本高清有码视频 | 日韩精品一区二区亚洲 | 国产精品丝袜久久久久久高清 | 国产一区二三区好的精华液69 | 免费观看性生交大片女神 | 日本无码欧美一区精品久久 | 亚洲精品国产精品国自产观看 | 越南女子杂交内射bbwxz | 亚洲熟女综合色一区二区三区 | xxx国产精品 | 亚洲综合无码久久精品综合 | 日韩视频中文字幕在线观看 | 日本免费毛片 | 欧美一区综合 | 9色视频| 欧美成人免费在线观看 | 91亚洲狠狠婷婷综合久久久 | 国产有码在线观看 | 久久久看 | 天堂av中文字幕 | 综合激情网站 | 暖暖视频日本 | 色综合久久久久久久久久 | 国产乱码一区二区三区 | 69天堂网| 国产精品久久久久久久久福交 | 手机看片一区二区 | 女人让男人桶爽30分钟 | 国产精品一区二区在线免费观看 | 51国偷自产一区二区三区的来源 | 成在人线av | 国产精品wwwwww | 久久香蕉国产线看观看猫咪av | 天堂网一区二区三区 | 欧美熟妇另类久久久久久多毛 | 中文字幕校园春色 | 91成熟丰满女人少妇 | 性视频网 | 国产男女无套免费网站 | 日本男女激情视频 | 国产农村妇女精品 | 中文字幕亚洲色图 | 日日鲁鲁鲁夜夜爽爽狠狠 | 含羞草传媒mv免费观看视频 | 国产精品中文久久久久久久 | 国产丰满老妇伦 | 91麻豆产精品久久久久久 | 日韩激情久久 | 一区二区三区视频在线看 | 内射欧美老妇wbb | 国产成人精品在线视频 | 亚洲激情黄色 | 国产三级大片 | 91色吧| 激情狠狠 | 久久视频中文字幕 | 精品一区二区在线观看视频 | 免费毛片a线观看 | 成人无高清96免费 | 少妇一夜三次一区二区 | 性福网站| 国产精品综合av一区二区国产馆 | 妇女伦子伦视频国产 | 久久国产免费看 | 免费看欧美一级片 | 天天av天天操| 天堂mv在线mv免费mv香蕉 | 国产成人精品久久综合 | 欧美多人猛交狂配 | 三级毛片在线 | 无码无遮挡又大又爽又黄的视频 | 日本韩国欧美一区 | 中文字幕人妻丝袜二区 | 人人草视频在线观看 | 一级黄色免费视频 | 免费欧美一区 | 亚洲国产三级 | 国产成人久久精品77777的功能 | 99re久久精品国产 | 99草在线视频 | 亚洲午夜精品在线 | 国产视频xxx | 中文字幕天使萌在线va | 女同互添互慰av毛片观看 | 中文字幕av无码一区二区三区 | 91视频影院| 中文字幕一区二区三区四区欧美 | 二区影院| 亚洲春色成人 | 国产免费看插插插视频 | 国产精品第八页 | 国产艳妇av在线观看果冻传媒 | 久久一本日日摸夜夜添 | 日本va欧美va欧美va精品 | 蜜桃一本色道久久综合亚洲精品冫 | 在线看免费毛片 | 五月丁香六月激情综合在线视频 | 日日躁夜夜躁人人揉av五月天 | 精品成人久久久 | 国产一区二区丝袜 | 日韩激情视频网站 | 久久精品国产av一区二区三区 | 国产精品免费久久 | 超碰人人超 | 日韩 欧美 中文字幕 制服 | 久久99热这里只频精品6 | 性按摩xxxx在线观看 | 午夜精品一区二区三区三上悠亚 | 97久久精品一区二区三区观看 | 成人香蕉视频 | 欧美人一级淫片a免费播放 欧美人与zoxxxx另类 | 亚洲综合资源 | 狠狠综合久久av | 少妇的肉体k8经典 | 那个网站可以看毛片 | 亚洲免费av在线 | 澳门永久av免费网站 | 午夜伦理一区二区 | 永久免费不卡在线观看黄网站 | 欧美国产日韩在线视频 | 中文字幕在线二区 | 含羞草www国产在线视频 | 日本体内she精高潮 中国无码人妻丰满熟妇啪啪软件 | cao我| av波多野吉衣 | 亚洲精品乱码久久久久久日本蜜臀 | 女人下边被添全过视频的网址 | 欧美乱妇高清无乱码 | 国产精品美女久久久网av | 免费黄色激情视频 | 日韩精品人妻系列无码专区免费 | 成人免费在线小视频 | 免费国产女王调教在线视频 | 张柏芝hd一区二区 | 欧美不卡在线 | 国产黄色免费在线观看 | 国产综合图区 | 国产精品成人用品 | 日本免费黄色小视频 | 欧美日韩在线二区 | 亚洲不卡高清视频 | 免费涩涩网站 | 老司机精品视频一区二区三区 | 中文字幕视频免费 | 国产精品沙发午睡系列990531 | 免费一级做a爰片性色毛片 免费一级做a爰片性视频 | 第九色婷婷| 欧美一卡二卡三卡四卡视频区 | 日韩九九九 | 亚洲日韩av无码一区二区三区 | 午夜免费视频观看 | 国产伦精品一区二区 | 中文久久字幕 | 欧美少妇一级片 | 五月天激情丁香 | 神马久久久久久久久久久 | 国产精品亚洲综合一区二区三区 | 国产一二三在线视频 | 欧洲少妇bbbbb曰曰 | 日韩岛国片 | 日日碰狠狠躁久久躁蜜桃 | 毛片看| 韩国精品视频在线观看 | 懂色av色吟av夜夜嗨 | 午夜剧场大片亚洲欧洲一区 | 日韩一卡2卡3卡新区乱码来袭 | 国产精品久久久久久吹潮 | www.99精品| 国产清纯白嫩初高生视频在线观看 | 午夜精品久久久久久99热小说 | 亚洲国产成人久久精品大牛影视 | 无遮挡边吃摸边吃奶边做 | 欧美日韩不卡一区二区 | 国产性猛交╳xxx乱大交 | 又色又爽又黄的美女裸体网站 | 国产精品久久久久久久第一福利 | 中文精品久久久久人妻不卡 | 日韩成人大屁股内射喷水 | 国内成人精品2018免费看 | 尤妮丝大尺度av在线播放 | 国内免费毛片 | 黑人大长吊大战中国人妻 | 人妖ts福利视频一二三区 | 朝鲜一级特黄真人毛片 | 豆麻视频在线免费观看 | 天天狠天天插 | 日本爽快片100色毛片视频 | 又粗又大又黄又硬又爽免费看 | 欧美性天天影院 | 丰满少妇猛烈进人免费看高潮 | 久久国产一二三 | 农场巨污高h文 | 欧美三级成人 | 久久国产尿小便嘘嘘97 | 超碰av导航 | 四虎永久地址www成人 | 男生女生羞羞网站 | 久久久精品免费看 | 大明星(双性产乳) h | 波多野结衣电车痴汉 | 国产97色在线 | 免 | 草草在线视频 | 国产女人水真多18毛片18精品 | 亚洲精品手机在线观看 | 无码性按摩 | 成人午夜福利视频后入 | 波多野结衣中文字幕一区二区三区 | 欧美成人免费 | 极品粉嫩鲍鱼视频在线观看 | 91精品情国产情侣高潮对白文档 | 久久精品国产清自在天天线 | 韩国三级少妇高潮在线观看 | 欧美三级午夜理伦三级 | 又紧又大又爽精品一区二区 | 亚洲熟妇自偷自拍另欧美 | 福利在线视频导航 | 中文字幕亚洲无线码在线一区 | 天天射美女 | 亚洲高清在线观看视频 | 攵女h文1v1 | 特级西西444www大精品视频免费看 | 久久先锋| 亚洲精品中文字幕乱码 | 粉嫩av一区二区三区四区在线观看 | 人综合久合合 | 色偷偷av老熟女 | 久久婷婷综合99啪69影院 | 国产亚洲精品久久19p | 亚洲美女影院 | 窝窝午夜色视频国产精品破 | 超碰在线公开免费 | 婷婷综合视频 | 成人日批 | 午夜精品一区二区三区在线播放 | 少妇一级淫片免费放播放 | 午夜性刺激免费看视频 | 国产精品天美传媒入口 | 国精产品一区二区 | 国产精品青草综合久久久久99 | 自拍三级视频 | 日韩尤物| 国产福利视频在线 | 2022久久国产露脸精品国产 | 人妻体内射精一区二区三区 | 色综合天天天天做夜夜夜夜做 | 国产精品久久久久久影院8一贰佰 | 国产丝袜调教 | 久久中文字幕在线观看 | 国产精品一级 | 国产一区在线播放 | 神马三级我不卡 | 香蕉久久国产av一区二区 | 国产午夜精品免费一区二区三区视频 | 日本免费网站 | 精品欧洲av无码一区二区男男 | 在线观看免费黄网站 | 草草影院在线观看视频 | 女性向av免费观看入口silk | 日批在线视频 | 中文字幕乱码一区av久久不卡 | 九一亚色视频 | 一区二区在线播放视频 | 大陆熟妇丰满多毛xxxⅹ | 丰满多毛的大隂户毛茸茸 | 亚洲精品v日韩精品 | 欧美交换配乱吟粗大 | 亚洲精品午夜久久久久久久 | 国产精品国产精品国产专区不蜜 | 国产日产亚洲系列最新 | 国产精品久久久久久久久久久不卡 | 久久久久久不卡 | 午夜亚洲一区 | 亚洲一二三四专区 | 天天干干干 | 五月婷婷网 | 操丝袜美女视频 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品