太粗好紧使劲舒服,十大免费b2b网站,亚洲卡5卡6卡7卡2

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

感謝眾多用戶(hù)及合作伙伴一直以來(lái)對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開(kāi)發(fā)布！

TensorRT-LLM

持續(xù)助力用戶(hù)優(yōu)化推理性能

TensorRT-LLM 可在 NVIDIA GPU 上加速和優(yōu)化最新的大語(yǔ)言模型（Large Language Models）的推理性能。該開(kāi)源程序庫(kù)在 /NVIDIA/TensorRT-LLM GitHub 資源庫(kù)中免費(fèi)提供。

近期，我們收到了許多用戶(hù)的積極反饋，并表示，TensorRT-LLM 不僅顯著提升了性能表現(xiàn)，還成功地將其應(yīng)用集成到各自的業(yè)務(wù)中。TensorRT-LLM 強(qiáng)大的性能和與時(shí)俱進(jìn)的新特性，為客戶(hù)帶來(lái)了更多可能性。

Roadmap 現(xiàn)已公開(kāi)發(fā)布

過(guò)往，許多用戶(hù)在將 TensorRT-LLM 集成到自身軟件棧的過(guò)程中，總是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起，NVIDIA 正式對(duì)外公開(kāi) TensorRT-LLM 的 Roadmap ，旨在幫助用戶(hù)更好地規(guī)劃產(chǎn)品開(kāi)發(fā)方向。

我們非常高興地能與用戶(hù)分享，TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開(kāi)發(fā)布。您可以通過(guò)以下鏈接隨時(shí)查閱：

https://github.com/NVIDIA/TensorRT-LLM

圖 1. NVIDIA/TensorRT-LLM GitHub 網(wǎng)頁(yè)截屏

這份 Roadmap 將為您提供關(guān)于未來(lái)支持的功能、模型等重要信息，助力您提前部署和開(kāi)發(fā)。

同時(shí)，在 Roadmap 頁(yè)面的底部，您可通過(guò)反饋鏈接提交問(wèn)題。無(wú)論是問(wèn)題報(bào)告還是新功能建議，我們都期待收到您的寶貴意見(jiàn)。

圖 2.Roadmap 整體框架介紹

利用 TensorRT-LLM

優(yōu)化大語(yǔ)言模型推理

TensorRT-LLM 是一個(gè)用于優(yōu)化大語(yǔ)言模型（LLM）推理的庫(kù)。它提供最先進(jìn)的優(yōu)化功能，包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術(shù)（FP8、INT4 AWQ、INT8 SmoothQuant 等）以及更多功能，以讓你手中的 NVIDIA GPU 能跑出極致推理性能。

TensorRT-LLM 已適配大量的流行模型。通過(guò)類(lèi)似 PyTorch 的 Python API，可以輕松修改和擴(kuò)展這些模型以滿足自定義需求。以下是已支持的模型列表。

我們鼓勵(lì)所有用戶(hù)定期查閱 TensorRT-LLM Roadmap。這不僅有助于您及時(shí)了解 TensorRT-LLM 的最新動(dòng)態(tài)，還能讓您的產(chǎn)品開(kāi)發(fā)與 NVIDIA 的技術(shù)創(chuàng)新保持同步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴