一边吃奶一边xb,五月婷婷伊人网,无人视频在线观看免费高清

簡介

? 本案例中通過NVIDIA T4 GPU，TensorRT和Triton，幫助微信OCR降低整體耗時46%，并將系統的失敗率降低81%，同時降低了高達78%的服務器數量。

? 本案例主要應用到 NVIDIA GPU ，TensorRT和Triton。

客戶簡介

騰訊微信是一款跨平臺的通訊工具。支持通過手機網絡發送語音、圖片、視頻和文字等。截至2021年6月，微信在全球擁有超過12億活躍用戶，是國內活躍用戶最多的社交軟件。

微信識物是一款主打物品識別的 AI 產品，通過相機拍攝物品，更高效、更智能地獲取信息。2020 年，微信識物拓展了更多識別場景，上線了微信版的圖片搜索。打開微信掃一掃，左滑切換到“識物”功能，對準想要了解的物品正面，可以獲取對應的物品信息，包括物品百科、相關資訊、相關商品。

2021年1月，微信發布的微信8.0，版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長按圖片就可以提取圖片中文字，然后一鍵轉發、復制或收藏。

挑戰

微信識物包含檢測、圖像召回、信息提煉等環節，OCR主要包括識別和檢測，這兩種應用都有非常大的計算量，在用Pytorch進行模型的推理時，一方面時延特別大，導致用戶體驗受損；另一方面，顯存占用很大，單張NVIDIA T4上部署的模型數比較少，導致推理請求的并發數上不去，請求失敗的概率太高，只能通過增加機器的方式來提高并發能力，業務部署成本較高。再次，使用的模型經常變化，而業務需要更換后的模型能夠快速地加速和上線部署。

方案

基于以上挑戰，騰訊微信選擇了采用NVIDIA 的TensorRT對模型進行推理加速，并利用NVIDIA Triton推理服務器在T4 GPU上進行在線部署，在提升用戶體驗的同時，大幅降低了服務成本。

1、通過使用TensorRT對微信識物和OCR的模型進行加速，在都使用FP32的情況下，與Pytorch相對，時延降低50%左右。

2、在OCR的識別和檢測階段，使用TensorRT結合NVIDIA T4 GPU 的FP16 Tensor Core，在保證精度的同時，識別的時延進一步降低了50%，檢測降低了20%。

3、在微信識物的分類和檢測任務中，通過使用NVIDIA T4 GPU 的int8 Tensor Core，并結合QAT，在滿足精度要求的前提下，進一步大幅提升了性能。

4、通過使用FP16和int8 低精度模式，在大幅降低推理時延的同時，大大減少了顯存的占用，在FP16模式下，單模型顯存占用僅占FP32模式的40%–50%，而在int8模式下，單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數量的同時，大幅提高了單GPU的推理請求并發能力。

5、 Triton的dynamic batch和多實例等特性，幫助微信將在滿足時延要求的同時，提高了系統整體的并發能力，將系統失敗降低了81%。

6、 TensorRT可以對模型進行快速的加速，Triton則可以對加速后的模型進行快速的部署，滿足了業務對修改后的模型進行快速部署的需求，同時也大大減少了工程人員的工作量。

效果

通過使用NVIDIA的TensorRT對微信識物和OCR的模型進行加速，在降低單次推理時延50%以上的同時，節約了多達64%的顯存。結合Triton的dynamic batch和多實例的功能，OCR的整體時延降低了46%，系統失敗率降低了81%。大大提高了用戶的體驗，并且服務器的數量減少了多達78%，極大降低了服務的成本。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4985

瀏覽量
103024
gpu

gpu

+關注

關注
28

文章
4735

瀏覽量
128919
服務器

服務器

+關注

關注
12

文章
9142

瀏覽量
85384

Triton編譯器與GPU編程的結合應用

Triton編譯器簡介 Triton編譯器是一種針對并行計算優化的編譯器，它能夠自動將高級語言代碼轉換為針對特定硬件優化的低級代碼。Triton編譯器的核心優勢在于其能夠識別并行模式，自動進行代碼

發表于 12-25 09:13 ?130次閱讀

Triton編譯器如何提升編程效率

在現代軟件開發中，編譯器扮演著至關重要的角色。它們不僅將高級語言代碼轉換為機器可執行的代碼，還通過各種優化技術提升程序的性能。Triton 編譯器作為一種先進的編譯器，通過多種方式提升編程效率，使得

發表于 12-25 09:12 ?131次閱讀

Triton編譯器的優化技巧

在現代計算環境中，編譯器的性能對于軟件的運行效率至關重要。Triton 編譯器作為一個先進的編譯器框架，提供了一系列的優化技術，以確保生成的代碼既高效又適應不同的硬件架構。 1. 指令選擇

發表于 12-25 09:09 ?134次閱讀

Triton編譯器的優勢與劣勢分析

Triton編譯器作為一種新興的深度學習編譯器，具有一系列顯著的優勢，同時也存在一些潛在的劣勢。以下是對Triton編譯器優勢與劣勢的分析：優勢高效性能優化： Triton編譯器通過塊級數

發表于 12-25 09:07 ?140次閱讀

Triton編譯器在機器學習中的應用

1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務平臺的一部分，它負責將深度學習模型轉換為優化的格式，以便在NVIDIA GPU上高效運行。Triton

發表于 12-24 18:13 ?297次閱讀

Triton編譯器的常見問題解決方案

Triton編譯器作為一款專注于深度學習的高性能GPU編程工具，在使用過程中可能會遇到一些常見問題。以下是一些常見問題的解決方案：一、安裝與依賴問題檢查Python版本 Triton編譯器通常

發表于 12-24 18:04 ?307次閱讀

Triton編譯器支持的編程語言

Triton編譯器支持的編程語言主要包括以下幾種：一、主要編程語言 Python ：Triton編譯器通過Python接口提供了對Triton語言和編譯器的訪問，使得用戶可以在Python環境中

發表于 12-24 17:33 ?271次閱讀

Triton編譯器與其他編譯器的比較

Triton編譯器與其他編譯器的比較主要體現在以下幾個方面：一、定位與目標 Triton編譯器：定位：專注于深度學習中最核心、最耗時的張量運算的優化。目標：提供一個高度抽象、靈活、高效

發表于 12-24 17:25 ?268次閱讀

Triton編譯器功能介紹 Triton編譯器使用教程

Triton 是一個開源的編譯器前端，它支持多種編程語言，包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個可擴展和可定制的編譯器框架，允許開發者添加新的編程語言特性和優化技術

發表于 12-24 17:23 ?280次閱讀

TensorRT-LLM低精度推理優化

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model

發表于 11-19 14:29 ?291次閱讀

降低成本城域網

電子發燒友網站提供《降低成本城域網.pdf》資料免費下載

發表于 10-12 11:46 ?0次下載

能源管理系統如何降低運維成本？

智能運維管理系統、電能集抄系統、移動端app的應用，有效降低了人工成本和運維成本，優化了運行策略，實現了設備的使用壽命延長，降低了運維成本。

發表于 04-16 14:45 ?533次閱讀

在AMD GPU上如何安裝和配置triton？

最近在整理python-based的benchmark代碼，反過來在NV的GPU上又把Triton裝了一遍，發現Triton的github repo已經給出了對應的llvm的commit id以及對應的編譯細節，然后跟著走了一遍，也順利的安裝成功，只需要按照如下方式即可完

發表于 02-22 17:04 ?2367次閱讀

【BBuf的CUDA筆記】OpenAI Triton入門筆記一

這里來看官方的介紹：https://openai.com/research/triton ，從官方的介紹中我們可以看到OpenAI Triton的產生動機以及它的目標是什么，還可以看到一些經典算法的實現例子展示。

發表于 01-23 10:00 ?2568次閱讀

Torch TensorRT是一個優化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我們大家聚在一起的原因，它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習推理軟件工具包。Torch TensorRT就是這兩者的結合。

發表于 01-09 16:41 ?1728次閱讀