簡介
? 本案例中通過NVIDIA T4 GPU,TensorRT和Triton, 幫助微信OCR降低整體耗時46%, 并將系統的失敗率降低81%,同時降低了高達78%的服務器數量。
? 本案例主要應用到 NVIDIA GPU ,TensorRT和Triton。
客戶簡介
騰訊微信是一款跨平臺的通訊工具。支持通過手機網絡發送語音、圖片、視頻和文字等。截至2021年6月,微信在全球擁有超過12億活躍用戶,是國內活躍用戶最多的社交軟件。
微信識物是一款主打物品識別的 AI 產品,通過相機拍攝物品,更高效、更智能地獲取信息。2020 年,微信識物拓展了更多識別場景,上線了微信版的圖片搜索。打開微信掃一掃,左滑切換到“識物”功能,對準想要了解的物品正面,可以獲取對應的物品信息,包括物品百科、相關資訊、相關商品。
2021年1月, 微信發布的微信8.0,版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長按圖片就可以提取圖片中文字,然后一鍵轉發、復制或收藏。
挑戰
微信識物包含檢測、圖像召回、信息提煉等環節,OCR主要包括識別和檢測,這兩種應用都有非常大的計算量,在用Pytorch進行模型的推理時,一方面時延特別大,導致用戶體驗受損;另一方面,顯存占用很大,單張NVIDIA T4上部署的模型數比較少,導致推理請求的并發數上不去,請求失敗的概率太高,只能通過增加機器的方式來提高并發能力,業務部署成本較高。再次,使用的模型經常變化,而業務需要更換后的模型能夠快速地加速和上線部署。
方案
基于以上挑戰,騰訊微信選擇了采用NVIDIA 的TensorRT對模型進行推理加速,并利用NVIDIA Triton推理服務器在T4 GPU上進行在線部署,在提升用戶體驗的同時,大幅降低了服務成本。
1、 通過使用TensorRT對微信識物和OCR的模型進行加速,在都使用FP32的情況下,與Pytorch相對,時延降低50%左右。
2、 在OCR的識別和檢測階段,使用TensorRT結合NVIDIA T4 GPU 的FP16 Tensor Core,在保證精度的同時,識別的時延進一步降低了50%,檢測降低了20%。
3、 在微信識物的分類和檢測任務中,通過使用NVIDIA T4 GPU 的int8 Tensor Core,并結合QAT,在滿足精度要求的前提下,進一步大幅提升了性能。
4、 通過使用FP16和int8 低精度模式,在大幅降低推理時延的同時,大大減少了顯存的占用,在FP16模式下,單模型顯存占用僅占FP32模式的40%–50%, 而在int8模式下,單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數量的同時,大幅提高了單GPU的推理請求并發能力。
5、 Triton的dynamic batch和多實例等特性,幫助微信將在滿足時延要求的同時,提高了系統整體的并發能力,將系統失敗降低了81%。
6、 TensorRT可以對模型進行快速的加速,Triton則可以對加速后的模型進行快速的部署,滿足了業務對修改后的模型進行快速部署的需求,同時也大大減少了工程人員的工作量。
效果
通過使用NVIDIA的TensorRT對微信識物和OCR的模型進行加速,在降低單次推理時延50%以上的同時,節約了多達64%的顯存。結合Triton的dynamic batch和多實例的功能,OCR的整體時延降低了46%,系統失敗率降低了81%。大大提高了用戶的體驗,并且服務器的數量減少了多達78%,極大降低了服務的成本。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4985瀏覽量
103024 -
gpu
+關注
關注
28文章
4735瀏覽量
128919 -
服務器
+關注
關注
12文章
9142瀏覽量
85384
發布評論請先 登錄
相關推薦
評論