一人上面2人的小说,涩涩漫画软件,摄像头东北对白清晰

三個趨勢繼續推動著人工智能推理市場的訓練和推理：不斷增長的數據集，日益復雜和多樣化的網絡，以及實時人工智能服務。 MLPerf 推斷 0 。 7 是行業標準 AI 基準測試的最新版本，它解決了這三個趨勢，為開發人員和組織提供了有用的數據，以便為數據中心和邊緣的平臺選擇提供信息。

基準測試擴展了推薦系統、語音識別和醫學成像系統。它已經升級了自然語言處理（ NLP ）的工作負載，以進一步挑戰測試中的系統。下表顯示了當前的一組測試。

表 1 。 MLPerf 推斷 0 。 7 工作負載。

*新工作量

此外，針對數據中心和邊緣的多個場景進行了基準測試：

圖 1 。 MLPerf 推理 0 。 7 平臺類別和場景。

NVIDIA 輕松贏得了數據中心和邊緣類別的所有測試和場景。雖然這種出色的性能大部分可以追溯到我們的 GPU 體系結構，但更多的是與我們的工程師所做的出色的優化工作有關，現在開發人員社區可以使用這些工作。

在這篇文章中，我深入研究了導致這些優秀結果的因素，包括軟件優化以提高執行效率，多實例 GPU （ MIG ）使一個 A100GPU 最多可以作為七個獨立的 GPUs 運行，以及 Triton 推斷服務器支持在數據中心規模輕松部署推理應用程序。

檢查的優化

NVIDIA GPUs 支持 int8 和 FP16 的高吞吐量精確推斷，因此您可以在默認情況下獲得出色的推斷性能，而無需任何量化工作。然而，在保持精度的同時將網絡量化到 int8 精度是最高的性能選項，可以使數學吞吐量提高 2 倍。

在本次提交的資料中，我們發現 FP16 需要滿足 BERT 的最高精度目標。對于這個工作負載，我們使用了我們的 FP16 張量核心。在其他工作負載中，我們使用 int8 精度達到了最高精度目標（ DLRM 和 3D Unet 的 FP32 的 99 。 9% 以上）。此外， int8 提交的性能得益于 TensorRT 7 。 2 軟件版本中的全面加速。

許多推斷工作負載需要大量的預處理工作。 NVIDIA 開源 DALI 庫旨在加速對 GPU 的預處理并避免 CPU 瓶頸。在本文中，我們使用 DALI 實現了 RNN-T 基準的 wav 到 mel 的轉換。

NLP 推斷對具有特定序列長度（輸入中的單詞數）的輸入文本進行操作。對于批處理推理，一種方法是將所有輸入填充到相同的序列長度。但是，這會增加計算開銷。 TensorRT 7 。 2 增加了三個插件來支持 NLP 的可變序列長度處理。我們提交的 BERT 使用這些插件獲得了超過 35% 的端到端性能。

加速稀疏矩陣處理是 A100 中引入的一種新功能。稀疏化網絡確實需要重新訓練和重新校準權值才能正常工作，因此稀疏性在封閉類別中不是可用的優化，但在開放類別中是允許的。我們的開放類別 BERT 提交使用稀疏性實現了 21% 的吞吐量提高，同時保持了與封閉提交相同的準確性。

了解 MLPerf 中的 MIG

MIG 內存。 MIG 允許您選擇是將 A100 作為單個大的 GPU 操作，還是將多個較小的 GPU 作為一個單獨的大型 GPU 來運行，每個小的 GPU 可以在它們之間隔離的情況下為不同的工作負載提供服務。圖 2 顯示了將此技術用于測試的 MLPerf 結果。

圖 2 。 MIG 與完整 T4 相比的推理性能。

圖 2 比較了單個 MIG 實例與完整的 T4GPU 實例的邊緣脫機性能，因為 A100 最多可支持七個 MIG 實例。您可以看到，超過四個 MIG 測試結果得分高于完整的 T4GPU 。這對應用程序意味著，您可以加載一個包含多個網絡和應用程序的單個 A100 ，并以與 T4 相同或更好的性能運行每個網絡和應用程序。這樣可以減少部署的服務器數量，釋放機架空間，并降低能耗。此外，在單個 A100 上同時運行多個網絡有助于保持 GPU 的高利用率，因此基礎設施管理人員可以優化使用已部署的計算資源。

Triton 推斷服務器

在一個網絡經過訓練和優化之后，它就可以部署了，但這并不像打開交換機那么簡單。在一個以人工智能為動力的服務上線之前，有幾個挑戰需要解決。這包括提供適當數量的服務器來維護 sla ，并確保在 AI 基礎設施上運行的所有服務都有良好的用戶體驗。然而，“正確的數字”可能會隨著時間的推移或由于工作量需求的突然變化而改變。理想的解決方案還可以實現負載平衡，從而使基礎設施得到最佳利用，但不會出現超額訂閱。此外，一些管理者希望在單個 GPUs 上運行多個網絡。 Triton 推斷服務器解決了這些挑戰和其他問題，使基礎設施管理人員更容易部署和維護負責提供人工智能服務的服務器群。

在這一輪中，我們也使用 Triton 推理服務器提交了結果，這簡化了人工智能模型在生產中的大規模部署。這個開源推理服務軟件允許團隊從任何框架（ TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 運行時或自定義框架）部署經過訓練的 AI 模型。它們還可以從本地存儲、 Google 云平臺或 Amazon S3 部署在任何基于 GPU – 或 CPU 的基礎設施（云、數據中心或邊緣）上。

圖 3 。 Triton 推斷服務器與 Kubernetes 完全集成。

Triton ?聲波風廓線儀也可作為 Docker 容器提供，是為基于微服務的應用而設計的。 Triton ?聲波風廓線儀與 Kubernetes 緊密集成，實現動態負載平衡，保證所有網絡推理操作順利進行。 Triton ?聲波風廓線儀的 GPU 指標幫助 Kubernetes 將推斷工作轉移到可用的 GPU 上，并在需要時擴展到數百個 GPUs 。新的 Triton ?聲波風廓線儀 2 。 3 支持使用 KFServing 的無服務器推斷、 Python 自定義后端、用于會話式人工智能的解耦推理、支持 A100MIG 以及 Azure ML 和 DeepStream 5 。 0 集成。

圖 4 顯示了 Triton ?聲波風廓線儀與運行 A100 定制推理服務解決方案相比的總體效率，這兩種配置都使用 TensorRT 運行。

圖 4 。 Triton ?聲波風廓線儀在 MLPerf 推理 0 。 7 結果中提供了與高度定制的推理服務實現幾乎相同的性能。

Triton ?聲波風廓線儀的效率很高，在這五個網絡中提供同等或接近它的性能。為了提供這樣的性能，該團隊對 Triton ?聲波風廓線儀進行了許多優化，例如用于與應用程序進行低延遲通信的新的輕量級數據結構、用于改進動態批處理的批處理數據加載以及用于 TensorRT 后端的 CUDA 圖形以獲得更高的推理性能。這些增強功能可作為 20 。 09 Triton ?聲波風廓線儀集裝箱的一部分提供給每個應用程序。除此之外， Triton ?聲波風廓線儀還簡化了部署，無論是在本地還是在云端。這使得所有網絡推斷都能順利進行，即使在意外的需求高峰來襲時也是如此。

加速推理應用程序

考慮到驅動人工智能推理的持續趨勢， NVIDIA 推理平臺和全棧方法提供了最佳性能、最高通用性和最佳可編程性， MLPerf 推理 0 。 7 測試性能證明了這一點。現在，您和開發人員社區的其他成員都可以使用這些成果，主要是以開源軟件的形式。此外， TensorRT 和 Triton 推理服務器可從 NVIDIA NGC 免費獲得，以及預訓練模型、深度學習框架、行業應用框架和頭盔圖。 A100GPU 已經證明了其充分的推理能力。隨著完整的 NVIDIA 推理平臺， A100GPU 已經準備好迎接最嚴峻的人工智能挑戰。

關于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團的高級產品營銷經理，專注于超規模、深度學習和推理。

審核編輯：郭婷

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5184

瀏覽量
105368
人工智能

人工智能

+關注

關注
1803

文章
48405

瀏覽量
244559

大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

全球80多個國家和地區。近日，大象機器人聯合進迭時空推出全球首款RISC-V全棧開源六軸機器臂“myCobot 280 RISC-V”，為開發者打造全新的機器人開源創新平臺。 “myCobot 280

發表于 04-25 17:59

英偉達GTC2025亮點：Oracle與NVIDIA合作助力企業加速代理式AI推理

Enterprise 軟件平臺之間的集成，將使 160 多個 AI 工具和 100 多個 NVIDIA NIM 微服務通過 OCI 控制臺以原生方式提供。此外，Oracle 和 NVIDIA

發表于 03-21 12:01 ?445次閱讀

英偉達GTC25亮點：NVIDIA Blackwell Ultra 開啟 AI 推理新時代

英偉達GTC25亮點：NVIDIA Blackwell Ultra 開啟 AI 推理新時代

發表于 03-20 15:35 ?504次閱讀

英偉達GTC25亮點：NVIDIA Dynamo開源庫加速并擴展AI推理模型

NVIDIA Dynamo 提高了推理性能，同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本；在 NVIDIA Blackwell 上的推理優化

發表于 03-20 15:03 ?490次閱讀

Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

Oracle Cloud Infrastructure (OCI) 與 NVIDIA AI Enterprise 軟件平臺之間的集成，將使 160 多個 AI 工具和 100 多個 NVIDIA NIM? 微服務通過 OCI

發表于 03-19 15:24 ?270次閱讀

NVIDIA 推出開放推理 AI 模型系列，助力開發者和企業構建代理式 AI 平臺

由 NVIDIA 后訓練的全新 Llama Nemotron 推理模型，為代理式 AI 提供業務就緒型基礎埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike

發表于 03-19 09:31 ?165次閱讀

使用NVIDIA推理平臺提高AI推理性能

NVIDIA推理平臺提高了 AI 推理性能，為零售、電信等行業節省了數百萬美元。

發表于 02-08 09:59 ?506次閱讀

曙光云開啟全棧智能時代

近日，“全棧可信云中生智”曙光云戰略發布會召開。曙光云從首創“城市云”進化到實現“全棧智能云”，打造“云智、云安、云算、云數”四位一體能力體系，深度賦能千行百業數智化轉型升級。

發表于 12-19 15:11 ?515次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術，包括自定義 Attention Kernel、Inflight

發表于 12-17 17:47 ?567次閱讀

基于飛騰平臺的國內首家全棧信創安檢管理系統投入試運行

基于飛騰平臺的國內首家全棧信創安檢管理系統在哈爾濱太平國際機場初步建設完畢，進入試運行驗證階段，測試通道已面向旅客開放，期間運行穩定，標志著全國首個全

發表于 12-04 16:23 ?628次閱讀

NVIDIA將亮相亞馬遜云科技re:Invent 2024

12 月 2 日至 6 日，NVIDIA 將在于拉斯維加斯舉行的亞馬遜云科技 re:Invent 2024 上展示全棧產品。與會者可以深入了解在亞馬遜云科技上所提供的各種

發表于 11-27 11:18 ?728次閱讀

NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise，為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發

發表于 10-27 10:03 ?563次閱讀

華為云發布全棧可觀測平臺 AOM，以 AI 賦能應用運維可觀測

應用可用性與穩定性。該平臺發布標志著華為云在推動數字化轉型和智能化運維領域的又一重大突破，全棧可觀測平臺的推出不僅為企業提供了更加全面和深

發表于 10-15 09:54 ?779次閱讀

英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務，與同樣剛推出的 Llama 3.1 系列開源模型一起，為全球企業的生成式 AI

發表于 07-25 09:48 ?923次閱讀

NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業軟件支持

Enterprise-IGX軟件現已在NVIDIA IGX平臺上正式可用，以滿足工業邊緣對實時 AI 計算日益增長的需求。它們將共同幫助醫療、工業和科學計算領域的解決方案提供商利用企業級軟件和支持來加快開發

發表于 06-04 10:21 ?706次閱讀