色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA推理平臺和全棧方法提供最佳性能

星星科技指導員 ? 來源:NVIDIA ? 作者:Dave Salvator ? 2022-04-08 16:31 ? 次閱讀

三個趨勢繼續推動著人工智能推理市場的訓練和推理:不斷增長的數據集,日益復雜和多樣化的網絡,以及實時人工智能服務。 MLPerf 推斷 0 。 7 是行業標準 AI 基準測試的最新版本,它解決了這三個趨勢,為開發人員和組織提供了有用的數據,以便為數據中心和邊緣的平臺選擇提供信息。

基準測試擴展了推薦系統、語音識別醫學成像系統。它已經升級了自然語言處理( NLP )的工作負載,以進一步挑戰測試中的系統。下表顯示了當前的一組測試。

表 1 。 MLPerf 推斷 0 。 7 工作負載。

*新工作量

此外,針對數據中心和邊緣的多個場景進行了基準測試:

圖 1 。 MLPerf 推理 0 。 7 平臺類別和場景。

NVIDIA 輕松贏得了數據中心和邊緣類別的所有測試和場景。雖然這種出色的性能大部分可以追溯到我們的 GPU 體系結構,但更多的是與我們的工程師所做的出色的優化工作有關,現在開發人員社區可以使用這些工作。

在這篇文章中,我深入研究了導致這些優秀結果的因素,包括軟件優化以提高執行效率,多實例 GPU ( MIG )使一個 A100GPU 最多可以作為七個獨立的 GPUs 運行,以及 Triton 推斷服務器 支持在數據中心規模輕松部署推理應用程序。

檢查的優化

NVIDIA GPUs 支持 int8 和 FP16 的高吞吐量精確推斷,因此您可以在默認情況下獲得出色的推斷性能,而無需任何量化工作。然而,在保持精度的同時將網絡量化到 int8 精度是最高的性能選項,可以使數學吞吐量提高 2 倍。

在本次提交的資料中,我們發現 FP16 需要滿足 BERT 的最高精度目標。對于這個工作負載,我們使用了我們的 FP16 張量核心。在其他工作負載中,我們使用 int8 精度達到了最高精度目標( DLRM 和 3D Unet 的 FP32 的 99 。 9% 以上)。此外, int8 提交的性能得益于 TensorRT 7 。 2 軟件版本中的全面加速。

許多推斷工作負載需要大量的預處理工作。 NVIDIA 開源 DALI 庫旨在加速對 GPU 的預處理并避免 CPU 瓶頸。在本文中,我們使用 DALI 實現了 RNN-T 基準的 wav 到 mel 的轉換。

NLP 推斷對具有特定序列長度(輸入中的單詞數)的輸入文本進行操作。對于批處理推理,一種方法是將所有輸入填充到相同的序列長度。但是,這會增加計算開銷。 TensorRT 7 。 2 增加了三個插件來支持 NLP 的可變序列長度處理。我們提交的 BERT 使用這些插件獲得了超過 35% 的端到端性能。

加速稀疏矩陣處理是 A100 中引入的一種新功能。稀疏化網絡確實需要重新訓練和重新校準權值才能正常工作,因此稀疏性在封閉類別中不是可用的優化,但在開放類別中是允許的。我們的開放類別 BERT 提交使用稀疏性實現了 21% 的吞吐量提高,同時保持了與封閉提交相同的準確性。

了解 MLPerf 中的 MIG

MIG 內存。 MIG 允許您選擇是將 A100 作為單個大的 GPU 操作,還是將多個較小的 GPU 作為一個單獨的大型 GPU 來運行,每個小的 GPU 可以在它們之間隔離的情況下為不同的工作負載提供服務。圖 2 顯示了將此技術用于測試的 MLPerf 結果。

圖 2 。 MIG 與完整 T4 相比的推理性能。

圖 2 比較了單個 MIG 實例與完整的 T4GPU 實例的邊緣脫機性能,因為 A100 最多可支持七個 MIG 實例。您可以看到,超過四個 MIG 測試結果得分高于完整的 T4GPU 。這對應用程序意味著,您可以加載一個包含多個網絡和應用程序的單個 A100 ,并以與 T4 相同或更好的性能運行每個網絡和應用程序。這樣可以減少部署的服務器數量,釋放機架空間,并降低能耗。此外,在單個 A100 上同時運行多個網絡有助于保持 GPU 的高利用率,因此基礎設施管理人員可以優化使用已部署的計算資源。

Triton 推斷服務器

在一個網絡經過訓練和優化之后,它就可以部署了,但這并不像打開交換機那么簡單。在一個以人工智能為動力的服務上線之前,有幾個挑戰需要解決。這包括提供適當數量的服務器來維護 sla ,并確保在 AI 基礎設施上運行的所有服務都有良好的用戶體驗。然而,“正確的數字”可能會隨著時間的推移或由于工作量需求的突然變化而改變。理想的解決方案還可以實現負載平衡,從而使基礎設施得到最佳利用,但不會出現超額訂閱。此外,一些管理者希望在單個 GPUs 上運行多個網絡。 Triton 推斷服務器解決了這些挑戰和其他問題,使基礎設施管理人員更容易部署和維護負責提供人工智能服務的服務器群。

在這一輪中,我們也使用 Triton 推理服務器提交了結果,這簡化了人工智能模型在生產中的大規模部署。這個開源推理服務軟件允許團隊從任何框架( TensorFlow 、 TensorRT 、 PyTorch 、 ONNX 運行時或自定義框架)部署經過訓練的 AI 模型。它們還可以從本地存儲、 Google 云平臺或 Amazon S3 部署在任何基于 GPU – 或 CPU 的基礎設施(云、數據中心或邊緣)上。

圖 3 。 Triton 推斷服務器與 Kubernetes 完全集成。

Triton ?聲波風廓線儀也可作為 Docker 容器提供,是為基于微服務的應用而設計的。 Triton ?聲波風廓線儀與 Kubernetes 緊密集成,實現動態負載平衡,保證所有網絡推理操作順利進行。 Triton ?聲波風廓線儀的 GPU 指標幫助 Kubernetes 將推斷工作轉移到可用的 GPU 上,并在需要時擴展到數百個 GPUs 。新的 Triton ?聲波風廓線儀 2 。 3 支持使用 KFServing 的無服務器推斷、 Python 自定義后端、用于會話式人工智能的解耦推理、支持 A100MIG 以及 Azure ML 和 DeepStream 5 。 0 集成。

圖 4 顯示了 Triton ?聲波風廓線儀與運行 A100 定制推理服務解決方案相比的總體效率,這兩種配置都使用 TensorRT 運行。

圖 4 。 Triton ?聲波風廓線儀在 MLPerf 推理 0 。 7 結果中提供了與高度定制的推理服務實現幾乎相同的性能。

Triton ?聲波風廓線儀的效率很高,在這五個網絡中提供同等或接近它的性能。為了提供這樣的性能,該團隊對 Triton ?聲波風廓線儀進行了許多優化,例如用于與應用程序進行低延遲通信的新的輕量級數據結構、用于改進動態批處理的批處理數據加載以及用于 TensorRT 后端的 CUDA 圖形以獲得更高的推理性能。這些增強功能可作為 20 。 09 Triton ?聲波風廓線儀集裝箱 的一部分提供給每個應用程序。除此之外, Triton ?聲波風廓線儀還簡化了部署,無論是在本地還是在云端。這使得所有網絡推斷都能順利進行,即使在意外的需求高峰來襲時也是如此。

加速推理應用程序

考慮到驅動人工智能推理的持續趨勢, NVIDIA 推理平臺和全棧方法提供了最佳性能、最高通用性和最佳可編程性, MLPerf 推理 0 。 7 測試性能證明了這一點。現在,您和開發人員社區的其他成員都可以使用這些成果,主要是以開源軟件的形式。此外, TensorRT 和 Triton 推理服務器可從 NVIDIA NGC 免費獲得,以及預訓練模型、深度學習框架、行業應用框架和頭盔圖。 A100GPU 已經證明了其充分的推理能力。隨著完整的 NVIDIA 推理平臺, A100GPU 已經準備好迎接最嚴峻的人工智能挑戰。

關于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團的高級產品營銷經理,專注于超規模、深度學習和推理。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5184

    瀏覽量

    105368
  • 人工智能
    +關注

    關注

    1803

    文章

    48405

    瀏覽量

    244559
收藏 0人收藏

    評論

    相關推薦

    大象機器人攜手進迭時空推出 RISC-V 開源六軸機械臂產品

    全球80多個國家和地區。 近日,大象機器人聯合進迭時空推出全球首款RISC-V開源六軸機器臂“myCobot 280 RISC-V”,為開發者打造全新的機器人開源創新平臺。 “myCobot 280
    發表于 04-25 17:59

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業加速代理式AI推理

    Enterprise 軟件平臺之間的集成,將使 160 多個 AI 工具和 100 多個 NVIDIA NIM 微服務通過 OCI 控制臺以原生方式提供。此外,Oracle 和 NVIDIA
    的頭像 發表于 03-21 12:01 ?445次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業加速代理式AI<b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代

    英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
    的頭像 發表于 03-20 15:35 ?504次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?490次閱讀

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    Oracle Cloud Infrastructure (OCI) 與 NVIDIA AI Enterprise 軟件平臺之間的集成,將使 160 多個 AI 工具和 100 多個 NVIDIA NIM? 微服務通過 OCI
    發表于 03-19 15:24 ?270次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業加速代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發表于 03-19 09:31 ?165次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI 模型系列,助力開發者和企業構建代理式 AI <b class='flag-5'>平臺</b>

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?506次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b><b class='flag-5'>平臺</b>提高AI<b class='flag-5'>推理性能</b>

    曙光云開啟智能時代

    近日,“可信 云中生智”曙光云戰略發布會召開。曙光云從首創“城市云”進化到實現“智能云”,打造“云智、云安、云算、云數”四位一體能力體系,深度賦能千行百業數智化轉型升級。
    的頭像 發表于 12-19 15:11 ?515次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?567次閱讀

    基于飛騰平臺的國內首家信創安檢管理系統投入試運行

    基于飛騰平臺的國內首家信創安檢管理系統在哈爾濱太平國際機場初步建設完畢,進入試運行驗證階段,測試通道已面向旅客開放,期間運行穩定,標志著全國首個
    的頭像 發表于 12-04 16:23 ?628次閱讀

    NVIDIA將亮相亞馬遜云科技re:Invent 2024

    12 月 2 日至 6 日,NVIDIA 將在于拉斯維加斯舉行的亞馬遜云科技 re:Invent 2024 上展示產品。與會者可以深入了解在亞馬遜云科技上所提供的各種
    的頭像 發表于 11-27 11:18 ?728次閱讀

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發
    的頭像 發表于 10-27 10:03 ?563次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造AI訓練與<b class='flag-5'>推理</b>加速解決方案

    華為云發布可觀測平臺 AOM,以 AI 賦能應用運維可觀測

    應用可用性與穩定性。 該平臺發布標志著華為云在推動數字化轉型和智能化運維領域的又一重大突破,可觀測平臺的推出不僅為企業提供了更加全面和深
    的頭像 發表于 10-15 09:54 ?779次閱讀
    華為云發布<b class='flag-5'>全</b><b class='flag-5'>棧</b>可觀測<b class='flag-5'>平臺</b> AOM,以 AI 賦能應用運維可觀測

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1 系列開源模型一起,為全球企業的生成式 AI
    的頭像 發表于 07-25 09:48 ?923次閱讀

    NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業軟件支持

    Enterprise-IGX軟件現已在NVIDIA IGX平臺上正式可用,以滿足工業邊緣對實時 AI 計算日益增長的需求。它們將共同幫助醫療、工業和科學計算領域的解決方案提供商利用企業級軟件和支持來加快開發
    的頭像 發表于 06-04 10:21 ?706次閱讀
    主站蜘蛛池模板: 久久re视频这里精品青 | 日本乱子伦一区二区三区 | 亚洲乱亚洲乱妇13p 亚洲乱色视频在线观看 | 簧片在线观看 | 午夜快车神马影视 | 好男人好资源在线观看免费视频 | 伊在香蕉国产在线视频 | 手机在线免费观看毛片 | 午夜影院和视费x看 | 俄罗斯摘花 | 神电影院午夜dy888我不卡 | 飘雪在线观看免费完整版 | 花蝴蝶高清在线视频免费观看 | 99久久夜色精品国产亚洲AV卜 | 秋秋影视午夜福利高清 | 99热这里精品 | 最近日本MV字幕免费观看视频 | 国产精品亚洲污污网站入口 | 美女逼逼毛茸茸 | 日韩人妻无码精品-专区 | 99久久精品费精品蜜臀AV | 亚洲中文久久精品AV无码 | 午夜国产一区在线观看 | 成人毛片在线播放 | 乌克兰成人性色生活片 | 国内精品自产拍在线少密芽 | 久久久久激情免费观看 | 人人干人人看 | 国产精品1区2区 | 国产精品女上位好爽在线短片 | aaaaaa级特色特黄的毛片 | 女人被躁到高潮嗷嗷叫小 | 日产精品久久久久久久蜜殿 | 别插我B嗯啊视频免费 | 黑人 尺寸 强行害怕 痛哭 | 日本中文字幕伊人成中文字幕 | 最新无码国产在线视频 | 九九热在线免费观看 | 能看的黄页最新网站 | 国产精品久久久久成人免费 | 天天插天天射天天干 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品