欲妇放荡叫床小说短篇阅读,一二三区在线视频,亚洲一区色图

GPUNet 由 AI 為 AI 精心打造，是一類(lèi)卷積神經(jīng)網(wǎng)絡(luò)，旨在使用 NVIDIA TensorRT 最大化 NVIDIA GPU 的性能。

使用新的神經(jīng)架構(gòu)搜索（ NAS ）方法構(gòu)建， GPUNet 展示了最先進(jìn)的推理性能，比 EfficientNet-X 和 FBNet-V3 快兩倍。

NAS 方法有助于為廣泛的應(yīng)用構(gòu)建 GPUNet ，以便深度學(xué)習(xí)工程師可以根據(jù)相對(duì)精度和延遲目標(biāo)直接部署這些神經(jīng)網(wǎng)絡(luò)。

GPUNet NAS 設(shè)計(jì)方法

高效的體系結(jié)構(gòu)搜索和部署就緒模型是 NAS 設(shè)計(jì)方法的關(guān)鍵目標(biāo)。這意味著幾乎不與領(lǐng)域?qū)＜疫M(jìn)行交互，并且有效地使用集群節(jié)點(diǎn)來(lái)培訓(xùn)潛在的架構(gòu)候選。最重要的是，生成的模型已準(zhǔn)備好部署。

人工智能制作

為目標(biāo)設(shè)備尋找性能最佳的架構(gòu)搜索可能很耗時(shí)。 NVIDIA 構(gòu)建并部署了一種新型的 NAS AI 代理，該代理可以有效地做出構(gòu)建 GPUNET 所需的艱難設(shè)計(jì)選擇，使 GPUNET 比當(dāng)前的 SOTA 模型領(lǐng)先 2 倍。

此 NAS AI 代理在中自動(dòng)協(xié)調(diào)數(shù)百個(gè) GPU Selene 超級(jí)計(jì)算機(jī) 而不需要領(lǐng)域?qū)＜业娜魏胃深A(yù)。

使用 TensorRT 為 NVIDIA GPU 優(yōu)化

GPUNet 通過(guò)相關(guān)的 TensorRT 推理延遲成本，提升 GPU 友好的運(yùn)算符（例如，較大的篩選器）而不是內(nèi)存綁定運(yùn)算符（例如花哨的激活）。它在 ImageNet 上提供了 SOTA GPU 延遲和精度。

部署就緒

GPUNet 報(bào)告的延遲包括 TensorRT 發(fā)貨版本中可用的所有性能優(yōu)化，包括融合內(nèi)核、量化和其他優(yōu)化路徑。構(gòu)建的 GPune 已準(zhǔn)備好部署。

構(gòu)建 GPune ：端到端 NAS 工作流

在高層次上，神經(jīng)架構(gòu)搜索（ NAS ） AI 代理分為兩個(gè)階段：

根據(jù)推理延遲對(duì)所有可能的網(wǎng)絡(luò)架構(gòu)進(jìn)行分類(lèi)。

使用適合延遲預(yù)算的這些網(wǎng)絡(luò)的子集，并優(yōu)化其準(zhǔn)確性。

在第一階段，由于搜索空間是高維的，代理使用 Sobol 采樣來(lái)更均勻地分布候選。使用延遲查找表，然后將這些候選對(duì)象分類(lèi)到子搜索空間，例如， NVIDIA V100 GPU 上總延遲低于 0.5 毫秒的網(wǎng)絡(luò)子集。

此階段中使用的推斷延遲是一個(gè)近似成本，通過(guò)將延遲查找表中每個(gè)層的延遲相加來(lái)計(jì)算。延遲表使用輸入數(shù)據(jù)形狀和層配置作為鍵來(lái)查找查詢層上的相關(guān)延遲。

在第二階段，代理建立貝葉斯優(yōu)化損失函數(shù)，以在子空間的延遲范圍內(nèi)找到性能最佳的高精度網(wǎng)絡(luò)：

$latex.php?latex=loss+%3D+CrossEntropy%28model+weights%29+%2B+%5Calpha+%2A+latency%28architecture+candidate%29%5E%7B%5Cbeta%7D&bg=ffffff&fg=000&s=0&c=20201002$

圖 2. NVIDIA NAS AI 代理端到端工作流

AI 代理使用客戶端 – 服務(wù)器分布式訓(xùn)練控制器來(lái)跨多個(gè)網(wǎng)絡(luò)架構(gòu)同時(shí)執(zhí)行 NAS 。 AI 代理在一個(gè)服務(wù)器節(jié)點(diǎn)上運(yùn)行，提出并訓(xùn)練在集群上多個(gè)客戶端節(jié)點(diǎn)上運(yùn)行的網(wǎng)絡(luò)候選。

根據(jù)結(jié)果，只有滿足目標(biāo)硬件的準(zhǔn)確度和延遲目標(biāo)的有前途的網(wǎng)絡(luò)體系結(jié)構(gòu)候選者得到排名，從而產(chǎn)生了一些性能最佳的 GPUNET ，可以使用 TensorRT 部署在 NVIDIA GPU 上。

GPUNet 模型體系結(jié)構(gòu)

GPUNet 模型架構(gòu)是一個(gè)八級(jí)架構(gòu)，使用 EfficientNet-V2 作為基線架構(gòu)。

搜索空間定義包括搜索以下變量：

操作類(lèi)型

跨步數(shù)

內(nèi)核大小

層數(shù)

激活函數(shù)

IRB 擴(kuò)展比

輸出通道濾波器

擠壓激勵(lì)（ SE ）

表 1 顯示了搜索空間中每個(gè)變量的值范圍。

前兩個(gè)階段使用卷積搜索磁頭配置。受 EfficientNet-V2 的啟發(fā)，第二級(jí)和第三級(jí)使用融合 IRB 。然而，融合的 IRB 會(huì)導(dǎo)致更高的延遲，因此在第 4 至 7 階段，這些被 IRB 取代。

專(zhuān)欄層顯示階段中的層范圍。例如，階段 4 中的［1 ， 10］表示該階段可以具有 1 到 10 個(gè) IRB 。專(zhuān)欄過(guò)濾器顯示階段中各層的輸出通道濾波器范圍。該搜索空間還調(diào)整 IRB /融合 IRB 內(nèi)部的擴(kuò)展比（ ER ）、激活類(lèi)型、內(nèi)核大小和壓縮激勵(lì)（ SE ）層。

最后，在步驟 32 ，從 224 到 512 搜索輸入圖像的尺寸。

來(lái)自搜索空間的每個(gè) GPUNet 候選構(gòu)建被編碼為 41 寬的整數(shù)向量（表 2 ）。

在 NAS 搜索結(jié)束時(shí)，返回的排序候選是這些性能最佳的編碼的列表，這些編碼又是性能最佳的 GPUNET 。

總結(jié)

鼓勵(lì)所有 ML 從業(yè)人員閱讀 CVPR 2022 GPUNet 研究報(bào)告，并在 NVIDIA /深度學(xué)習(xí)示例 GitHub repo ，并在協(xié)作實(shí)例在可用云上 GPU 。 GPUNet 推理也可在 PyTorch hub colab 運(yùn)行實(shí)例使用 NGC 集線器上托管的 GPUNet 檢查點(diǎn)。這些檢查點(diǎn)具有不同的準(zhǔn)確性和延遲折衷，可以根據(jù)目標(biāo)應(yīng)用程序的要求應(yīng)用。

關(guān)于作者

Satish Salian 是 NVIDIA 的首席系統(tǒng)軟件工程師，為開(kāi)發(fā)人員利用 NVIDIA GPU 的能力構(gòu)建端到端技術(shù)和解決方案。他目前專(zhuān)注于神經(jīng)架構(gòu)搜索（ NAS ）方法，為 NVIDIA GPU 搜索高性能神經(jīng)架構(gòu)。

Carl （Izzy） Putterman 最近加入 NVIDIA ，擔(dān)任深度學(xué)習(xí)算法工程師。他畢業(yè)于加利福尼亞大學(xué)，伯克利在應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。在 NVIDIA ，他目前致力于時(shí)間序列建模和圖形神經(jīng)網(wǎng)絡(luò)，重點(diǎn)是推理。

Linnan Wang 是 NVIDIA 的高級(jí)深度學(xué)習(xí)工程師。 2021 ，他在布朗大學(xué)獲得博士學(xué)位。他的研究主題是神經(jīng)架構(gòu)搜索，他的 NAS 相關(guān)著作已在 ICML 、 NeurIPS 、 ICLR 、 CVPR 、 TPMAI 和 AAAI 上發(fā)表。在 NVIDIA ， Lin Nan 繼續(xù)進(jìn)行 NAS 的研發(fā)，并將 NAS 優(yōu)化模型交付給 NVIDIA 核心產(chǎn)品。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4779

瀏覽量
101039
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5075

瀏覽量
103527
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4768

瀏覽量
129216

評(píng)論

相關(guān)推薦

英特爾FPGA 助力Microsoft Azure機(jī)器學(xué)習(xí)提供AI推理性能

Machine Learning SDK 相集成以供預(yù)覽。客戶可以使用 Azure 大規(guī)模部署的英特爾? FPGA（現(xiàn)場(chǎng)可編程邏輯門(mén)陣列）技術(shù)，為其模型提供行業(yè)領(lǐng)先的人工智能（AI） 推理性能。

發(fā)表于 05-16 17:25 ?6410次閱讀

NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢(shì)，首次在Arm服務(wù)器上取得佳績(jī)

最新MLPerf基準(zhǔn)測(cè)試表明，NVIDIA已將其在AI推理性能和能效方面的高標(biāo)準(zhǔn)擴(kuò)展到Arm以及x86計(jì)算機(jī)。

發(fā)表于 09-23 14:18 ?2635次閱讀

<b class='flag-5'>NVIDIA</b>擴(kuò)大AI<b class='flag-5'>推理性能</b>領(lǐng)先優(yōu)勢(shì)，首次<b class='flag-5'>在</b>Arm服務(wù)器<b class='flag-5'>上</b>取得佳績(jī)

NVIDIA打破AI推理性能記錄

　NVIDIA憑借A100進(jìn)一步擴(kuò)大了在MLPerf基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì)，實(shí)現(xiàn)了比CPU快237倍的AI推理性能，助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。

發(fā)表于 10-22 14:07 ?823次閱讀

NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

首個(gè)獨(dú)立AI推理基準(zhǔn)測(cè)試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場(chǎng)中最大、同時(shí)也是最具競(jìng)爭(zhēng)力的領(lǐng)域，業(yè)內(nèi)此前一直希望能夠有一套客觀的推理性能測(cè)試指標(biāo)。在

發(fā)表于 11-08 19:44

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問(wèn)題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候，沒(méi)有問(wèn)題，過(guò)一會(huì)再訓(xùn)練出現(xiàn)非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU

發(fā)表于 01-03 08:24

充分利用Arm NN進(jìn)行GPU推理

的是要知道它提供的選項(xiàng)來(lái)提高推理性能。作為開(kāi)發(fā)人員，您會(huì)尋找可以壓縮的每一毫秒，尤其是在需要實(shí)現(xiàn)實(shí)時(shí)推理時(shí)。讓我們看一下Arm NN中可用的優(yōu)化選項(xiàng)之一，并通過(guò)一些實(shí)際示例評(píng)估它可能產(chǎn)生

發(fā)表于 04-11 17:33

求助，為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能？

生成兩個(gè) IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類(lèi)似模型，以不同的 fps （27fps 和 6fps）運(yùn)行更多樣化的權(quán)重是否會(huì)影響 Myriad X 上的推理性能？

發(fā)表于 08-15 07:00

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。將權(quán)重轉(zhuǎn)換為 ONNX 文件，然后轉(zhuǎn)換為中間表示（IR）。無(wú)法確定如何獲得更好的推理性能。

發(fā)表于 08-15 06:58

利用NVIDIA模型分析儀最大限度地提高深度學(xué)習(xí)的推理性能

你已經(jīng)建立了你的深度學(xué)習(xí)推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。你如何進(jìn)一步加快你的模型的運(yùn)行速度？進(jìn)入 NVIDIA模

發(fā)表于 10-21 19:01 ?668次閱讀

NVIDIA A100 GPU推理性能237倍碾壓CPU

）的12個(gè)提交者增加了近一倍。結(jié)果顯示，今年5月NVIDIA（Nvidia）發(fā)布的安培（Ampere）架構(gòu)A100 Tensor Core GPU，在云端

發(fā)表于 10-23 17:40 ?4380次閱讀

NVIDIA GPU助力提升模型訓(xùn)練和推理性價(jià)比

，其中的模型數(shù)量達(dá)數(shù)千個(gè)，日均調(diào)用服務(wù)達(dá)到千億級(jí)別。無(wú)量推薦系統(tǒng)，在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算，是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn)：訓(xùn)練是

發(fā)表于 08-23 17:09 ?4848次閱讀

在 NGC 上玩轉(zhuǎn)新一代推理部署工具 FastDeploy，幾行代碼搞定 AI 部署

模型，并提供開(kāi)箱即用的云邊端部署體驗(yàn)，實(shí)現(xiàn) AI 模型端到端的推理性能優(yōu)化。歡迎廣大開(kāi)發(fā)者使用 NVIDIA 與飛槳聯(lián)合深度適配的 NGC 飛槳容器，在 NVIDIA

發(fā)表于 12-13 19:50 ?1273次閱讀

Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過(guò)一個(gè)名為T(mén)ensorRT LLM的新開(kāi)源軟件庫(kù)，將其H100、A100和L4 GPU的大型語(yǔ)言模型(LLM)推理性能提高了一倍。正如對(duì)相同硬件一輪又一輪改進(jìn)

發(fā)表于 10-23 16:10 ?699次閱讀

開(kāi)箱即用，AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

。中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院賽西實(shí)驗(yàn)室依據(jù)國(guó)家標(biāo)準(zhǔn)《人工智能服務(wù)器系統(tǒng)性能測(cè)試規(guī)范》（征求意見(jiàn)稿）相關(guān)要求，使用AISBench?2.0測(cè)試工具，完成了第五代英特爾至強(qiáng)可擴(kuò)展處理器的AI大模型推理性能和精度測(cè)試。測(cè)試中，第五代英特爾至強(qiáng)

發(fā)表于 09-06 15:33 ?404次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。

發(fā)表于 12-17 17:47 ?247次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

使用GPUNet在NVIDIA GPU上擊敗SOTA推理性能

評(píng)論

英特爾FPGA 助力Microsoft Azure機(jī)器學(xué)習(xí)提供AI推理性能

NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢(shì)，首次在Arm服務(wù)器上取得佳績(jī)

NVIDIA打破AI推理性能記錄

NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

充分利用Arm NN進(jìn)行GPU推理

求助，為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能？

如何提高YOLOv4模型的推理性能？

利用NVIDIA模型分析儀最大限度地提高深度學(xué)習(xí)的推理性能

NVIDIA A100 GPU推理性能237倍碾壓CPU

NVIDIA GPU助力提升模型訓(xùn)練和推理性價(jià)比

在 NGC 上玩轉(zhuǎn)新一代推理部署工具 FastDeploy，幾行代碼搞定 AI 部署

Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能

開(kāi)箱即用，AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

解鎖NVIDIA TensorRT-LLM的卓越性能