亚洲精品国产成人7777,在线免费视频国产,十八岁禁止视频在线播放

1. Introduction

HugeCTR 能夠高效地利用 GPU 來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練，為了使它還能直接被其他 DL 用戶(hù)，比如 TensorFlow 所直接使用，我們開(kāi)發(fā)了 SparseOperationKit (SOK)，來(lái)將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式，從而幫助用戶(hù)在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來(lái)加速他們的推薦系統(tǒng)。

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù)，然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換，最后將計(jì)算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶(hù)已有的代碼，以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。

SOK 不僅僅是加速了 TensorFlow 中的算子，而是根據(jù)業(yè)界中的實(shí)際需求提供了對(duì)應(yīng)的新解決方案，比如說(shuō) GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用；既可以使用 TensorFlow 自帶的通信工具，也可以使用 Horovod 等第三方插件來(lái)作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標(biāo)準(zhǔn)模型 DLRM 來(lái)對(duì) SOK 的性能進(jìn)行測(cè)試。

圖 2. SOK 性能測(cè)試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples，使用 SOK 可以獲得更快的訓(xùn)練速度以及更高的吞吐量。

3. API

SOK 提供了簡(jiǎn)潔的、類(lèi) TensorFlow 的 API；使用 SOK 的方式非常簡(jiǎn)單、直接；讓用戶(hù)通過(guò)修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

左側(cè)是使用 TensorFlow 的 API 來(lái)搭建模型，右側(cè)是使用 SOK 的 API 來(lái)搭建相同的模型。使用 SOK 來(lái)搭建模型的時(shí)候，只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對(duì)應(yīng)的 API 即可。

2. 使用 Horovod 來(lái)定義 training loop

同樣的，左側(cè)是使用 TensorFlow 來(lái)定義 training loop，右側(cè)是使用 SOK 時(shí)，training loop 的定義方式。可以看到，使用 SOK 時(shí)，只需要對(duì) Embedding Variables 和 Dense Variables 進(jìn)行分別處理即可。其中，Embedding Variables 部分由 SOK 管理，Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來(lái)定義 training loop

類(lèi)似的，還可以使用 TensorFlow 自帶的通信工具來(lái)定義 training loop。

4. 開(kāi)始訓(xùn)練

在開(kāi)始訓(xùn)練過(guò)程時(shí)，使用 SOK 與使用 TensorFlow 時(shí)所用代碼完全一致。

4. 結(jié)語(yǔ)

SOK 將 HugeCTR 中的高級(jí)特性包裝為 TensorFlow 可以直接使用的模塊，通過(guò)修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進(jìn)設(shè)計(jì)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4753

瀏覽量
129062
SOK

SOK

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
6338

原文標(biāo)題：Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

GPU是如何訓(xùn)練AI大模型的

在AI模型的訓(xùn)練過(guò)程中，大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái)，AI部落小編帶您了解GPU是如何訓(xùn)練AI大模型的。

發(fā)表于 12-19 17:54 ?151次閱讀

如何利用地物光譜進(jìn)行土地利用分類(lèi)？

在土地利用分類(lèi)領(lǐng)域，地物光譜技術(shù)正發(fā)揮著日益重要的作用。下面就為大家簡(jiǎn)要介紹如何利用地物光譜進(jìn)行土地利用分類(lèi)： 1.地物光譜數(shù)據(jù)采集：使用專(zhuān)業(yè)光譜儀對(duì)不同地物

發(fā)表于 12-13 14:44 ?113次閱讀

如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進(jìn)行</b>土<b class='flag-5'>地利用</b>分類(lèi)？

訓(xùn)練AI大模型需要什么樣的gpu

訓(xùn)練AI大模型需要選擇具有強(qiáng)大計(jì)算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時(shí)，需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。

發(fā)表于 12-03 10:10 ?154次閱讀

NPU與GPU的性能對(duì)比

它們?cè)诓煌瑧?yīng)用場(chǎng)景下的表現(xiàn)。一、設(shè)計(jì)初衷與優(yōu)化方向 NPU ：專(zhuān)為加速AI任務(wù)而設(shè)計(jì)，包括深度學(xué)習(xí)和推理。針對(duì)神經(jīng)網(wǎng)絡(luò)的計(jì)算模式進(jìn)行了優(yōu)化，能夠高效地執(zhí)行矩陣乘法、卷積等操作。擁有眾多小型處理單元，配備專(zhuān)門(mén)的內(nèi)存體系結(jié)構(gòu)和數(shù)據(jù)流優(yōu)化策略，對(duì)深度學(xué)習(xí)任務(wù)的處理特別

發(fā)表于 11-14 15:19 ?1268次閱讀

PyTorch GPU 加速訓(xùn)練模型方法

在深度學(xué)習(xí)領(lǐng)域，GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架，提供了豐富的工具和方法來(lái)

發(fā)表于 11-05 17:43 ?584次閱讀

為什么ai模型訓(xùn)練要用gpu

GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng)，已成為AI模型訓(xùn)練不可或缺的重要工具。

發(fā)表于 10-24 09:39 ?342次閱讀

GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢(shì)具體體現(xiàn)在哪些方面？

能力特別適合于深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算和高維度數(shù)據(jù)處理，這些是AI訓(xùn)練中常見(jiàn)的計(jì)算密集型任務(wù)。 2、高效的數(shù)據(jù)處理：AI訓(xùn)練通常涉及大量的數(shù)據(jù)，GPU服務(wù)器

發(fā)表于 09-11 13:24 ?449次閱讀

蘋(píng)果承認(rèn)使用谷歌芯片來(lái)訓(xùn)練AI

蘋(píng)果公司最近在一篇技術(shù)論文中披露，其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型，是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域，大型科技公司正積極探索并實(shí)踐著英偉達(dá)

發(fā)表于 07-30 17:03 ?748次閱讀

SOK在手機(jī)行業(yè)的應(yīng)用案例

通過(guò)封裝 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下簡(jiǎn)稱(chēng) SOK）使得 TensorFlow 用戶(hù)可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化加速 GPU 上的分布式 Embed

發(fā)表于 07-25 10:01 ?368次閱讀

llm模型訓(xùn)練一般用什么系統(tǒng)

LLM（Large Language Model，大型語(yǔ)言模型）是近年來(lái)在自然語(yǔ)言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計(jì)算資源和數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。以下是關(guān)于LLM模型訓(xùn)練

發(fā)表于 07-09 10:02 ?430次閱讀

如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練

，使得神經(jīng)網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和仿真變得更加便捷。本文將詳細(xì)介紹如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練，包括網(wǎng)絡(luò)創(chuàng)建、數(shù)據(jù)預(yù)處理、訓(xùn)練過(guò)程、參數(shù)調(diào)

發(fā)表于 07-08 18:26 ?1930次閱讀

如何提高自動(dòng)駕駛汽車(chē)感知模型的訓(xùn)練效率和GPU利用率

由于采用了多攝像頭輸入和深度卷積骨干網(wǎng)絡(luò)，用于訓(xùn)練自動(dòng)駕駛感知模型的 GPU 內(nèi)存占用很大。當(dāng)前減少內(nèi)存占用的方法往往會(huì)導(dǎo)致額外的計(jì)算開(kāi)銷(xiāo)或工作負(fù)載的失衡。

發(fā)表于 04-29 09:12 ?931次閱讀

AI訓(xùn)練，為什么需要GPU？

隨著由ChatGPT引發(fā)的人工智能熱潮，GPU成為了AI大模型訓(xùn)練平臺(tái)的基石，甚至是決定性的算力底座。為什么GPU能力壓CPU，成為炙手可熱的主角呢？要回答這個(gè)問(wèn)題，首先需要了解當(dāng)前人工智能（AI

發(fā)表于 04-24 08:05 ?1075次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

上漲，因?yàn)槭聦?shí)表明，它們的 GPU 在訓(xùn)練和運(yùn)行深度學(xué)習(xí)模型方面效果明顯。實(shí)際上，英偉達(dá)也已經(jīng)對(duì)自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型，之前它是一家純粹做 GPU 和游戲的公司，現(xiàn)在除了作為一家云

發(fā)表于 03-21 15:19

應(yīng)用大模型提升研發(fā)效率的實(shí)踐與探索

對(duì)于模型訓(xùn)練，我們可以采用 3D 并行訓(xùn)練的方式來(lái)實(shí)現(xiàn)。將模型參數(shù)和梯度張量劃分為多個(gè)分區(qū)，分配到不同 GPU 卡上進(jìn)行計(jì)算。每張卡負(fù)責(zé)自己

發(fā)表于 02-22 11:47 ?642次閱讀