色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR能夠高效地利用GPU來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:40 ? 次閱讀

1. Introduction

HugeCTR 能夠高效地利用 GPU 來(lái)進(jìn)行推薦系統(tǒng)的訓(xùn)練,為了使它還能直接被其他 DL 用戶(hù),比如 TensorFlow 所直接使用,我們開(kāi)發(fā)了 SparseOperationKit (SOK),來(lái)將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶(hù)在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來(lái)加速他們的推薦系統(tǒng)。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換,最后將計(jì)算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶(hù)已有的代碼,以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據(jù)業(yè)界中的實(shí)際需求提供了對(duì)應(yīng)的新解決方案,比如說(shuō) GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來(lái)作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標(biāo)準(zhǔn)模型 DLRM 來(lái)對(duì) SOK 的性能進(jìn)行測(cè)試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測(cè)試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓(xùn)練速度以及更高的吞吐量。

3. API

SOK 提供了簡(jiǎn)潔的、類(lèi) TensorFlow 的 API;使用 SOK 的方式非常簡(jiǎn)單、直接;讓用戶(hù)通過(guò)修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側(cè)是使用 TensorFlow 的 API 來(lái)搭建模型,右側(cè)是使用 SOK 的 API 來(lái)搭建相同的模型。使用 SOK 來(lái)搭建模型的時(shí)候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對(duì)應(yīng)的 API 即可。

2. 使用 Horovod 來(lái)定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側(cè)是使用 TensorFlow 來(lái)定義 training loop,右側(cè)是使用 SOK 時(shí),training loop 的定義方式。可以看到,使用 SOK 時(shí),只需要對(duì) Embedding Variables 和 Dense Variables 進(jìn)行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來(lái)定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類(lèi)似的,還可以使用 TensorFlow 自帶的通信工具來(lái)定義 training loop。

4. 開(kāi)始訓(xùn)練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開(kāi)始訓(xùn)練過(guò)程時(shí),使用 SOK 與使用 TensorFlow 時(shí)所用代碼完全一致。

4. 結(jié)語(yǔ)

SOK 將 HugeCTR 中的高級(jí)特性包裝為 TensorFlow 可以直接使用的模塊,通過(guò)修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進(jìn)設(shè)計(jì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4753

    瀏覽量

    129062
  • SOK
    SOK
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6338

原文標(biāo)題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU是如何訓(xùn)練AI大模型的

    在AI模型的訓(xùn)練過(guò)程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái),AI部落小編帶您了解GPU是如何訓(xùn)練AI大模型的。
    的頭像 發(fā)表于 12-19 17:54 ?151次閱讀

    如何利用地物光譜進(jìn)行地利用分類(lèi)?

    在土地利用分類(lèi)領(lǐng)域,地物光譜技術(shù)正發(fā)揮著日益重要的作用。下面就為大家簡(jiǎn)要介紹如何利用地物光譜進(jìn)行地利用分類(lèi): 1.地物光譜數(shù)據(jù)采集: 使用專(zhuān)業(yè)光譜儀對(duì)不同地物
    的頭像 發(fā)表于 12-13 14:44 ?113次閱讀
    如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進(jìn)行</b>土<b class='flag-5'>地利用</b>分類(lèi)?

    訓(xùn)練AI大模型需要什么樣的gpu

    訓(xùn)練AI大模型需要選擇具有強(qiáng)大計(jì)算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時(shí),需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?154次閱讀

    NPU與GPU的性能對(duì)比

    它們?cè)诓煌瑧?yīng)用場(chǎng)景下的表現(xiàn)。 一、設(shè)計(jì)初衷與優(yōu)化方向 NPU : 專(zhuān)為加速AI任務(wù)而設(shè)計(jì),包括深度學(xué)習(xí)和推理。 針對(duì)神經(jīng)網(wǎng)絡(luò)的計(jì)算模式進(jìn)行了優(yōu)化,能夠高效地執(zhí)行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專(zhuān)門(mén)的內(nèi)存體系結(jié)構(gòu)和數(shù)據(jù)流優(yōu)化策略,對(duì)深度學(xué)習(xí)任務(wù)的處理特別
    的頭像 發(fā)表于 11-14 15:19 ?1268次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和方法來(lái)
    的頭像 發(fā)表于 11-05 17:43 ?584次閱讀

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?342次閱讀

    GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢(shì)具體體現(xiàn)在哪些方面?

    能力特別適合于深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算和高維度數(shù)據(jù)處理,這些是AI訓(xùn)練中常見(jiàn)的計(jì)算密集型任務(wù)。 2、高效的數(shù)據(jù)處理:AI訓(xùn)練通常涉及大量的數(shù)據(jù),GPU服務(wù)器
    的頭像 發(fā)表于 09-11 13:24 ?449次閱讀

    蘋(píng)果承認(rèn)使用谷歌芯片來(lái)訓(xùn)練AI

    蘋(píng)果公司最近在一篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型,是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域,大型科技公司正積極探索并實(shí)踐著英偉達(dá)
    的頭像 發(fā)表于 07-30 17:03 ?748次閱讀

    SOK在手機(jī)行業(yè)的應(yīng)用案例

    通過(guò)封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡(jiǎn)稱(chēng) SOK)使得 TensorFlow 用戶(hù)可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化加速 GPU 上的分布式 Embed
    的頭像 發(fā)表于 07-25 10:01 ?368次閱讀
    SOK在手機(jī)行業(yè)的應(yīng)用案例

    llm模型訓(xùn)練一般用什么系統(tǒng)

    LLM(Large Language Model,大型語(yǔ)言模型)是近年來(lái)在自然語(yǔ)言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計(jì)算資源和數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。以下是關(guān)于LLM模型訓(xùn)練
    的頭像 發(fā)表于 07-09 10:02 ?430次閱讀

    如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    ,使得神經(jīng)網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和仿真變得更加便捷。本文將詳細(xì)介紹如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,包括網(wǎng)絡(luò)創(chuàng)建、數(shù)據(jù)預(yù)處理、訓(xùn)練過(guò)程、參數(shù)調(diào)
    的頭像 發(fā)表于 07-08 18:26 ?1930次閱讀

    如何提高自動(dòng)駕駛汽車(chē)感知模型的訓(xùn)練效率和GPU利用

    由于采用了多攝像頭輸入和深度卷積骨干網(wǎng)絡(luò),用于訓(xùn)練自動(dòng)駕駛感知模型的 GPU 內(nèi)存占用很大。當(dāng)前減少內(nèi)存占用的方法往往會(huì)導(dǎo)致額外的計(jì)算開(kāi)銷(xiāo)或工作負(fù)載的失衡。
    的頭像 發(fā)表于 04-29 09:12 ?931次閱讀
    如何提高自動(dòng)駕駛汽車(chē)感知模型的<b class='flag-5'>訓(xùn)練</b>效率和<b class='flag-5'>GPU</b><b class='flag-5'>利用</b>率

    AI訓(xùn)練,為什么需要GPU

    隨著由ChatGPT引發(fā)的人工智能熱潮,GPU成為了AI大模型訓(xùn)練平臺(tái)的基石,甚至是決定性的算力底座。為什么GPU能力壓CPU,成為炙手可熱的主角呢?要回答這個(gè)問(wèn)題,首先需要了解當(dāng)前人工智能(AI
    的頭像 發(fā)表于 04-24 08:05 ?1075次閱讀
    AI<b class='flag-5'>訓(xùn)練</b>,為什么需要<b class='flag-5'>GPU</b>?

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    上漲,因?yàn)槭聦?shí)表明,它們的 GPU訓(xùn)練和運(yùn)行 深度學(xué)習(xí)模型 方面效果明顯。實(shí)際上,英偉達(dá)也已經(jīng)對(duì)自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型,之前它是一家純粹做 GPU 和游戲的公司,現(xiàn)在除了作為一家云
    發(fā)表于 03-21 15:19

    應(yīng)用大模型提升研發(fā)效率的實(shí)踐與探索

    對(duì)于模型訓(xùn)練,我們可以采用 3D 并行訓(xùn)練的方式來(lái)實(shí)現(xiàn)。將模型參數(shù)和梯度張量劃分為多個(gè)分區(qū),分配到不同 GPU 卡上進(jìn)行計(jì)算。每張卡負(fù)責(zé)自己
    的頭像 發(fā)表于 02-22 11:47 ?642次閱讀
    應(yīng)用大模型提升研發(fā)效率的實(shí)踐與探索
    主站蜘蛛池模板: 女人高潮久久久叫人喷水| 亚洲人成电影网站在线观看| 人妻插B视频一区二区三区| 涩涩电影网| 亚洲欧洲日韩国产一区二区三区| 诱咪youmiss| 草莓西瓜樱桃香蕉直播视频| 国产久久亚洲美女久久| 久久婷婷五月综合色丁香| 日本久久不射| 野花视频在线观看免费| 办公室韩国电影免费完整版| 国语自产拍在线视频普通话| 内射爽无广熟女亚洲| 亚洲 欧美 日韩 精品 自拍| 97国产蝌蚪视频在线观看| 国产免费福利在线视频| 男人插曲女人身体视频| 亚洲 欧美 中文 日韩 另类| 中文字幕在线免费观看视频| 粉嫩自拍 偷拍 亚洲| 久久爱狠狠综合网| 日韩欧美一区二区三区在线| 亚洲网站视频在线观看| 把腿张开JI巴CAO死你H教室| 精品国产在线手机在线| 日日射日日操| 6080yy亚洲久久无码| 国产婷婷一区二区在线观看| 欧美高清videossexo| 亚洲破处女| 国产360激情盗摄全集| 美女伊人网| 亚洲欧美免费无码专区| 成人伊人青草久久综合网| 久久综合老色鬼网站| 羞羞漫画在线播放| www精品一区二区三区四区| 久久国语精品| 亚洲1卡二卡3卡4卡新区在线| jjzz韩国|