色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

NVIDIA GPU助力騰訊PCG加速無量推薦系統

案例簡介

? 本案例中通過使用 NVIDIA GPU 加速平臺，騰訊平臺與內容事業群（PCG）深度學習平臺實現了”無量推薦系統”模型訓練到在線推理的全流程GPU加速，整體效能性價比提升1~3倍。

? 本案例主要應用到 NVIDIA A100 Tensor Core GPU以及相關軟件的加速平臺。

客戶簡介及應用背景

無量推薦系統承載著騰訊平臺與內容事業群的推薦場景，包括：騰訊看點（瀏覽器，QQ看點，商業化），騰訊新聞，騰訊視頻，騰訊音樂，閱文，應用寶，小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別，其中的模型數量達數千個，日均調用服務達到千億級別。

無量推薦系統在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業界領先的體系結構設計。

客戶挑戰

傳統推薦系統具有以下特點：訓練是基于參數服務器的框架，解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN，只能進行DNN的GPU加速。

所以，傳統的推薦系統架構也具有局限性：

大規模分布式架構有大量的額外開銷，比如參數和梯度的網絡收發。

隨著DNN模型復雜性的的進一步提升，CPU的計算速度開始捉襟見肘。

隨著業務的快速增長，日活用戶增多，對其調用數量快速增加，給推薦系統后臺帶來了新的挑戰：

1，模型更加復雜，計算量更大，但是參數服務器的分布式架構有效計算比很低。

2，海量Embedding因為規模龐大，查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。

應用方案

基于以上的挑戰，騰訊選擇使用基于NVIDIA A100 Tensor Core GPU的分布式系統架構來創建無量推薦系統。

1，通過多級存儲和Pipeline優化，在HPC上完成大規模推薦模型的GPU的高性能訓練。

2，基于特征訪問Power-law分布的特性，GPU緩存高頻特征參數，同時從CPU中動態獲取低頻特征參數，實現了大規模推薦模型完整的GPU端到端模型推理。

使用效果及影響

騰訊平臺與內容事業群有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點，新聞推薦的騰訊新聞，視頻推薦的騰訊視頻、微視，App推薦的應用寶，以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務。基于傳統的推薦系統架構，無量使用大量CPU資源，通過分布式架構可以擴展到TB級模型的訓練和部署，取得了巨大的成功。

隨著業務的快速增長，日活用戶增多，對其調用數量快速增加，傳統架構局限性限制了推薦系統的架構擴展和性能提升。

通過使用GPU訓練和推理，單機多卡的GPU算力可以達到數十臺CPU機器的算力，節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding，以及并行算力處理DNN推理，單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。

目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。

展望未來，無量推薦系統將不斷優化推薦模型在GPU上的應用，利用HPC多機多卡，混合精度等能力，進一步提高推薦場景使用GPU的性價比。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4978

瀏覽量
102990
gpu

gpu

+關注

關注
28

文章
4729

瀏覽量
128890

《CST Studio Suite 2024 GPU加速計算指南》

的各個方面，包括硬件支持、操作系統支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關的使用指南和故障排除等內容。 1. 硬件支持 -

發表于 12-16 14:25

日本企業借助NVIDIA產品加速AI創新

日本領先企業和大學正在使用 NVIDIA NeMo、NIM 微服務和 NVIDIA Isaac 加速 AI 創新。

發表于 11-19 14:34 ?282次閱讀

PyTorch GPU 加速訓練模型方法

在深度學習領域，GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架，提供了豐富的工具和方法來利用GPU進行模型訓練。 1. 了解GPU

發表于 11-05 17:43 ?546次閱讀

AMD與NVIDIA GPU優缺點

在圖形處理單元（GPU）市場，AMD和NVIDIA是兩大主要的競爭者，它們各自推出的產品在性能、功耗、價格等方面都有著不同的特點和優勢。一、性能 GPU的性能是用戶最關心的指標之一。在高端市場

發表于 10-27 11:15 ?641次閱讀

GPU加速計算平臺是什么

GPU加速計算平臺，簡而言之，是利用圖形處理器（GPU）的強大并行計算能力來加速科學計算、數據分析、機器學習等復雜計算任務的軟硬件結合系統。

發表于 10-25 09:23 ?245次閱讀

暴漲預警！NVIDIA GPU供應大跳水

gpu

jf_02331860
發布于 :2024年07月26日 09:41:42

NVIDIA加速計算和 AI助力數字銀行揭穿金融欺詐騙局

Bunq 利用 NVIDIA AI 將其欺詐檢測模型的訓練速度提高近百倍。 ? 歐洲新型銀行 Bunq 正在 NVIDIA 加速計算和 AI 的助力下，揭穿金融欺詐者的騙局。被稱為“

發表于 06-27 17:41 ?837次閱讀

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革

關系進一步深化。助力生成式 AI 的企業級應用與發展加速駛入快車道。 HPE Private Cloud AI 是該解決方案的關鍵，開創性地將 NVIDIA AI 計算、網絡和軟

發表于 06-20 17:36 ?711次閱讀

NVIDIA發布DeepStream 7.0，助力下一代視覺AI開發

NVIDIA DeepStream 是一款功能強大的 SDK，能夠提供用于構建端到端視覺 AI 管線的 GPU 加速構建模塊。

發表于 05-23 10:09 ?624次閱讀

NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

—— NVIDIA 于今日宣布將通過開源的 NVIDIA CUDA-Q? 量子計算平臺，助力全球各地的國家級超算中心加快量子計算的研究發展。 ? 德國、日本和波蘭的超算中心將使用該平臺來賦能他們由

發表于 05-13 15:21 ?195次閱讀

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的 NVID

發表于 04-28 10:36 ?549次閱讀

NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。

發表于 04-26 11:25 ?619次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱 Embedding 全置于

發表于 04-20 09:39 ?715次閱讀

NVIDIA將在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”

根據各方信息和路線圖，NVIDIA預計會在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”。

發表于 03-04 09:33 ?1312次閱讀

如何選擇NVIDIA GPU和虛擬化軟件的組合方案呢？

NVIDIA vGPU 解決方案能夠將 NVIDIA GPU 的強大功能帶入虛擬桌面、應用程序和工作站，加速圖形和計算，使在家辦公或在任何地方工作的創意和技術專業人員能夠訪問虛擬化工作

發表于 01-12 09:26 ?1101次閱讀

星星科技指導員
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 使用microchip參考設計開發您的下一個基于USB-C PD的充電器
Hot 所有IC中半導體噪聲的特性如何估算基準電壓源的噪聲

New 微電網系統控制方法和原理
New 飛輪儲能系統的核心及優勢分析

精選推薦
更多

文章

資料

帖子

折疊屏2024的新東西、好東西、舊東西

腦極體
1天前

588 閱讀

艾為車規氛圍燈驅動芯片AW23003QNR-Q1解析已過AEC-Q100認證

艾為之家
1天前

580 閱讀

使用Keithley源表進行DC-DC電源管理芯片效率測試

泰克科技
2天前

831 閱讀

Mate70首銷兩周超越前代！字節掀AI價格戰！本周熱點科技新聞點評

章鷹觀察
2天前

798 閱讀

基于英特爾開發板開發ROS應用

英特爾物聯網
2天前

444 閱讀

諾基亞6300電路圖

lalajie
6666

10積分

903下載

TI Designs Automatic Direction Control RS-485

lydia301
2.70 MB

1積分

0下載

cdy-mars高性能實時數據庫

王蘭
16.83 MB

免費

0下載

LGFFreePT可自由添加到指定位置的分頁標控件

李芳
3.52 MB

免費

0下載

Diy 74HC4051 8 通道多路復用器分線板

chunhuahua
0.03 MB

3積分

21下載

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】+小白折騰瑞薩RA系列全過程02

jf_80431208
1天前

166 閱讀

【敏矽微ME32G070開發板免費體驗】新建工程（MDK）

吉吉祥
2天前

342 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】按鍵點燈：使用輪詢方式和中斷方式實現

jf_64583430
2天前

299 閱讀

淺談加密芯片的一種破解方法和對應加密方案改進設計

jf_38636298
3天前

1081 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】4、Amazon FreeRTOS初探，第一個程序

lustao
3天前

2143 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

NVIDIA GPU助力騰訊PCG加速無量推薦系統

評論

《CST Studio Suite 2024 GPU加速計算指南》

日本企業借助NVIDIA產品加速AI創新

PyTorch GPU 加速訓練模型方法

AMD與NVIDIA GPU優缺點

GPU加速計算平臺是什么

暴漲預警！NVIDIA GPU供應大跳水

NVIDIA加速計算和 AI助力數字銀行揭穿金融欺詐騙局

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革

NVIDIA發布DeepStream 7.0，助力下一代視覺AI開發

NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

利用NVIDIA組件提升GPU推理的吞吐

NVIDIA將在今年第二季度發布Blackwell架構的新一代GPU加速器“B100”

如何選擇NVIDIA GPU和虛擬化軟件的組合方案呢？