色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實測報告

麗臺科技 ? 來源:麗臺科技 ? 2025-03-17 11:12 ? 次閱讀

DeepSeek-R1 模型在 4 張 NVIDIA RTX 5880 Ada 顯卡配置下,面對短文本生成、長文本生成、總結概括三大實戰場景,會碰撞出怎樣的性能火花?參數規模差異懸殊的 70B 與 32B 兩大模型,在 BF16 精度下的表現又相差幾何?本篇四卡環境實測報告,將為用戶提供實用的數據支持和性能參考。

1測試環境

e3c22236-fd5d-11ef-9310-92fbcf53809c.png

2測試指標

首次 token 生成時間(Time to First Token, TTFT(s))越低,模型響應速度越快;每個輸出 token 的生成時間(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。

輸出 Token 吞吐量(Output Token Per Sec, TPS):反映系統每秒能夠生成的輸出 token 數量,是評估系統響應速度的關鍵指標。多并發情況下,使用單個請求的平均吞吐量作為參考指標。

首次 Token 生成時間(Time to First Token, TTFT(s)):指從發出請求到接收到第一個輸出 token 所需的時間,這對實時交互要求較高的應用尤為重要。多并發情況下,平均首次 token 時間 (s) 作為參考指標。

單 Token 生成時間(Time Per Output Token,TPOT(s)):系統生成每個輸出 token 所需的時間,直接影響了整個請求的完成速度。多并發情況下,使用平均每個輸出 token 的時間 (s) 作為參考指標。這里多并發時跟單個請求的 TPOT 不一樣,多并發 TPOT 計算不包括生成第一個 token 的時間。

并發數(Concurrency):指的是系統同時處理的任務數量。適當的并發設置可以在保證響應速度的同時最大化資源利用率,但過高的并發數可能導致請求打包過多,從而增加單個請求的處理時間,影響用戶體驗。

3測試場景

在實際業務部署中,輸入/輸出 token 的數量直接影響服務性能與資源利用率。本次測試針對三個不同應用場景設計了具體的輸入 token 和輸出 token 配置,以評估模型在不同任務中的表現。具體如下:

e3e5b386-fd5d-11ef-9310-92fbcf53809c.png

4測試結果

4.1 短文本生成場景

使用 DeepSeek-R1-70B(BF16),單請求吞吐量約 19.9 tokens/s,并發 100 時降至約 9.9 tokens/s(約為單請求的 50%)。最佳工作區間為低并發場景(1-50 并發)。

e3f92af6-fd5d-11ef-9310-92fbcf53809c.pnge40b9d44-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 測試結果圖表

2025 麗臺(上海)信息科技有限公司

本文所有測試結果均由麗臺科技實測得出,如果您有任何疑問或需要使用此測試結果,請聯系麗臺科技(下同)

使用 DeepSeek-R1-32B(BF16),單請求吞吐量達約 39.5 tokens/s,并發 100 時仍保持約 18.1 tokens/s,能夠滿足高并發場景(100 并發)。

e419d346-fd5d-11ef-9310-92fbcf53809c.pnge42e041a-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 測試結果圖表

4.2 長文本生成場景

使用 DeepSeek-R1-70B(BF16),單請求吞吐量約 20 tokens/s,并發 100 時降至約 8.8 tokens/。最佳工作區間為低并發場景(1-50 并發)。

e43cd60c-fd5d-11ef-9310-92fbcf53809c.pnge455e160-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 測試結果圖表

使用 DeepSeek-R1-32B(BF16),單請求吞吐量達約 39.7 tokens/s,并發 250 時仍保持約 10.6 tokens/s,能夠滿足較高并發場景(250 并發)。

e4697df6-fd5d-11ef-9310-92fbcf53809c.pnge4859ad6-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 測試結果圖表

4.3 總結概括場景

使用 DeepSeek-R1-70B(BF16),單請求吞吐量約 18.7 tokens/s,并發 10 時降至約 10.9 tokens/。最佳工作區間為低并發場景(10 并發)。

e4957988-fd5d-11ef-9310-92fbcf53809c.pnge4ab47ea-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-70B(BF16) 測試結果圖表

使用 DeepSeek-R1-32B(BF16),單請求吞吐量達約 37 tokens/s,并發 25 時仍保持約 15.3 tokens/s,能夠滿足中等并發場景(25 并發)。

e4bbca5c-fd5d-11ef-9310-92fbcf53809c.pnge4d18324-fd5d-11ef-9310-92fbcf53809c.png

▲ DeepSeek-R1-32B(BF16) 測試結果圖表

5總結

5.1 測試模型性能

DeepSeek-R1-70B(BF16) 模型表現:

短文本生成:支持 75 并發量,單請求平均吞吐量>10.9 tokens/s

長文本生成:支持 50 并發量,單請求平均吞吐量>12.5 tokens/s

總結概括:支持 10 并發量,單請求平均吞吐量>10.9 tokens/s

DeepSeek-R1-32B(BF16) 模型表現:

短文本生成:支持 100 并發量,單請求平均吞吐量>18.1 tokens/s

長文本生成:支持 250 并發量,單請求平均吞吐量>10.6 tokens/s

總結概括:支持 25 并發量,單請求平均吞吐量>15.3 tokens/s

5.2 部署建議

基于 4 卡 RTX 5880 Ada GPU 的硬件配置下:

推薦優先部署 DeepSeek-R1-32B(BF16) 模型,其在高并發場景下展現出更優的吞吐性能與響應效率;

當業務場景對模型輸出質量有更高要求,且系統并發壓力較低時,建議選用 DeepSeek-R1-70B(BF16) 模型。

5.3 測試說明

本次基準測試在統一硬件環境下完成,未采用任何專項優化策略。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5160

    瀏覽量

    104844
  • 顯卡
    +關注

    關注

    16

    文章

    2490

    瀏覽量

    68721
  • 模型
    +關注

    關注

    1

    文章

    3434

    瀏覽量

    49559
  • DeepSeek
    +關注

    關注

    1

    文章

    690

    瀏覽量

    546

原文標題:4 卡戰 70B/32B!RTX 5880 Ada 跑 DeepSeek-R1 結果如何?

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    如何使用OpenVINO運行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節期間引發了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發的開源推理模型,用于解決需要邏輯推理、數學問題解決和實時決策的任務。
    的頭像 發表于 03-12 13:45 ?871次閱讀
    如何使用OpenVINO運行<b class='flag-5'>DeepSeek-R1</b>蒸餾<b class='flag-5'>模型</b>

    在龍芯3a6000上部署DeepSeek 和 Gemma2大模型

    serve 2.運行deepseek-r1模型 到以下網站選擇不同參數的大模型 https://ollama.com/library/deepseek-r1 新開一個終端執行如下
    發表于 02-07 19:35

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的兩個不同定位的大模型,其核心差異主要體現在目標場景、能力側重和技術優化方向上。以下是二者的實
    發表于 02-14 02:08

    RK3588開發板上部署DeepSeek-R1模型的完整指南

    DeepSeek作為國產AI大數據模型的代表,憑借其卓越的推理能力和高效的文本生成技術,在全球人工智能領域引發廣泛關注。DeepSeek-R1作為該系列最新迭代版本,實現了長文本處理效能躍遷、多模態
    發表于 02-27 16:45

    NVIDIA RTX 5000 Ada顯卡性能實測報告

    單精度浮點運算性能是顯卡一項重要的指標,很多計算都是使用單精度來完成的。從測試結果來看 RTX 5000 Ada 的性能達到了 63.1T,而 RTX A5000 只有 30.5T。由
    的頭像 發表于 12-21 15:58 ?9148次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> 5000 <b class='flag-5'>Ada</b><b class='flag-5'>顯卡</b>性能<b class='flag-5'>實測報告</b>

    RTX 5880 Ada Generation GPU與RTX? A6000 GPU對比

    NVIDIA RTX? 5880 Ada Generation GPU 是目前國內重量級 GPU,基于全新 NVIDIA
    的頭像 發表于 04-19 10:20 ?2711次閱讀
    <b class='flag-5'>RTX</b> <b class='flag-5'>5880</b> <b class='flag-5'>Ada</b> Generation GPU與<b class='flag-5'>RTX</b>? A6000 GPU對比

    芯動力神速適配DeepSeek-R1模型,AI芯片設計邁入“快車道”!

    近期,國產大模型 DeepSeek-R1橫空出世,迅速成為AI領域的焦點。 芯動力在24小時內完成了與DeepSeek-R1模型的適配。 Deep
    的頭像 發表于 02-07 16:55 ?372次閱讀
    芯動力神速適配<b class='flag-5'>DeepSeek-R1</b>大<b class='flag-5'>模型</b>,AI芯片設計邁入“快車道”!

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自發布以來吸引了眾多用戶關注,為了讓 deepin 用戶更好地體驗這一前沿技術,UOS AI 現已適配接入 DeepSeek-R1 端側模型!無需忍受服務器
    的頭像 發表于 02-08 09:52 ?595次閱讀

    DeepSeek-R1本地部署指南,開啟你的AI探索之旅

    R1 2025.01.20 DeepSeek-R1 發布,DeepSeek R1DeepSeek AI 開發的第一代推理
    的頭像 發表于 02-08 10:30 ?4472次閱讀
    <b class='flag-5'>DeepSeek-R1</b>本地<b class='flag-5'>部署</b>指南,開啟你的AI探索之旅

    廣和通支持DeepSeek-R1蒸餾模型

    近期,國產大模型DeepSeek憑借開放性、更低訓練成本、端側部署等優勢,迅速成為增速最快的AI應用之一,推動AI普惠化。目前,廣和通高算力AI模組及解決方案全面支持小尺寸的DeepSeek-
    的頭像 發表于 02-11 09:41 ?361次閱讀

    Deepseek R1模型離線部署教程

    DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發的推理模型DeepSeek-R1采用強化學習進行后訓練,旨在提升推理能力,尤其擅長數學、代碼和自然語言
    的頭像 發表于 02-12 09:37 ?1138次閱讀
    <b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大<b class='flag-5'>模型</b>離線<b class='flag-5'>部署</b>教程

    超星未來驚蟄R1芯片適配DeepSeek-R1模型

    日前,超星未來研發團隊成功完成了驚蟄R1芯片對DeepSeek-R1模型的適配工作,實現了與用戶之間的流暢對話。這一成果標志著超星未來在人工智能芯片和模型優化方面取得了重要進展
    的頭像 發表于 02-13 14:05 ?325次閱讀

    宇芯基于T527成功部署DeepSeek-R1

    近日,宇芯成功在全志T527 Linux系統上本地部署并運行了DeepSeek-R1 1.5B模型
    的頭像 發表于 02-15 09:06 ?605次閱讀
    宇芯基于T527成功<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>

    行芯完成DeepSeek-R1模型本地化部署

    近日,行芯正式宣布完成 DeepSeek-R1模型本地化部署,實現在多場景、多產品中應用。解鎖“芯”玩法,開啟“芯”未來!
    的頭像 發表于 02-24 15:17 ?382次閱讀

    在英特爾哪吒開發套件上部署DeepSeek-R1的實現方式

    隨著人工智能技術的快速發展,企業對 AI 模型部署方式有了更多選擇。本地部署 DeepSeek-R1 模型具有以下顯著優勢,使其成為許多企
    的頭像 發表于 03-12 13:38 ?242次閱讀
    在英特爾哪吒開發套件上<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>的實現方式
    主站蜘蛛池模板: 97久久超碰中文字幕 | 动漫美女被到爽了流 | 国产精品成人自拍 | 最近最新中文字幕MV高清在线 | 亚洲免费国产在线日韩 | yellow2019在线观看视频 | 午夜深情在线观看免费 | YY600800新视觉理论私人 | 亚洲精品久久久一区 | 2012中文字幕手机在线 | 色AV色婷婷96人妻久久久 | 女人麻豆国产香蕉久久精品 | 春药按摩人妻中文字幕 | 黄色片中文 | 欧美性暴力变态xxxx | 国产成人精品自线拍 | 羲义嫁密着中出交尾gvg794 | 伊人精品久久久大香线蕉99 | 美女张开腿让男人桶爽无弹窗 | 三叶草未满十八岁 | 耽美肉文 高h失禁 | 李丽莎与土豪50分钟在线观看 | 丰满人妻妇伦又伦精品APP国产 | 欧美日韩一区不卡在线观看 | 全彩无翼污之邪恶女教师 | 99久久精品一区二区三区 | 精品视频久久久久 | 秋霞午夜一级理论片久久 | 麻美ゆま夫の目の前で犯 | 免费a毛片 | 99亚洲精品自拍AV成人软件 | 亚洲不卡一卡2卡三卡4卡5卡 | 国产午夜视频在永久在线观看 | 少妇第一次交换 | 国产呻吟久久久久久久92 | 亚洲国产高清在线观看视频 | 哪里能看毛片 | 国拍自产精品福利区 | 色屁屁影院 | 久久久久999 | 久久久无码精品亚洲日韩按摩 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品