色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Rail-Only拓撲與PCI Switch:GPU集群間高效通信的核心邏輯

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2025-03-26 10:33 ? 次閱讀

當前AI推理面臨兩大核心矛盾

算力需求激增:大模型應用爆發(如實時交互、多模態生成),企業亟需更低延遲、更高吞吐的推理能力;

資源浪費嚴重:傳統架構下,GPU算力閑置率超30%,長文本處理場景首Token延遲飆升至秒級,用戶體驗流失率增加40%。

DeepSeek-V3/R1的給我們的啟示:混合專家模型(MoE)雖需320卡起步,卻為超大規模云計算廠商提供了差異化競爭力——吞吐效率提升50%,單用戶推理成本降低20%。而對中小客戶,“高性價比”仍是剛需,Dense模型憑借靈活部署穩占80%市場份額。

組網架構的“黃金分割”

行業需求驅動架構革新

分離架構:適合頭部云廠商(如AWS、阿里云),通過獨立優化Prefill(算力密集型)和Decode(帶寬密集型)集群,實現超大規模并發下的極致性能,客戶可溢價30%提供“高端推理服務”。

統一架構:中小廠商的“降本利器”——單網絡支持智能流量調度,硬件投資減少25%,運維成本降低40%,兼容80%現有基礎設施,快速搶占中端市場。

采用星融元CX-N系列交換機+RoCEv2技術,單設備支持400G/800G帶寬,滿足“既要大吞吐又要低延遲”的矛盾需求。

從實驗室到生產線:組網設計的成本與效益平衡

Rail-Only拓撲:4 GPU/組共享PCIe鏈路,服務器內直連減少跳數,適合百卡以下集群,硬件成本降低30%。

wKgZPGfjZk-AVUCAAANHgMm5JfI655.png

GPU服務器內部:每四個GPU作為一組,共享一個并行推理網卡,連接到同一個PCI Switch,兩組GPU之間的通信通過兩個PCI Switch之間的直連通道完成;

GPU服務器之間:同一組號的GPU之間的通信通過交換機直接完成;不同組號的GPU之間的通信,先通過PCI Swtitch將流量路由到另一組的網卡,然后通過交換機完成;

小規模場景:低成本敏捷部署

wKgZO2fjZn6AdNiDAAY3TFpXC4I846.png

每臺推理服務器有8張GPU,2張400G網卡,雙歸連接到兩臺CX732Q-N

16個推理服務器(128張GPU)和2個CX732Q-N組成一個PoD。Prefill和Decode服務器可能屬于不同PoD

可橫向擴展至64個PoD

中大規模場景:性能與擴展性優先

模塊化PoD設計:以512 GPU為單元構建獨立集群,Prefill與Decode服務器同PoD內一跳互聯,時延控制在10μs以內。

橫向擴展能力:可橫向擴展至64個PoD,支持萬卡級集群無縫擴容,滿足云計算平臺彈性需求。

wKgZO2fjZq6ADWM0AAbvJN4vMng448.png

未來展望:開放生態與硬件迭代的雙重助力

盡管DeepSeek尚未開源,但其PD分離架構為行業提供了關鍵思路。未來趨勢將圍繞兩大方向:

軟硬件協同優化:如DPU卸載KV緩存傳輸任務,進一步釋放GPU算力;

邊緣AI輕量化:通過模型剪枝與專用推理芯片,在10卡以下環境中實現MoE模型部署。

【參考文獻】

https://asterfusion.com/a20250306-scale-out/


審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4881

    瀏覽量

    130356
  • PCI
    PCI
    +關注

    關注

    5

    文章

    675

    瀏覽量

    131185
  • AI
    AI
    +關注

    關注

    87

    文章

    33475

    瀏覽量

    274042
  • 組網
    +關注

    關注

    1

    文章

    375

    瀏覽量

    22678
收藏 0人收藏

    評論

    相關推薦

    如何通過Docker和K8S集群實現高效調用GPU

    在有GPU資源的主機安裝,改主機作為K8S集群的Node。
    的頭像 發表于 03-18 16:50 ?297次閱讀
    如何通過Docker和K8S<b class='flag-5'>集群</b>實現<b class='flag-5'>高效</b>調用<b class='flag-5'>GPU</b>

    ADA4511-2: Precision, 40 V, Rail-to-Rail Input and Output Op Amp with DigiTrim Data Sheet adi

    電子發燒友網為你提供ADI(ADI)ADA4511-2: Precision, 40 V, Rail-to-Rail Input and Output Op Amp with DigiTrim
    發表于 01-15 18:47
    ADA4511-2: Precision, 40 V, <b class='flag-5'>Rail-to-Rail</b> Input and Output Op Amp with DigiTrim Data Sheet adi

    小米加速布局AI大模型,搭建GPU萬卡集群

    近日,有消息稱小米正在緊鑼密鼓地搭建自己的GPU萬卡集群,旨在加大對AI大模型的投入力度。據悉,小米的大模型團隊在成立之初就已經擁有了6500張GPU資源,而現在他們正在進一步擴大這一規模。 針對
    的頭像 發表于 12-28 14:25 ?420次閱讀

    分布式通信的原理和實現高效分布式通信背后的技術NVLink的演進

    在進入大模型時代后,大模型發展已是人工智能的核心,但訓練大模型實際上是一項比較復雜的工作,因為它需要大量的 GPU 資源和較長的訓練時間。 此外,由于單個 GPU 工作線程的內存有限,并且許多
    的頭像 發表于 11-18 09:39 ?981次閱讀
    分布式<b class='flag-5'>通信</b>的原理和實現<b class='flag-5'>高效</b>分布式<b class='flag-5'>通信</b>背后的技術NVLink的演進

    華迅光通AI計算加速800G光模塊部署

    ,服務器之間的數據交換需要經過接入交換機、匯聚交換機和核心交換機。這給匯聚交換機和核心交換機帶來了巨大的工作壓力。 三層拓撲:如果采用傳統的三層拓撲,進一步擴大服務器
    發表于 11-13 10:16

    如何構建及優化GPU云網絡

    并從計算節點成本優化、集群網絡與拓撲的選擇等方面論述如何構建及優化GPU云網絡。
    的頭像 發表于 11-06 16:03 ?747次閱讀
    如何構建及優化<b class='flag-5'>GPU</b>云網絡

    GPU服務器AI網絡架構設計

    眾所周知,在大型模型訓練中,通常采用每臺服務器配備多個GPU集群架構。在上一篇文章《高性能GPU服務器AI網絡架構(上篇)》中,我們對GPU網絡中的
    的頭像 發表于 11-05 16:20 ?935次閱讀
    <b class='flag-5'>GPU</b>服務器AI網絡架構設計

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

    不同的線程束以執行不同的指令。指令調度單元負責從指令緩存中取出著色器程序中的操作指令,并將其分配給每個CUDA核心執行。 線程塊的設計為 GPU編程提供了一種高效、靈活和易用的方式來組織和管理并行線程
    發表于 11-03 12:55

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽

    ARMSVE指令集 第5章 邏輯拓撲結構 5.1 環形拓撲方式 5.2 Infnity Fabric 拓撲方式 5.3 網格拓撲方式 5
    發表于 10-15 22:08

    邏輯電路芯片-組合邏輯電路芯片-時序邏輯電路芯片

    GPU、內存控制器等核心部件均大量使用邏輯電路芯片實現復雜的運算和控制功能。 通信設備:路由器、交換機、基站等通信設備中的信號處理、數據轉
    發表于 09-30 10:47

    服務器集群中 IP 地址管理混亂

    ,共同工作以提供更高的性能、可用性和可擴展性。IP 地址則是服務器在網絡中的標識符,用于數據的傳輸和通信。 在服務器集群中,合理的 IP 地址規劃和管理對于確保服務器之間的高效通信、服
    的頭像 發表于 08-01 14:45 ?418次閱讀

    AMD雄心勃勃:計劃構建百萬級GPU超級計算機集群

    在全球科技競賽的舞臺上,AMD近日宣布了一項令人矚目的計劃——打造一個包含多達120萬顆GPU的超級計算機集群。這一宏大的舉措立即引發了業界的廣泛關注,許多人認為,這是AMD為了與英偉達等競爭對手一較高下而邁出的重要一步。
    的頭像 發表于 06-27 14:37 ?839次閱讀

    基于圖撲 HT for Web 實現拓撲關系圖

    拓撲結構在計算機網絡設計和通信領域中非常重要,因為它描述了網絡中的設備(即“點”)如何相互連接(即通過“線”)。這種結構不僅涉及物理布局,即物理拓撲,還可以涉及邏輯或虛擬的連接方式,即
    的頭像 發表于 06-24 14:09 ?760次閱讀
    基于圖撲 HT for Web 實現<b class='flag-5'>拓撲</b>關系圖

    PCI總線PCB設計丨實現高效外圍部件互連的關鍵要素

    總線,所以其具有高帶寬和低延遲的特點,這使得它成為一種高效通信方式。 PCI總線有三種不同的版本,分別是PCIPCI-X和
    發表于 06-07 18:37

    摩爾線程與無問芯穹宣布完成基于GPU千卡集群的3B規模大模型實訓

    摩爾線程聯合無問芯穹宣布,雙方已在本周正式完成基于國產全功能GPU千卡集群的3B規模大模型實訓。
    的頭像 發表于 05-27 10:44 ?665次閱讀
    摩爾線程與無問芯穹宣布完成基于<b class='flag-5'>GPU</b>千卡<b class='flag-5'>集群</b>的3B規模大模型實訓
    主站蜘蛛池模板: 亚洲成人国产 | 69SEX久久精品国产麻豆 | 99免费观看视频 | 人与禽交3d动漫羞羞动漫 | 嗯别插太快好深再深点 | 快播电影频道 | 久久综合狠狠综合狠狠 | 免费毛片试看 | 日日a.v拍夜夜添久久免费 | 恋夜秀场支持安卓版全部视频国产 | 狂躁美女BBBBBB视频 | 午夜噜噜噜私人影院在线播放 | 老色69久久九九精品高潮 | 麻豆区蜜芽区 | 国产香蕉九九久久精品免费 | JLZZJLZZJLZ老师好多的水 jk制服喷水 | 欧美一级黄色影院 | 欧美日本高清动作片www网站 | 女教师公车痴汉在线播放 | 曰批视频免费40分钟不要钱 | 欧洲日韩av无线在码 | 亚洲国产日韩欧美在线a乱码 | 国产精品97久久AV色婷婷综合 | 国产色综合色产在线视频 | 最新中文字幕在线视频 | 使劲别停好大好深好爽动态图 | 2022精品福利在线小视频 | 中文中幕无码亚洲视频 | 欧美日韩亚洲一区二区三区在线观看 | 成人AV无码一二二区视频免费看 | 久久操韩国自偷拍 | 99re久久热在线播放快 | 成人综合在线视频免费观看完整版 | 国产白丝精品爽爽久久久久久蜜臀 | 友田真希息与子中文字幕 | 亚洲精品在线免费 | 国产精品AV视频一二三区 | YIN荡的老师系列第6部分视频 | 洗濯屋H纯肉动漫在线观看 羲义嫁密着中出交尾gvg794 | 亚洲国产欧美国产综合在线 | 99视频在线精品免费观看18 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品