亚洲综合伊人色一区,亚洲xxxxxx,色在线免费

上期我們講到了RDMA的WHY，WHAT & HOW(AI 網絡背景下RDMA的Why，What & How)，這一期我們來談一談RDMA的不足。

在過去30年中，每當我們談論網絡時，無論面對什么問題，答案始終是以太網。為什么?因為它提供了更優的TCO，在可擴展性方面遠超任何競爭技術，并且擁有任何其他技術都無法比擬的生態系統：各個供應商的產品能靈活適配、協同工作。它具備極其成熟的技術和極為巨大的規模經濟優勢。

RDMA網絡是AI/ML部署的關鍵推動者，它允許GPU以高利用率運行，并縮短作業完成時間(JCT)。通過提高效率，RDMA降低了擁有成本，并允許更快的訓練時間，這是微軟、Open AI、Meta等建設AI基礎的關鍵指標。

(圖片來源于網絡)

RoCE(RDMA over converged Ethernet)就是允許通過以太網網絡實現RDMA功能的技術，它同時具備RDMA的高效和以太網的生態優勢，其諸多特性在多種計算場景中發揮了巨大作用。然而，隨著機器學習(ML)和人工智能(AI)的迅猛發展，原本并非針對超大規模集群設計的RDMA技術，在應對成千上萬節點的大規模組網時，其性能逐漸顯現出局限性。隨著Mixture of Experts(MoE)等先進模型結構的出現，模型參數邁入萬億規模。AI網絡正面臨更大規模、更高帶寬、更低延遲的一系列性能需求。那么，現有的RoCE技術在應對這些挑戰時存在哪些不足?展望未來，RoCE技術又將迎來哪些創新和變革?以下是我們對RoCE技術當前局限性和未來發展趨勢的探討。

當前RDMA RoCE的一些技術局限

首先，雖然運用RoCE已經成功實現了許多規模集群的組網，隨著集群規模從萬卡向十萬卡演進，RoCE在大規模集群場景下面臨以下不足：

PFC 需要大量緩沖來實現無損傳輸

優先級流控(PFC)是融合以太網(Converged Ethernet)的核心，為的是能在每個鏈路上實現無損傳輸。使用 PFC 時，接收方會監控可用的輸入緩沖區空間(buffer space)，一旦緩沖空間低于與帶寬-延遲乘積(BDP = BW*RTT)相關的某個閾值，接收端會向發送端發送一個PAUSE幀。此時，BDP/2字節的數據已經在傳輸中，而在發送端接收到PAUSE幀之前，它還會發送另外的BDP/2字節。因此，完全無損傳輸的最小緩沖需求是BDP + MTU(最大傳輸單元)，其中MTU為最大數據包大小。(這還只是數據包在接收端立即被處理的情況，任何一點延遲都會顯著降低鏈路利用率。)

覆蓋PAUSE消息傳輸延遲所需的BDP緩沖空間通常被稱為“余裕緩沖”(headroom buffer)，類似于用于信用機制流量控制的緩沖空間，如InfiniBand或Fibre Channel中使用的流量控制機制。在這些機制中，接收端主動向發送端發送信用額度(緩沖分配)，以保持輸入緩沖區的平衡，而PFC機制則是在緩沖區過滿時才反應。這兩種機制各有優點——信用額度可以主動傳向源頭，而PFC則可以更具反應性(遲綁定)，在為不同的源鏈路分配共享緩沖空間時進行調節。兩種機制本質上都需要為每個鏈路保留BDP的空間，以覆蓋鏈路的往返控制延遲，這部分空間在高效轉發中是無法使用的。

實際上，緩沖空間對于處理變化的流量峰值和進行時間和空間上的負載均衡至關重要。僅僅是所需的余裕緩沖，在不冒丟包風險的情況下無法用于其他用途，這對下一代交換機的擴展帶來了巨大挑戰。

主流的交換機廠商如Broadcom、Marvell和Cisco等都已推出了50T交換機以滿足高帶寬、低時延、零丟包的網絡需求，以RTT 3~5微秒估算，以51.2T(64個800G)的交換機而言，BDP大小約33MB左右。隨著未來交換機吞吐量的增加，buffer size(約可以認為是BDP)也會繼續增加。(見圖a)(圖片展示的buffer size是只考慮交換機吞吐量作為變量的情況，實際RTT也會有所變化)

(圖源：Datacenter Ethernet and RDMA: Issues at Hyperscale)

而隨著傳輸距離的增加，對buffer size的要求也會急劇增加。(見圖b)

受害流、擁塞樹、PFC風暴和死鎖

另一個問題源于 PFC 會暫停整個流量類別以及其中的所有流量。這會導致受害流的出現：假設有兩個流：A和B共享一條鏈路L。A沒有擁塞，可以以全帶寬發送。但B在某個下游端口被阻塞，填滿了L的輸入緩沖區。最終，L 分配的緩沖區會被B的數據包填滿，L會發送一個暫停幀。這一幀也會暫停A，而A本可以獨立傳輸——因此，A因B的暫停而受害。即，未發生擁塞的流可能會受到其他擁塞流的影響。這種現象也被稱為隊首阻塞(Head of Line Blocking)。

由于下游端口的任何擁塞都會填滿上游的緩沖區，除非端點擁塞控制協議做出反應，PFC 事件可以快速形成一個“擁塞樹”，這種擁塞樹會順著受害流在網絡中反向擴展。擁塞樹是無損網絡中的常見問題，有時也被稱為 PFC 風暴。

(圖片來源于網絡)

而且任何具有有限緩沖的無損方案在路由允許形成循環時都會遭遇死鎖問題。

(圖片來源于網絡)

Go-back-N 重傳

RoCE是為遵循 InfiniBand 的有序和基于信用的無損傳輸而設計的非常簡單的硬件。這意味著只有在數據包因比特錯誤而損壞時，才會丟棄數據包，這種情況非常少見。RoCE的重傳邏輯要求所有數據包必須按順序到達數據流中。這意味著第一個數據包必須在第二個數據包之后到達，第三個數據包必須在第二個數據包之后到達，以此類推。但如果數據包在RDMA數據流中丟失，比方說第五個數據包丟失，但后續數據包(六、七、八)已成功傳輸，“Go-back-N”重傳技術會告訴系統，“你丟失了第五個數據包，所以我需要你重新傳輸數據包五、六、七和八?！倍罅康闹貍鲿乐赜绊懢W絡性能。

簡單的 Go-back-N 方案還有一個更大問題是，它不支持多路徑或亂序交付。但支持亂序交付的其他方案則需要等待發送方的超時到期，這可能導致更高的恢復時間和抖動。因此，在設計新的傳輸協議時，必須仔細考慮所有這些權衡。

擁塞控制與其他流量的共存

RoCE 的默認擁塞控制基于一種無損傳輸前提下的速率控制機制。數據中心通常使用 DCQCN、TIMELY和 HPCC 等機制，構建在 RoCE 的基礎上改善流量傳輸。但現在大多數 RoCE 部署使用非標準的擁塞控制機制，需要精細調整許多參數，例如 ECN 閾值、減速因子、時間間隔等，這使得不同供應商，甚至同一供應商的不同硬件代之間的互操作性變得困難。這是因為擁塞控制仍然是一個艱難的問題，不同的工作負載可能需要經過調優的協議版本。

目前不支持智能協議棧

隨著網絡開銷在數據中心工作負載中的重要性日益增加，需要設計出更加智能的協議棧。新興的智能網卡 (Smart NIC) 為這一領域帶來了新的機會，用戶可配置的內核可以在 NIC 上執行數據包和協議處理。

比如論文《sPIN: High-perf ormance streaming Processing In the Network》中提到的“sPIN”新型網絡處理模型，它是一種可編程的網絡接口控制器(NIC)，通過硬件加速在網絡層直接處理數據。支持用戶自定義的程序在數據到達時進行處理，避免數據包先被傳輸到服務器端再處理的延遲。該系統結合了網絡處理器和可編程硬件(如FPGA)的優勢，能夠在數據傳輸過程中執行簡單的計算任務，比如數據壓縮、過濾等操作。

系統層面的問題

隨著鏈路層和端到端延遲的增加，系統也會面臨更多問題。高延遲會導致緩沖區占用增加、能耗上升，并使擁塞控制效率降低。特別是對于那些傳輸速度超過單個往返時間(RTT)的消息，依賴接收端反饋的擁塞控制機制變得無效，導致小消息引發的不良 incast 問題變得更加嚴重或頻繁。

此外，RDMA固有的語義復雜性和安全性問題也應引起關注。暴露進程本地的虛擬地址會引發安全隱患。路由和負載均衡仍然是挑戰，尤其是在數據中心和 HPC 網絡中，不同的系統架構需要不同的機制來優化網絡流量和消息處理順序。

那么，現在有哪些改進思路呢?

RoCE改進建議

改進流控機制

當前的PFC機制由于需要大量緩沖區并且無法精細地管理個別流量，可以通過更加細粒度的流量控制方法來解決這些問題。例如，使用基于流的擁塞追蹤而不是基于優先級的追蹤，可以有效減少受害流現象。同時，通過動態調整擁塞優先級(如擁塞隔離技術)也可以有效緩解擁塞問題。

擁塞管理與路由改進

針對擁塞樹和PFC風暴的問題，可以使用更復雜的流量監控和管理機制，例如在交換機中維護每個流的狀態，以便更好地追蹤擁塞情況。此外，動態調整流量優先級或采用無擁塞路由策略，也可以避免受害流和擁塞樹的產生。

增強重傳機制

針對Go-back-N機制的局限性，可以采用選擇性重傳(Selective re-transmission)或支持亂序傳輸的機制，以減少不必要的數據重傳。例如，最新的RoCE適配器已經引入了選擇性重傳技術，但仍需進一步優化，尤其是在處理多路徑傳輸時。

展望未來

隨著計算任務的復雜性和數據規模的增加，AI網絡面臨的壓力也越來越大。未來的發展方向不僅包括改進現有的RoCE技術，還包括探索新的網絡拓撲、流控和擁塞管理方法。

RoCE技術的進一步發展需要與新的網絡需求相適應，如機密計算、地理復制數據中心和多租戶環境等。這些新興技術和應用場景將推動下一代高性能AI網絡的創新，確保智算中心能夠在極端工作負載下保持高效穩定的運行。

因此，Ultra Ethernet提出了解決RDMA問題的構想，稱之為“Ultra Ethernet Transport”。包括奇異摩爾在內的UEC成員們正在采取一系列措施，目標是建立一個具有高彈性、高性能的令人難以置信的強大網絡，在一個非常穩健的網絡環境中實現超過十萬個節點的可擴展性，并在開放標準框架內運行。(構建更完善、更高效的AI網絡基礎設施：UEC 超以太聯盟最新進展)

Broadcom公司高級副總裁Ram Velaga說，在ML/AI的世界里，不會有一家公司提供所有GPU，也不會有一家公司提供所有互連解決方案。我們實現可擴展性的唯一方法是建立一個生態系統，由多個供應商提供加速器。這個生態系統的生存依賴于構建一個開放的、基于標準的、高性能的和具有成本效益的互連架構。以太網是唯一的選擇，無論是昨天、今天還是明天。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

以太網

以太網

+關注

關注
40

文章
5419

瀏覽量
171598
網絡

網絡

+關注

關注
14

文章
7553

瀏覽量
88729
AI

AI

+關注

關注
87

文章
30728

瀏覽量
268886
云交換機

云交換機

+關注

關注
0

文章
2

瀏覽量
5993
RDMA

RDMA

+關注

關注
0

文章
77

瀏覽量
8945

原文標題：Kiwi Talks | 超大規模下的以太網RDMA的局限與展望

文章出處：【微信號：奇異摩爾，微信公眾號：奇異摩爾】歡迎添加關注！文章轉載請注明出處。

RoCE與IB對比分析（一）：協議棧層級篇

在 AI 算力建設中， RDMA 技術是支持高吞吐、低延遲網絡通信的關鍵。目前，RDMA技術主要通過兩種方案實現：Infiniband和RoCE

發表于 11-15 13:58 ?1069次閱讀

車載以太網基礎培訓——車載以太網的鏈路層#車載以太網

車載以太網

北匯信息POLELINK
發布于 :2023年09月19日 16:25:21

工業以太網交換技術原理

工業以太網交換技術原理【摘要】工業以太網交換技術解決了現場總線網絡的性能局限，為未來更豐富更強大的自動化應用打下堅實的基

發表于 10-20 09:01 ?841次閱讀

快速以太網,快速以太網是什么意思

快速以太網,快速以太網是什么意思一、概述數據傳輸速率為100Mbps的快速以太網是一種高速局域網技術，

發表于 03-22 09:56 ?3857次閱讀

以太網原理及技術基礎

以太網原理及技術基礎

發表于 01-21 12:00 ?16次下載

以太網的分類及靜態以太網交換和動態以太網交換、介紹

以太網交換技術具有許多類型，各自宣傳其具有不同的優點；通過簡單的鼠標即可增加、移動和改變往來落的結構；比網橋和路由器更為有效地進行網絡分段；為高性能工作站或服務器提供高寬帶。網絡管理者渴望采用這些

發表于 10-07 10:06 ?6457次閱讀

千兆以太網發展現狀千兆以太網技術優勢

以太網其實是我們日常生活中都會用到的，比如大家小區里的千兆以太網等。為增進大家對以太網的了解，本文講對千兆以太網的發展現狀、千兆以太網技術優

發表于 03-21 11:30 ?7794次閱讀

用NVIDIA NetQ 4.0.0實現網絡質量和可靠性監測

聚合以太網上的 RDMA ( RoCE ）提供了使用以太網上的遠程直接內存訪問（ RDMA ）而不是使用主機 cpu 來寫入計算或存儲元素的

發表于 04-11 14:25 ?1297次閱讀