上期我們講到了RDMA的WHY,WHAT & HOW(AI網絡背景下RDMA的Why,What & How),這一期我們來談一談RDMA的不足。
Ethernet & RDMA
在過去30年中,每當我們談論網絡時,無論面對什么問題,答案始終是以太網。為什么?因為它提供了更優的TCO,在可擴展性方面遠超任何競爭技術,并且擁有任何其他技術都無法比擬的生態系統:各個供應商的產品能靈活適配、協同工作。它具備極其成熟的技術和極為巨大的規模經濟優勢。
RDMA網絡是AI/ML部署的關鍵推動者,它允許GPU以高利用率運行,并縮短作業完成時間(JCT)。通過提高效率,RDMA降低了擁有成本,并允許更快的訓練時間,這是微軟、Open AI、Meta等建設AI基礎的關鍵指標。
(圖片來源于網絡)
RoCE(RDMA over converged Ethernet)就是允許通過以太網網絡實現RDMA功能的技術,它同時具備RDMA的高效和以太網的生態優勢,其諸多特性在多種計算場景中發揮了巨大作用。然而,隨著機器學習(ML)和人工智能(AI)的迅猛發展,原本并非針對超大規模集群設計的RDMA技術,在應對成千上萬節點的大規模組網時,其性能逐漸顯現出局限性。 隨著Mixture of Experts(MoE)等先進模型結構的出現,模型參數邁入萬億規模。AI網絡正面臨更大規模、更高帶寬、更低延遲的一系列性能需求。 那么,現有的RoCE技術在應對這些挑戰時存在哪些不足?展望未來,RoCE技術又將迎來哪些創新和變革?以下是我們對RoCE技術當前局限性和未來發展趨勢的探討。
當前RDMA RoCE的一些技術局限
首先,雖然運用RoCE已經成功實現了許多規模集群的組網,隨著集群規模從萬卡向十萬卡演進,RoCE在大規模集群場景下面臨以下不足:
PFC 需要大量緩沖來實現無損傳輸
優先級流控(PFC)是融合以太網(Converged Ethernet)的核心,為的是能在每個鏈路上實現無損傳輸。 使用 PFC 時,接收方會監控可用的輸入緩沖區空間(buffer space),一旦緩沖空間低于與帶寬-延遲乘積(BDP = BW*RTT)相關的某個閾值,接收端會向發送端發送一個PAUSE幀。此時,BDP/2字節的數據已經在傳輸中,而在發送端接收到PAUSE幀之前,它還會發送另外的BDP/2字節。因此,完全無損傳輸的最小緩沖需求是BDP + MTU(最大傳輸單元),其中MTU為最大數據包大小。(這還只是數據包在接收端立即被處理的情況,任何一點延遲都會顯著降低鏈路利用率。)
覆蓋PAUSE消息傳輸延遲所需的BDP緩沖空間通常被稱為“余裕緩沖”(headroom buffer),類似于用于信用機制流量控制的緩沖空間,如InfiniBand或Fibre Channel中使用的流量控制機制。 在這些機制中,接收端主動向發送端發送信用額度(緩沖分配),以保持輸入緩沖區的平衡,而PFC機制則是在緩沖區過滿時才反應。這兩種機制各有優點——信用額度可以主動傳向源頭,而PFC則可以更具反應性(遲綁定),在為不同的源鏈路分配共享緩沖空間時進行調節。兩種機制本質上都需要為每個鏈路保留BDP的空間,以覆蓋鏈路的往返控制延遲,這部分空間在高效轉發中是無法使用的。
實際上,緩沖空間對于處理變化的流量峰值和進行時間和空間上的負載均衡至關重要。僅僅是所需的余裕緩沖,在不冒丟包風險的情況下無法用于其他用途,這對下一代交換機的擴展帶來了巨大挑戰。
主流的交換機廠商如Broadcom、Marvell和Cisco等都已推出了50T交換機以滿足高帶寬、低時延、零丟包的網絡需求,以RTT 3~5微秒估算,以51.2T(64個800G)的交換機而言,BDP大小約33MB左右。隨著未來交換機吞吐量的增加,buffer size(約可以認為是BDP)也會繼續增加。(見圖a)(圖片展示的buffer size是只考慮交換機吞吐量作為變量的情況,實際RTT也會有所變化)
(圖源:Datacenter Ethernet and RDMA: Issues at Hyperscale)
而隨著傳輸距離的增加,對buffer size的要求也會急劇增加。(見圖b)
受害流、擁塞樹、PFC風暴和死鎖
另一個問題源于 PFC 會暫停整個流量類別以及其中的所有流量。這會導致受害流的出現:假設有兩個流:A和B共享一條鏈路L。A沒有擁塞,可以以全帶寬發送。但B在某個下游端口被阻塞,填滿了L的輸入緩沖區。最終,L 分配的緩沖區會被B的數據包填滿,L會發送一個暫停幀。這一幀也會暫停A,而A本可以獨立傳輸——因此,A因B的暫停而受害。即,未發生擁塞的流可能會受到其他擁塞流的影響。這種現象也被稱為隊首阻塞(Head of Line Blocking)。
由于下游端口的任何擁塞都會填滿上游的緩沖區,除非端點擁塞控制協議做出反應,PFC 事件可以快速形成一個“擁塞樹”,這種擁塞樹會順著受害流在網絡中反向擴展。擁塞樹是無損網絡中的常見問題,有時也被稱為 PFC 風暴 。
(圖片來源于網絡)
而且任何具有有限緩沖的無損方案在路由允許形成循環時都會遭遇死鎖問題。
(圖片來源于網絡)
Go-back-N 重傳
RoCE是為遵循 InfiniBand 的有序和基于信用的無損傳輸而設計的非常簡單的硬件。 這意味著只有在數據包因比特錯誤而損壞時,才會丟棄數據包,這種情況非常少見。RoCE的重傳邏輯要求所有數據包必須按順序到達數據流中。這意味著第一個數據包必須在第二個數據包之后到達,第三個數據包必須在第二個數據包之后到達,以此類推。但如果數據包在RDMA數據流中丟失,比方說第五個數據包丟失,但后續數據包(六、七、八)已成功傳輸,“Go-back-N”重傳技術會告訴系統,“你丟失了第五個數據包,所以我需要你重新傳輸數據包五、六、七和八?!倍罅康闹貍鲿乐赜绊懢W絡性能。
簡單的 Go-back-N 方案還有一個更大問題是,它不支持多路徑或亂序交付。但支持亂序交付的其他方案則需要等待發送方的超時到期,這可能導致更高的恢復時間和抖動。因此,在設計新的傳輸協議時,必須仔細考慮所有這些權衡。
擁塞控制與其他流量的共存
RoCE 的默認擁塞控制基于一種無損傳輸前提下的速率控制機制。數據中心通常使用 DCQCN、TIMELY和 HPCC 等機制,構建在 RoCE 的基礎上改善流量傳輸。但現在大多數 RoCE 部署使用非標準的擁塞控制機制,需要精細調整許多參數,例如 ECN 閾值、減速因子、時間間隔等,這使得不同供應商,甚至同一供應商的不同硬件代之間的互操作性變得困難。這是因為擁塞控制仍然是一個艱難的問題,不同的工作負載可能需要經過調優的協議版本。
目前不支持智能協議棧
隨著網絡開銷在數據中心工作負載中的重要性日益增加,需要設計出更加智能的協議棧。新興的智能網卡 (Smart NIC) 為這一領域帶來了新的機會,用戶可配置的內核可以在 NIC 上執行數據包和協議處理 。
比如論文《sPIN: High-performance streaming Processing In the Network》中提到的“sPIN”新型網絡處理模型,它是一種可編程的網絡接口控制器(NIC),通過硬件加速在網絡層直接處理數據。支持用戶自定義的程序在數據到達時進行處理,避免數據包先被傳輸到服務器端再處理的延遲。該系統結合了網絡處理器和可編程硬件(如FPGA)的優勢,能夠在數據傳輸過程中執行簡單的計算任務,比如數據壓縮、過濾等操作。
系統層面的問題
隨著鏈路層和端到端延遲的增加,系統也會面臨更多問題。高延遲會導致緩沖區占用增加、能耗上升,并使擁塞控制效率降低。特別是對于那些傳輸速度超過單個往返時間(RTT)的消息,依賴接收端反饋的擁塞控制機制變得無效,導致小消息引發的不良 incast 問題變得更加嚴重或頻繁。
此外,RDMA固有的語義復雜性和安全性問題也應引起關注。暴露進程本地的虛擬地址會引發安全隱患。路由和負載均衡仍然是挑戰,尤其是在數據中心和 HPC 網絡中,不同的系統架構需要不同的機制來優化網絡流量和消息處理順序。
那么,現在有哪些改進思路呢?
RoCE改進建議
改進流控機制
當前的PFC機制由于需要大量緩沖區并且無法精細地管理個別流量,可以通過更加細粒度的流量控制方法來解決這些問題。例如,使用基于流的擁塞追蹤而不是基于優先級的追蹤,可以有效減少受害流現象。同時,通過動態調整擁塞優先級(如擁塞隔離技術)也可以有效緩解擁塞問題。
擁塞管理與路由改進
針對擁塞樹和PFC風暴的問題,可以使用更復雜的流量監控和管理機制,例如在交換機中維護每個流的狀態,以便更好地追蹤擁塞情況。此外,動態調整流量優先級或采用無擁塞路由策略,也可以避免受害流和擁塞樹的產生。
增強重傳機制
針對Go-back-N機制的局限性,可以采用選擇性重傳(Selective re-transmission)或支持亂序傳輸的機制,以減少不必要的數據重傳。例如,最新的RoCE適配器已經引入了選擇性重傳技術,但仍需進一步優化,尤其是在處理多路徑傳輸時。
展望未來
隨著計算任務的復雜性和數據規模的增加,AI網絡面臨的壓力也越來越大。未來的發展方向不僅包括改進現有的RoCE技術,還包括探索新的網絡拓撲、流控和擁塞管理方法。
RoCE技術的進一步發展需要與新的網絡需求相適應,如機密計算、地理復制數據中心和多租戶環境等。這些新興技術和應用場景將推動下一代高性能AI網絡的創新,確保智算中心能夠在極端工作負載下保持高效穩定的運行。
因此,Ultra Ethernet提出了解決RDMA問題的構想,稱之為“Ultra Ethernet Transport”。包括奇異摩爾在內的UEC成員們正在采取一系列措施,目標是建立一個具有高彈性、高性能的令人難以置信的強大網絡,在一個非常穩健的網絡環境中實現超過十萬個節點的可擴展性,并在開放標準框架內運行。(構建更完善、更高效的AI網絡基礎設施:UEC 超以太聯盟最新進展)
Broadcom公司高級副總裁Ram Velaga說,在ML/AI的世界里,不會有一家公司提供所有GPU,也不會有一家公司提供所有互連解決方案。我們實現可擴展性的唯一方法是建立一個生態系統,由多個供應商提供加速器。這個生態系統的生存依賴于構建一個開放的、基于標準的、高性能的和具有成本效益的互連架構。以太網是唯一的選擇,無論是昨天、今天還是明天。
-
以太網
+關注
關注
40文章
5419瀏覽量
171598 -
網絡
+關注
關注
14文章
7553瀏覽量
88729 -
AI
+關注
關注
87文章
30728瀏覽量
268886 -
云交換機
+關注
關注
0文章
2瀏覽量
5993 -
RDMA
+關注
關注
0文章
77瀏覽量
8945
原文標題:Kiwi Talks | 超大規模下的以太網RDMA的局限與展望
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論