網絡協議為計算機網絡中進行數據交換而建立的規則、標準或約定的集合。法律層面上,OSI 七層協議為國際協議。
由于HPC/AI對于網絡高吞吐、低時延的要求,在數據中心中 TCP/IP 逐步過渡到RDMA。RDMA中 包 含 不同 的 分 支 , 其中,Infiniband 專為 RDMA 設計,從硬件級別保證可靠傳輸 ,技術先進,但是成本高昂。而 RoCE 和 iWARP 都是基于以太網的 RDMA技術。
本重點從以下幾方面出發,聊聊交換機和 AI 有什么關系?
Q:什么是協議?
Q:數據中心架構中,交換機有什么用?
Q:英偉達交換機=IB 交換機?
Q:英偉達 SuperPOD 如何理解?
Q:交換機市場現狀?
Q:什么是協議?
網絡協議為計算機網絡中進行數據交換而建立的規則、標準或約定的集合。法律層面上,OSI七層協議為國際協議。20世紀80年代,為了規范化計算機之間的通信方式,從而滿足開放式網絡的需求,OSI(Open System Interconnection)協議被提出,其采用了一種七層網絡。
物理層:解決了硬件之間如何通信,主要功能為定義物理設備標準(如接口類型、傳輸速率等),從而實現比特流(一種以 0、1 表示的數據流)的傳輸。
數據鏈路層:主要功能為幀編碼和誤差糾正控制。具體工作為接受來自物理層的數據,并封裝為幀,然后傳輸到上一層。同樣也可以將來自網絡層的數據拆為比特流傳輸給物理層。之所以能實現糾錯的功能,是因為每幀除了要傳輸的數據外,還包括校驗信息。
網絡層:在節點之間創建邏輯電路,通過 IP 尋找地址(在網絡中每個節點都有一個IP)。這一層傳輸的數據以包為單位。
傳輸層:負責監督數據傳輸的質量,若發生丟包,則應該重新發送。
會話層:主要功能為管理網絡設備的會話連接。
表示層:主要負責數據格式轉換、加密等。
應用層:提供應用接口,可以為用戶直接提供各種網絡服務,完成各種網絡工作。
TCP/IP 是包含各種協議的協議簇,這些協議可以大致分為四層,即應用層、傳輸層、網絡層、數據鏈路層,實際上,TCP/IP協議可以理解做 OSI 七層協議的優化版。
由于 HPC 對于網絡高吞吐、低時延的要求,TCP/IP 逐步過渡到 RDMA。TCP/IP 有幾個主要的缺點:
其一,存在數十微秒的時延。由于 TCP/IP 協議棧在傳輸時,需要多次上下文切換,并依賴 CPU 進行封裝,因此時延較長。
其二,CPU 負載嚴重。TCP/IP 網絡需要主機 CPU 多次參與協議棧內存拷貝,CPU負載與網絡帶寬相關系數過大。
RDMA(遠程內存直接訪問技術,RemoteDirect Memory Access):能直接通過網絡接口訪問內存數據,無需操作系統內核的介入。這允許高吞吐、低延遲的網絡通信,尤其適合在大規模并行計算機集群中使用。
RDMA 未規定全部協議棧,但是對具體的傳輸提出了較高的要求:例如不輕易丟、吞吐量大、延時低等等。RDMA 中包含不同的分支,其中, Infiniband 專為 RDMA 設計,從硬件級別保證可靠傳輸 ,技術先進,但是成本高昂。而 RoCE 和 iWARP 都是基于以太網的RDMA 技術。
Q:數據中心架構中,交換機有什么用?
交換機和路由器工作的層次不同。交換機(Switch)工作在數據鏈路層,基于 MAC(網卡的硬件地址)識別,能完成封裝轉發數據包功能,允許不同的設備間相互通信。路由器(Router)亦稱選徑器,工作在網絡層,實現相互連接,基于 IP 實現尋址,將不同的子網絡相連接。
傳統的數據中心往往使用三層架構,即接入層、匯聚層、核心層,而在小型的數據中心中,可以忽略匯聚層的存在。其中,接入層通常直接與服務器相連,常用的接入交換機常為TOR(Top of Rack)交換機。匯聚層是網絡接入層和核心層的 “中介(中間層)”。核心交換機為進出數據中心的包提供轉發,并為匯聚層提供連接性。
傳統的三層網絡有較為顯著的缺點,并且隨著云計算的發展,這些缺點愈發突出:
帶寬浪費:每組匯聚交換機管理一個 POD(Point Of Delivery),每個 POD 內都是獨立的 VLAN 網絡。匯聚交換機和接入交換機之間通常使用 STP(Spanning Tree Protocol,生成樹協議)。STP 使得對于一個 VLAN 網絡只有一個匯聚層交換機可用,其他的匯聚層是被阻塞的,同時這也導致匯聚層無法水平拓展。
故障域大:由于 STP 的算法,網絡拓撲變更時需要重新收斂,容易發生故障。
時延較長:隨著數據中心的發展,東西向流量大幅增加,而三層架構間服務器之間的通信需要層層經過交換機,造成了較大的時延,且核心交換機和匯聚交換機的工作壓力不斷擴大,性能升級也造成成本的上浮。
葉脊架構優勢明顯,具有扁平化設計、低延遲、具有帶寬高等特點。葉脊網絡(leaf-spine)使得網絡扁平化,其中葉交換機相當于傳統的接入層交換機,脊交換機類似核心交換機。
葉和脊交換機之間通過 ECMP(Equal Cost Multi Path)動態選擇多條路徑。當 Leaf 層的接入端口和上行鏈路都沒有瓶頸時,這個架構就實現了無阻塞(Non blocking)。因為Fabric 中的每個 Leaf 都會連接到每個 Spine,所以,如果一個 Spine 出現問題,數據中心的吞吐性能只會有輕微的下降(SlightlyDegrade)。 Q:英偉達交換機=IB 交換機?
不是。英偉達 Spectrum 和 Quantum 平臺,同時布局了以太網和 IB 交換機。
英偉達 Spectrum 和 Quantum 平臺,同時布局了以太網和 IB 交換機。IB 交換機主要由廠商 mellanox 運營,英偉達于 2020 年成功將其收購。此外,英偉達 Spectrum 平臺的交換機主要基于以太網,旗下產品不斷迭代,2022 年發布的 Spectrum-4 是 400G 交換機產品。
Spectrum-X 針對生成式 AI 所設計,優化了傳統以太網交換機的限制。NVIDIA Spectrum X 平臺的兩個關鍵元素是 NVIDIA Spectrum-4 以太網交換機和 NVIDIA BlueField-3 DPU。
Spectrum-X 的主要優勢包括: 將 RoCE 擴展用于 AI 和自適應路由(AR),以實現 NVIDIA 集合通信庫(NCCL)的最大性能。NVIDIA Spectrum-X 能夠在超大規模系統的負載和規模下實現高達 95% 的有效帶寬。
利用性能隔離來確保在多租戶和多作業環境中,一個作業不會影響另一個作業。
確保在出現網絡組件故障時,網絡架構能夠繼續提供最高性能。
與 BlueField-3 DPU 同步,實現最佳 NCCL 和 AI 性能。
在各種人工智能工作負載下保持一致和穩定的性能,這對實現 SLA 至關重要。
在組網方式中,IB 還是以太網是個重要的問題。目前的市場中,以太網占據了絕大部分的市場份額,但是在一些大規模的運算場景中,IB 又一枝獨秀。ISC 2021 超級計算大會上,在 TOP10 的系統中 IB 占據了 70%的份額,在 TOP100 中 IB 占據 65%的份額。隨著考慮范圍越來越大,IB 的市場份額越來越低。
Spectrum 和 Quantum 平臺針對不同的應用場景。在英偉達的設想中,AI 應用場景可大致分為 AI 云和 AI 工廠,在 AI 云中可以使用傳統以太網交換機和 Spectrum-X 以太網,而在 AI 工廠中則需要使用 NVLink+InfiniBand 的方案。
Q:英偉達 SuperPOD 如何理解?
SuperPOD 是服務器集群,通過將多個計算節點相連,以提供較大的吞吐性能。
以英偉達 DGX A100 SuperPOD 為例,英偉達官方推薦的配置中使用的交換機為 QM9700,能提供 40 個 200G 端口。由于其采用的架構為胖樹(不收斂)架構。在第一層中, DGX A100 服務器共有 8 個接口,分別接入 8 個葉交換機,20 臺服務器組成一個 SU,因此共需8*SU 臺服務器,第二層架構中,由于網絡不收斂,且端口速率一致,因此脊交換機提供的上行端口要大于等于葉交換機的下行端口。因此,1 個 SU 對應 8 臺葉交換機和 5 臺脊交換機,2 個 SU 對應 16 臺葉交換機和 10 臺脊交換機,依此類推。此外,當 SU 數量增至 6 個以上時,官方推薦加入一層核心層交換機。
在 DGX A100 SuperPOD 中,計算網絡的連接中服務器:交換機~1:1.17(以 7 個 SU 為例);但是在 DGX A100 SuperPOD 中,這一比例為 1:0.38。若考慮到存儲器及網絡管理的需求,則 DGX A100 SuperPOD 和 DGX H100 SuperPOD 中服務器:交換機分別為 1:1.34 和 1:0.50。
從端口方面看,在 DGX H100 的推薦配置中,每個 SU 由 31 臺服務器組成。一方面,DGX H100 只有 4 個用于計算的接口,另一方面,在 DGX H100 SuperPOD 中交換機為 QM9700,提供 64 個 400G 端口。
從交換機性能看,DGX H100 SuperPOD 推薦配置中的 QM9700 性能大幅提升。Infiniband 交換機引入了 Sharp 技術。通過聚合管理器在物理拓撲中構造流聚合樹(SAT,Streaming Aggregation Trees),然后由樹中的多臺交換機執行并行運算,可以大幅降低延遲,提高網絡性能。QM8700/8790+CX6 僅最多支持 2 個 SAT,但QM9700/9790+CX7 最多支持 64 個。疊加端口數量增多,因此交換機用量下降。
從交換機價格看,QM9700 價格約為 QM8700/8790 的兩倍。據 SHI 官網數據,Quantum-2 QM9700 單價 3.8 萬美金,Quantum QM8700/8790 分別為 2.3 萬/1.7 萬美金。
交換機市場現狀?
交換機市場短期景氣較好,隨著 AI 發展,市場需求有望進一步擴大,且呈現向高端迭代趨勢。
從格局上看,交換機市場尚為藍海,思科份額較大,Arista 成長迅速。
市場規模方面:2023Q1 全球以太網交換機收入 100.21 億美元,同比+31.5%。其中,200G/400G 交換機收入同比增加 41.3%,100G 交換機收入同比+18.0%。
端口出貨數量方面:2023Q1 出貨 2.29 億個同比+14.8%。其中,200G/400G、100G 端口分別增加 224.2%、17.0%。
競爭格局優于服務器市場,思科一家獨大,Arista成長迅速。據theNextPlatform 測算,2023Q1 思科占據 46%的市場份額,約 46.1 億美元,同比+33.7%。Arista 憑借在數據中心的出色表現,2023Q1 收入11.5 億美元,同比+61.6%。 盈利能力方面,思科和 Arista 毛利率均接近 60%。較優的格局鑄就了產業鏈廠商良好的盈利能力,思科和Arista 的毛利率雖然由略微下降的趨勢,但總體仍保持 60%左右的毛利率。展望后市,我們認為隨著 AI 發展,交換機市場有望持續受益。
審核編輯:湯梓紅
-
計算機
+關注
關注
19文章
7488瀏覽量
87852 -
交換機
+關注
關注
21文章
2637瀏覽量
99535 -
網絡協議
+關注
關注
3文章
267瀏覽量
21534 -
AI
+關注
關注
87文章
30728瀏覽量
268891
原文標題:聊聊AI需要什么樣的交換機?
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論