最新91在线,在线色国产,用力....cao死我

AI集群訓練過程中，參數通過高速互聯網絡在不同的服務器間進行同步交互，這些通信流量具有共同的特征：流量成周期性、流數量少、流量長連接、并行任務間有強實時同步性要求，通信效率取決于最慢的節點，并且AI集群訓練場景下，傳輸的數據量較大。上述的流量特征導致網絡較易出現負載分擔不均、整網吞吐下降的問題，從而影響AI集群訓練的性能。

當前網絡均衡的主流技術有三種，逐流（Flow-based）ECMP均衡、基于子流flowlet均衡和逐包（Packet-based）ECMP均衡。逐流ECMP均衡，是當前最為常用的負載均衡算法，基于流量的五元組進行HASH負載均衡，在流鏈接數量較多的場景下適用，它優勢在于無亂序，劣勢在于流數量較少時，例如AI訓練場景下，存在HASH沖突問題，網絡均衡效果不佳?；谧恿鱢lowlet均衡技術，它依賴于子流之間時間間隔GAP值的正確配置來實現均衡，但由于網路中全局路徑級時延信息不可知，因此GAP值無法準確配置。同時，該技術存在接收端側亂序的問題。逐包（Packet-based）ECMP均衡，理論上均衡度最好，但實際在接收端側存在大量亂序問題，現實中幾乎無使用案例。

現有創新的網絡均衡技術NSLB是面向AI訓練場景量身打造的，根據該場景下的流量特征，將搜集到的整網信息作為創新算路算法的輸入，從而得到最優的流量轉發路徑，實現AI訓練場景下整網流量100%的均衡度和AI訓練性能的提升。

利用12臺GPU服務器（每臺服務器包含1塊型號為Tesla v100S PCIe 32GB的GPU卡），4臺華為交換機組成2級CLOS網絡（其中2臺交換機作為接入層交換機，每臺下掛6臺服務器，使用100GE單端口接入，2臺交換機作為匯聚交換機，每臺與接入層交換機之間使用6個100GE端口互聯）的AI訓練集群，運行開源Tensorflow 深度學習平臺上的VGG16深度學習網絡模型。以下為采用NSLB技術運行單計算任務和多計算任務時，AI訓練性能的提升結果。

Ring算法場景，運行單個計算任務下，使用NSLB技術對比典型ECMP負載分擔技術，AI訓練集性能最高提升113.41%。

Ring算法場景，運行兩個計算任務下，使用NSLB技術對比典型ECMP負載分擔技術，AI訓練集性能最高提升57.29%。

高性能計算、AI模型訓練等應用場景，以及數據中心網絡/云網絡在架構上的發展（資源池化），均要求網絡傳輸排隊時延和吞吐上的進一步性能提升。例如，為了保證性能損失在5%以內，數據庫集群系統要求至少40Gbps的吞吐和3us的網絡RTT。為了達到極低時延的傳輸，應當盡力降低網絡設備上的排隊時延，同時維持接近瓶頸鏈路滿吞吐。

隨著業務發放速度的不斷加快，以及引入了VM、容器等虛擬化技術，網絡流量的不確定性增加。而當前運維手段有限，仍然依靠傳統網管和命令行方式進行查看、監控，分鐘級的網絡監控已經無法滿足業務秒級體驗保障的要求，往往被動感知故障。故障發生后，定位仍主要依賴專家經驗，利用多種輔助工具，逐段定界、逐流分析、抓包定位，效率十分低下。

為了解決上述故障收斂慢的問題，提出了一種基于網絡設備數據面的鏈路故障快速自愈技術，稱為DPFF（Data Plane Fast Failover）。該技術基于轉發芯片的硬件可編程能力構建。DPFF從傳統的基于控制面軟件協議的收斂方式演進到基于數據面硬件極速感知故障和快速換路的收斂方式，并且基于數據面硬件實現遠程通告和快速換路，可達到亞毫秒級（<1ms）的收斂速度，將對業務性能的影響降至最低。該技術為高性能數據庫、存儲以及超算等關鍵應用提供了極致的高可靠性保證和穩定性體驗。

實驗室采用4臺華為交換機組成2級CLOS網絡（其中2臺交換機作為接入層交換機，每臺下掛>2臺服務器，2臺交換機作為匯聚交換機），利用vdbench 測試套件，客戶端服務器與存儲陣列建立兩個連接，每連接8個qp，并發訪問8個SSD磁盤。通過拔光纖模擬鏈路故障。256KB message size，16 threads，write IO , 觀察鏈路故障發送后的IOPS指標。

測試結論：DPFF方案下鏈路故障對IOPS性能幾乎沒有影響，而OSPF協議收斂方案下IOPS出現多秒跌零情況。

利用Benchmarksql測試套件進行在線事務處理模型的測試，又稱TPC-C測試。統計每百毫秒周期內完成的在線事務的數量，通過查看該數量值的變化測試收斂性能對業務性能的影響。模擬鏈路故障，重復測試4次，觀察在線交易事務受影響情況。

測試結論：DPFF收斂方案比傳統的OSPF收斂方案在鏈路故障下，每100ms周期內完成交易事務數量下降減少60%~80%。

計算集群網絡傳統采用CLOS架構，以業界常見的64口盒式交換機為例，3級CLOS架構，最大可支持6.5萬服務器接口，不滿足10E級計算集群規模訴求。如果增加網絡層數則會帶來網絡跳數增加，通信時延不滿足業務需求。

業界針對該問題開展了多樣的架構研究和新拓撲的設計。直連拓撲在超大規模組網場景下，因為網絡直徑短，具備低成本、端到端通信跳數少的特點。以64口盒式交換機構建10萬個節點超大規模集群為例，傳統的CLOS架構需要部署4層組網，端到端通信最大需要跨7跳交換機。使用無阻塞直連拓撲組網，端到端交換機轉發跳數最少只3跳，交換機臺數(整體投資)下降40%。

采用12臺GPU服務器，每臺服務器2塊GPU卡，型號Tesla v100s；2塊CX6-Dx網卡，網卡是100G單端口接入。OSU MPI Benchmark測試AllReduce集合通信操作，DF相對FT組網，任務完成時間最高提升39.47%，總體提升21.63%。

OSU MPI Benchmark測試Alltoall集合通信操作， DF相對FT組網，任務完成時間最高提升56.53%，總體提升49.71%。

隨著高性能網絡的全以太化發展，超融合以太網絡同時承載計算、存儲、管理和虛擬化等多種業務流量。為了追求更極致的性能，不同業務流量之間，極易出現互相干擾現象，競爭網絡側有限的端口轉發資源。

為了解決這個難題，提出超融合智能無損網絡方案，將業務級SLA智能保障技術引入到交換機中，用iLoss-less智能無損算法代替專家經驗，對網絡流量的變化進行基于隊列級捕獲和預測，實現細粒度動態差異化優化。結合不同業務的流量變化情況以及業務特征，實現不同業務流量差異化動態優化保障。

根據實驗室測試，采用3臺華為交換機組成2級Spine-Leaf組網，每臺接入層交換機下掛16臺100GE服務器，Spine與每個Leaf之間采用4個400G互聯(1:1收斂)。在計算和存儲benchmark流量混跑的測試環境下，智能無損算法相比于傳統算法配置，在保持存儲持平前提下，能夠有效降低計算任務的總體完成時間，在測試場景中實現最高20%以上的計算時延降低。

審核編輯：湯梓紅

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴