“沒有好網絡,別玩大模型?!?/p>
隨著AI大模型“百花齊放”,底層的算力需求與日俱增。目前,AI大模型的訓練參數已飆升至萬億級別,如此龐大的訓練任務無法由單個服務器完成,需要大量服務器作為節點,通過高速網絡組成算力集群,相互協作完成任務。這些服務器通過網絡相連接,不斷交換數據。
AI大模型需要一個超大規模、超高帶寬、超強可靠的網絡,為訓練提供強有力的支持。因此,高性能與高可用的網絡對 AI 大模型的構建尤為重要。
高性能網絡并非一蹴而就,其背后需要有從架構設計到芯片方案等諸多細節的配合。本文盤點了部分互聯網廠商、設備廠商、芯片廠商以及運營商在AI大模型底層網絡支撐方面所做的工作與進展。
*以下公司排名不分先后
互聯網公司
騰訊云
4月,騰訊云發布了新一代HCC高性能計算集群,為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。6月,騰訊云進一步披露了HCC高性能計算集群背后的網絡底座——星脈。
星脈是騰訊云數據中心網絡架構的第三次進化,具備3.2T 通信帶寬,能提升 40% 的 GPU 利用率,節省 30%~60% 的模型訓練成本,進而為 AI 大模型帶來 10 倍通信性能提升?;隍v訊云HCC,可支持 10 萬卡的超大計算規模。
據介紹,騰訊對大模型集群網絡做了以下幾大優化:
1. 采用高性能 RDMA 網絡。騰訊自研的星脈 RDMA 網絡,可以讓 GPU 之間直接進行數據通信,CPU 資源得以節省,從而提高計算節點的整體性能和效率。
2. 自研網絡協議TiTa。騰訊云通過自研端網協同協議 TiTa ,使星脈網絡可以實現 90% 負載 0 丟包。TiTa 協議內嵌擁塞控制算法,以實時監控網絡狀態并進行通信優化,使得數據傳輸更加流暢且延遲降低。
3. 定制化高性能集合通信庫 TCCL。騰訊云為星脈定制了高性能集合通信庫 TCCL,相對業界開源集合通信庫,可以提升 40% 左右的通信性能。
4. 多軌道網絡架構。星脈網絡對通信流量做了基于多軌道的流量親和性規劃,使得集群通信效率達 80% 以上。
5. 異構網絡自適應通信。星脈網絡將機間(網卡 + 交換機)、機內(NVLink/NVSwitch 網絡、PCIe 總線網絡)兩種網絡同時利用起來,達成異構網絡之間的聯合通信優化,使大規模 All-to-All 通信在業務典型 message size 下的傳輸性能提升達 30%。
6. 自研全棧網絡運營系統。騰訊云自研了端到端全棧網絡運營系統,實現了端網部署一體化以及一鍵故障定位,提升高性能網絡的易用性,進而通過精細化監控與自愈手段,提升可用性,為極致性能的星脈網絡提供全方位運營保障。
阿里云
面對日益爆發的算力需求,簡單粗暴的硬件堆砌已不可持續。為此,阿里云基礎設施推出低延時、高帶寬、可線性擴展的“磐久高性能網絡PredFabric”。
磐久PredFabric采用自研的Solar-RDMA高速網絡協議,使處理器可以通過load/store指令訪問其他任意服務器的內存,非常適合深度學習模型內神經網絡的交互形態,相比傳統模式故障自愈時間和長尾時延均可降低90%。同時,結合網絡協議硬件化、芯片化,使整體性能得到極大提升,延時最低可至2微秒,并實現高算力下網絡規模的線性擴展。
基于這套超高性能網絡技術及軟硬一體化能力,同年阿里云推出了新一代高性能AI訓練計算平臺——靈駿。據悉靈駿可最小化所有非計算開銷,實現5倍的通信性能提升,千卡并行計算效率高達90%。
此外,靈駿還具有以下特點:
一云多芯:支持國產化CPU/GPU芯片,通過自研“共中心架構”,解決多芯融合及跨代兼容問題。
融合算力池:基于云原生技術體系,實現異構算力資源池化(eGPU),使資源利用率提升3倍,最小化數據搬遷成本,加速AI研發過程;多元化算力支持混合負載,滿足人工智能等多領域應用混合部署。
深度性能優化:建立萬卡級計算系統的通信與調度能力。自研RDMA高速網絡架構,將時延顯著降低90%;自研通信庫(C4),結合自研硬件,對超大規模AI計算系統提供無擁塞、高性能的通信環境;針對數據密集型場景,通過自研系統軟件KSpeed,最高可將系統IO性能提升10倍。
綠色低碳:支持自研單相浸沒液冷技術,PUE最低可至1.09,能耗最高可降低50%。
據悉,阿里云在張北和烏蘭察布分別建設有兩座超級智算中心,規模超過了谷歌和特斯拉。不僅如此,阿里還擁有自研的芯片含光800和倚天710,能夠為AI大模型提供算力支撐。
百度云
早在 2021 年 6 月,為了滿足未來的大模型訓練任務,百度智能云開始規劃全新的高性能 GPU 集群的建設,聯合英偉達共同完成了可以容納萬卡以上規模的 IB 網絡架構設計,集群中節點間的每張 GPU 卡都通過 IB 網絡連接, 并在 2022 年 4 月將集群建設完成,提供單集群 EFLOPS 級別的算力。
2023 年 3 月,文心一言大模型在這個高性能集群上誕生,并不斷迭代出新的能力。目前,這個集群的規模還在不斷擴大。與此同時,大模型訓練對網絡也提出了要求。百度 AI 高性能網絡的三大目標:超大規模、超高帶寬以及超長穩定。
百度AI 高性能網絡 AIPod有約 400 臺交換機、3000 張網卡、10000 根線纜和 20000 個光模塊。其中僅線纜的總長度就相當于北京到青島的距離。AIPod 網絡采用 3 層無收斂的 CLOS 組網結構。
AIPod 網絡采用了 8 通道的架構,每個服務器上的 8 個網口對應 8 個 GPU,分別連接 8 個不同的 Leaf 交換機,每個通道內 Spine 交換機和 Leaf 交換機之間做 fullmesh 全互聯,一個集群最大可以支持超過 16K GPU。跨通道的通信通過 SuperSpine 把不同的通道的 Spine 交換機連接起來,打通各個通道。
在帶寬方面,為了減少跨交換機的通信,AIPod采用了網絡架構感知的方法,允許上層感知到當前 GPU 在網絡架構的什么位置,歸屬于哪一個匯聚,讓訓練任務調度的時候把同一個任務盡可能調度在同一個匯聚組下。當通信不在一個匯聚組內時,通過匯聚組信息對全局 GPU 做有序化處理,讓通信庫在構建 Allreduce 拓撲圖時,減少跨交換機的互通流量。
在穩定性方面,AIPod 網絡著重構建快速從硬件故障中恢復的能力。其基于百度自研交換機設計了 AIPod 網絡的黑盒探測機制,保障各種網絡問題被第一時間感知。此外還通過基于百度自研交換機的 Telemetry 遙測技術,搭建了無損網絡的性能透視平臺,確保網絡內的任一丟包信息和 PFC、緩存的異常變化都能被迅速感知到。
谷歌
谷歌從2016年推出TPU v1開始布局AI模型算力,TPU v4的算力水平全球領先。與傳統處理器不同,TPU v4 沒有專用的指令緩存,它采用類似于 Cell 處理器的直接內存訪問 (DMA) 機制。
TPU v4利用了OCS 來快速實現不同的芯片互聯拓撲。OCS 能夠動態重新配置其互連拓撲,以提高規模、可用性、利用率和性能。與 Infiniband 相比,OCS 的成本更低、功耗更低、速度更快。TPU v4主要與Pod相連發揮作用,每一個TPU v4 Pod中有4096個TPU v4單芯片,得益于OCS獨特的互連技術,能夠將數百個獨立的處理器轉變為一個系統。
8月29日,谷歌宣布推出新一代TPU v5e ,與 TPU v4 相比,TPU v5e 可為LLM和新一代 AI 模型提供高達 2 倍的訓練性能和高達 2.5 倍的推理性能,并且成本還不到 TPU v4 的一半。
在NSDI2022會議上,谷歌發布了數據中心分布式交換架構Aquila。Aquila將超低延遲作為核心設計目標,同時也支持傳統的數據中心業務。Aquila使用了一種新的二層基于單元的協議、GNet、一個集成交換機和一個定制的ASIC,ASIC和GNet一同設計,并具有低延遲遠程存儲訪問(RMA)。
此前,谷歌還提出了下一代人工智能架構 “Pathways” 。Pathways旨在提高異構AI加速芯片集群上的數據處理效率。隨著大模型語料規模、算力規模、參數規模的不斷上升,簡單的數據并行(將數據分成不同份,每份在一個計算集群上進行訓練)已難以滿足大模型訓練的需求,例如PaLM即采用了數據并行與模型并行(將模型按層分成不同份,每份在一個計算集群上進行訓練)相結合的方式提升訓練效率。
Meta
近日,MIT和Meta團隊發布了名為“Rail-Only”的全新大語言模型架構設計,對專門用于訓練大型語言模型的 GPU 集群的傳統any-to-any網絡架構提出了挑戰。
Rail-Only架構通過將GPU分組,組成一個高帶寬互聯域(HB域),然后再將這些HB域內的特定的GPU跨接到特定的Rail交換機,雖然增加了跨域通信的路由調度復雜度,但是通過合理的HB域和Rail交換機設計,整體架構可以大量減少交換機的使用,最多可以降低75%的網絡通信耗費。
與傳統的Rail-Optimized GPU集群相比,Rail-Only保留了HB域,并僅在同一Rail上提供連接。實現Rail-Only架構的一個簡單方法是,刪除傳統基于Rail-Optimized的any-to-any網絡架構中的Spine交換機,并將連接Rail交換機到Spine的所有上行鏈路重新用作到GPU的下行鏈路。因此,每個Rail都由專用且獨立的Clos網絡連接。Rail-Only網絡架構消除了不同Rail中具有不同等級GPU之間的網絡連接。
未來,Meta還將針對人工智能工作負載開發新的數據中心架構,以及開發用于運行人工智能模型的自研定制芯片。新數據中心將采用人工智能優化設計,支持液冷人工智能硬件和高性能人工智能網絡,將數千個人工智能芯片連接在一起,形成數據中心規模的人工智能訓練集群。
此外,Meta表示正在開發人工智能超級計算機,以支持下一代人工智能模型的訓練、增強現實工具并支持實時翻譯技術。
設備廠商
華為
華為CloudFabric智能無損網絡通過AI Ready的硬件架構及AI智能無損算法,為AI人工智能、存儲、HPC高性能計算等應用場景提供提供“無丟包、低時延、高吞吐”的網絡環境,加速計算和存儲的效率。
邊緣網絡級智能采用獨創擁塞調度算法:動態擁塞水線、虛擬輸入隊列和快速擁塞反饋,實現定時獲取流量特征、網絡狀態實時監測和動態基線智能調整。
核心計算級智能采用華為獨創iLossless智能無損算法,該算法采用逐流業務感知,不僅可以感知網絡的PFC幀數、隊列出口利用率等,還可以感知業務的AI訓練、高性能數據庫等。
iLosslessTM 智能無損交換算法
此外,華為還面向AI智算場景推出了星河AI網絡。星河AI網絡通過獨創的網絡級負載均衡(NSLB)、網絡智能調優AI ECN以及數據面故障快速收斂等創新技術,為客戶打造高吞吐、低時延、高可靠的AI智算網絡。
星河AI網絡融合運得多、運得快、運得穩三大優勢,為客戶提供了大規模、高吞吐、高可靠的網絡建設。目前,華為星河AI網絡解決方案已在全球100+個人工智能計算中心成功商用部署。
運得多:大帶寬,大組網。AI大模型中適配萬卡集群是網絡最基本的要求,華為打造端到端200GE/400GE設備構建大帶寬AI無損網絡,4倍于業界規模,完美匹配AI場景訴求,支撐網絡運得多。
運得快:高吞吐,性能加速。華為采用算網一體化的方式部署,效率可以提升10倍以上,整個過程自動校驗0配置差錯。獨創AI網絡加速器,大大提高網絡吞吐,保障網絡運得快。
運得穩:月級訓練不中斷。大規模高性能網絡的運維是一大難題,華為采用智能化運維保證訓練全程實時可視,分鐘級識別慢主機(丟包、超時延),保障集群持續穩定運行,月級訓練無中斷,護航網絡運得穩。
華為在各單點創新的基礎上,充分發揮云、計算、存儲、網絡、能源的綜合優勢,進行架構創新,以“DC as a Computer”的理念推出昇騰AI集群。目前,昇騰AI集群已支撐全國25個城市的人工智能計算中心建設,其中7個城市公共算力平臺入選首批國家“新一代人工智能公共算力開放創新平臺”。
近期,華為宣布昇騰AI集群全面升級,集群規模從最初的4000卡集群擴展至16000卡,是業界首個萬卡AI集群,擁有更快的訓練速度和30天以上的穩定訓練周期。
思科
AI大模型的爆發開辟了構建AI算力的新戰場,這對網絡也提出了全新的要求。思科正在通過 Silicon One 芯片和網絡架構的創新,幫助客戶構建面向未來的高性能、可擴展且高效率的新一代 AI 數據中心網絡。思科 Silicon One 的統一芯片架構優點使得客戶可以通過軟件定義的方式將 AI 數據中心網絡配置成為三種模式:1)基于 ECMP 的標準以太網;2)增強以太網;3)全調度分布交換(Distributed Switch Fabric, DSF)以太網(VOQ+逐包負載分擔)
Silicon One 可以靈活支持多種架構,客戶不需要在網絡建設的第一天就固化技術演進路線圖,可以根據業務的不斷發展采集網絡傳輸的實際數據,并做出數據驅動的技術決策。而 Silicon One 的 P4 可編性程架構通過軟件迭代持續支持未來不同 AI 模型業務的需求與發展。
為了分析不同網絡架構對 AI 任務的執行效能的影響,思科創建了一個小型訓練集群模型,其中包含 256 個 GPU、八個架頂 (TOR) 交換機和四個主干(SPINE)交換機。通過使用一個 all-to-all 集約通訊來傳輸 64MB 的集約數據,通過改變網絡上同時運行的 AI 任務數量,以及 TOR 到 SPINE 設備互聯鏈路帶寬的加速比來測量最終 AI 作業完成時間(JCT)以考察不同網絡架構的性能差異。
另一方面,DSF 網絡架構提供了完全無阻塞的通訊性能,并且網絡不會暫停 GPU 發送流量。這意味著對于相同的物理網絡,采用 DSF 架構可連接的 GPU 數量是 ECMP 以太網架構的兩倍。這大大地提高了網絡的效率、降低了成本。
此外,思科 Silicon One 同樣可以支持遙測(INT)增強的 AI 以太網架構, 這種架構的目標是通過在數據包內部插入沿途網絡設備的數據擁塞位置與程度的信息,向收發側的服務器或采集器節點發出業務路徑、擁塞信號,從而可以快速、主動改進負載均衡決策來提高標準以太網 ECMP 的吞吐性能,并降低時延,避免丟包。上述三種網絡架構采用的各種技術的相對優點因客戶而異,并且可能會隨著時間和不同業務需求的變化發生改變。
中興
2022 年,中興通訊推出星云 1.0 解決方案,基于數字星云的架構,可以替代已有的“煙囪”數據,形成數據共享。2023 年,中興通訊進一步發布數字星云 2.0,提供更強大的接入集成、計算存儲、數據治理和共享交易能力服務,可以在數據處理、AI 訓練、AI 推理部署三大環節,幫助企業節省算力資源、 提升算力使用效率。數字星云 2.0 將在數智時代高價值場景發揮更為明顯的優勢。同時,在生成式 AI 方面的能力提升將成為數字星云未來發展的長期規劃。
此外,在網絡方面,中興通訊采用了高速“無損”網絡,實現了AI算力的“無損”。以DPU為中心,基于無損交換機的高性能RDMA網絡,構建了超大規模算力集群。引入NEO智能云卡,服務器可實現單節點800Gbps轉發性能、微秒級時延,從而突破了節點間網絡瓶頸,可以將 GPU集群算力發揮到極致。
在服務器方面,中興通訊全系列服務器支持GPU和液冷,可以以極致低耗構建大模型計算資源池,使數據中心的PUE降到1.13以下。中興通訊已經推出R6500G5 GPU服務器,最大支持20個GPU; 今年底,還將推出更高性能的R6900G5 GPU訓練服務器。
在存儲方面,中興通訊提供高帶寬多元融合存儲,以滿足AI訓練多態數據存儲需求。中興通訊提供分布式磁陣和高端全閃磁陣組合方案,兼顧了大容量和高性能需求,同時提供文件、對象和塊等多元存儲。此外,通過NEO智能云卡卸載高性能存儲傳輸協議NVMe,實現了3M IOPS的存儲性能。
中興表示未來將重點投入三個產品方向:
1. 公司新一代智算中心基礎設施產品,全面支持大模型訓練和推理,包括高性能 AI 服務器、高性能交換機、DPU 等;
2. 下一代數字星云解決方案,利用生成式 AI 技術,在代碼生成、辦公和運營智能化等領域展開研究,全面提升企業效率;
3. 新一代 AI 加速芯片、模型輕量化技術,大幅降低大模型推理成本。
新華三
新華三集團憑借在企業網絡領域20多年的深厚積累,針對AI大模型和AIGC熱潮,有著自己的體系化思考,也布局了很多技術。6月,新華三集團發布了全新的智算解決方案,全面助推AI業務加速前行。
異構算力:提供異構的多元AI算力,主要有商業英偉達GPU(主)、國產AI計算加速卡,在大規模分布式訓練為主的場景(如NLP),主推R5500G5機型服務器,該機型內部AI計算加速卡為OAM模組形態,訓練時服務器內部以高速互聯協議傳輸數據,節點之間可支持8張100G RoCE網卡與其他節點互聯,形成AI集群;在小規模訓練為主的場景(如小型CV),可以選用R5300G5,此機型主要支持PCIE款型AI加速卡,內部通過PCIESwich互聯,成本較低,可適配的AI加速卡款型較多。
海量存儲:分為冷熱數據,冷數據以存檔為主,通過OneStor的對象存儲提供,對象存儲有讀取方便(HTTP協議)、不可在線編輯、集群大的優勢,可為用戶提供數據集、鏡像、算法、模型的廉價歸檔空間;熱數據以分布式并行文件存儲為主,通過CX8028/CX5036提供,分布式文件存儲具有IOPS高、延遲低的特性,可為大規模訓練提供高性能的數據集、訓練臨時數據的讀寫空間。
無損網絡:支持RoCEv2協議,主要設備為S9820-8C,可提供100G/400G速率的端口。單臺設備提供128個100G端口的能力,支持16臺R5500G5服務器接入,算力規??蛇_80P 峰值算力。
銳捷
銳捷針對AIGC算力、GPU利用率與網絡的關系,以及主流HPC組網面臨的挑戰,推出了“智速”DDC(Distributed Disaggregated Chassis,分布式分散式機箱)高性能網絡方案,并計劃于今年推出兩款可交付產品,分別是400G NCP交換機和200G NCF交換機。
DDC是一種分布式解耦機框設備的解決方案,它將傳統軟硬一體的框式設備的組件進行拆解,以NCP替代傳統框式設備的線卡板,以NCF替代交換網板,并通過光纖互聯替代原先兩者之間的連接器組件;傳統框式設備的控制管理引擎也獨立出來,可以以軟件化的方式靈活部署于任何一臺標準服務器或多臺服務器,能有效節省部署成本,提升系統冗余性和可靠性。
DDC方案突破了傳統框式設備的資源限制,讓大規模組網化繁為簡,不僅具有擴展彈性、擴容升級快、單機功耗低、運維管理效率高等特點,可靈活支持AI集群大規模部署,而且具有集群路由設計簡單、數據轉發方式更優化等優勢,能有效提升網絡通信性能。
在支持AI集群超大規模部署方面,在單POD組網中,采用96臺NCP作為接入,其中NCP下行共18個400G接口,負責連接AI計算集群的網卡。上行共40個200G接口最大可以連接40臺NCF,NCF提供96個200G接口,該規模上下行帶寬為超速比1.1:1。整個POD可支撐1728個400G網絡接口,按照一臺服務器配8塊GPU來計算,可支撐216臺AI計算服務器。
在多級POD組網中,可以實現基于POD的按需建設??紤]該場景POD中NCF設備要犧牲一半的SerDes用于連接第二級的NCF,單POD采用48臺NCP作為接入,下行共18個400G接口,單POD內可以支撐864個400G接口。通過橫向增加POD實現規模擴容,整體最大可支撐6912個400G網絡端口。
浪潮
浪潮認為要解決超大規模、超高帶寬、超強可靠的“三超”網絡的挑戰,就需要著重思考如何建設符合大規模訓練的組網方案。從組網架構上看,當前AIGC組網一般多采用胖樹架構,具有高帶寬、低延遲的特性,以及較好的可拓展性。而在組網協議上,當前業界主流的是基于IB及RoCE兩種無損網絡技術,兩種技術都可以很好的滿足大規模訓練高帶寬、低延遲的要求。IB的延遲足夠低,而RoCE在開放性、性價比及易維護性等方面更勝一籌。
浪潮推出了基于RoCE的智能無損網絡解決方案,助力AIGC“三超”網絡的打造,其具備如下優勢:
一是多協議、多場景的融合。在大規模集群中,往往存在通用計算集群、AI/HPC集群、存儲等多種場景,傳統方案是部署以太網、IB、FC等多套網絡及多種協議,各協議之間互不兼容,大大增加了管理和維護的難度。
浪潮基于RoCE的智能無損網絡解決方案,可以適配通用計算、AI/HPC、存儲等多種場景,并實現以太/IB/FC三網融合。這樣從維護多張網絡到維護一張網絡,大大降低了整體建設和維護成本。
二是智能彈性、動態調整。在大規模集群訓練中,要求整個集群可以快速部署與交付,在節約訓練時間的同時,盡可能減少宕機等故障的發生。
浪潮基于RoCE的智能無損網絡解決方案中,通過數字化網絡引擎IDE可以實現集群網絡的自動化部署,加速業務上線。并實時監控設備與鏈路的負載和健康狀態,如CRC錯包,端口帶寬百分比、隊列緩存,CNP及Pause反壓幀等,完成故障的快速定位及智能分析,實現基于業務的網絡跟蹤。此外,還可以提供北向標準API接口,能夠與上層計算平臺進行對接,實現算網聯動,更好的釋放集群算力。
芯片廠商
伴隨AI、大數據等新興技術的崛起,傳統通用計算性能愈發捉襟見肘,異構計算成為了整個半導體行業的前行方向。英特爾正考慮如何在異構平臺上合理分配負載,以進行AI處理工作。在底層方面,英特爾采用了OneAPI(一種統一編程模型和應用程序接口)思路,利用OneAPI提供的優化庫,希望以打包的平臺方案整合自家龐雜的產品路線,降低客戶對底層硬件差異的敏感度。
英特爾還計劃提高網絡傳輸的可靠性,通過更新和創新更高層網絡協議來提高以太網傳輸RDMA協議的可靠性,這個功能將包含在即將發布的下一代IPU中。
針對AI在不同場景、不同環節的異構計算需求,英特爾將其產品線分為通用計算與加速計算。其中,英特爾的CPU產品,第四代至強處理器解決通用計算,可滿足客戶在大部分模型較小場景的AI推理需求;Gaudi2解決加速計算,可解決大模型的訓練及推理需求。
英特爾用來實現AI能力的是一個CPU上首次出現的全新計算模式——VPU,VPU是專門為AI設計的一套架構,能夠非常高效地完成一些矩陣運算,而且對稀疏化的處理非常擅長。VPU最大的優勢就是在消費端PC上用最快速、最便宜、最低成本的方式實現AI功能。
下半年即將面市的Meteor Lake集成了Movidius視覺處理器,與以往的通過CPU和GPU的人工智能加速指令集去實現人工智能服務不同,這是一個獨立的處理單元,在針對人工智能進行加速處理模式中,采用的是“CPU+GPU+VPU“的混合處理方式,通過各個計算單元的特點,將AI處理效率最大力。
在暴漲的AI需求下,博通發布了Tomahawk 5系列網絡芯片。由于做到了更高的端口密度,Tomahawk 5可以實現256高性能AI/ML加速器之間的單跳連接,且每個都能做到200Gbps的網絡帶寬。這對于數據中心的AI訓練和推理的負載來說,無疑提高了吞吐效率,尤其是針對日益流行且愈發復雜的生成式AI模型。
4月,博通發布了Jericho3-AI芯片,用于將超級計算機連接在一起,利用已廣泛使用的網絡技術進行人工智能工作。Jericho3-AI針對AI訓練負載做了特殊的優化,更高的端口密度使得Jericho3-AI可以在單個集群中連接32000個GPU,并做到800Gbps的連接帶寬表現。
Jericho3-AI芯片結構設計是為了降低在網絡間進行人工智能訓練時間。Jericho3-AI 擁有一系列的先進特性,如改進的負載平衡,可以確保在最高網絡負載下實現最大的網絡利用率,無擁塞操作,無流量沖突和抖動,以及零影響故障轉移——確保低于10ns 的自動路徑收斂。所有這些特性都將減少AI工作負載的完成時間。
據介紹,Jericho3-AI 的最高吞吐量為 28.8Tb/s。它有 144 個以 106Gbps PAM4 運行的 SerDes 通道,支持多達 18 個 800GbE/36 個 400GbE/72 個 200GbE 網絡端口。
博通將其與英偉達自己的InfiniBand方案對比,Jericho3-AI在完成時間上有著10%左右的優勢。這也是Jericho系列獨有的優勢,實現標準以太網芯片無法實現卻在AI或HPC應用上被看重的靈活功能。
英偉達
在AI驅動下,英偉達在大規模、大算力、高性能的場景下創造了一個新的網絡應用場景,即AI工廠。英偉達首創了NVLink + NVSwitch技術,為多GPU系統提供更加快速的互聯解決方案。借助NVLINK技術,能最大化提升系統吞吐量,很好的解決了GPU互聯瓶頸。最新的英偉達Hopper架構采用NVLINK4.0技術,總帶寬最高可達900GB/s。
今年5月英偉達推出了面向超大規模生成式 AI 的加速以太網平臺——Spectrum-X,其擁有無損網絡、動態路由、流量擁塞控制、多業務性能隔離等主要特性,能夠滿足云上部署AI或生成式AI工作負載對網絡性能的要求,有助于節約訓練成本、縮短訓練時間,加速大模型走向面市。
Spectrum-X網絡平臺采用了國際上先進的Co-Design的技術,將英偉達Spectrum-4以太網交換機與BlueField-3 DPU緊密耦合,實現了相比傳統以太網架構1.7倍的整體AI性能和能效提升,并通過性能隔離技術增強了多租戶功能運行多任務的性能,在多租戶環境中保持與Bare Metal一致、可預測的性能。
基于最新發布的Spectrum-X平臺,英偉達構建了生成式AI云超級計算機——Israel-1,實現基于Spectrum-X網絡平臺的生成式AI云。在其中投入了256 臺基于NVIDIA HGX平臺的Dell服務器,共包括2048個GPU,并且,配備了2560個BlueField-3 DPU、80 多臺 Spectrum-4 以太網交換機。
英偉達的兩個網絡架構,可以用到不同AI場景,滿足不同客戶對網絡通信的需求:追求超大規模、高性能可以采用NVLink+InfiniBand網絡;多租戶、工作負載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網架構。如果對性能和低延時要求更高,AI云體系架構也可以使用InfiniBand。
Marvell
今年3月,Marvell推出了用于 800 Gb/秒交換機的 51.Teralynx 10交換機芯片。這是一款支持1.6T以太網和800G以太網的交換機芯片。該芯片采用了PAM-4技術和Nova DSP芯片,可以實現更高的速度和更高的可靠性。此外,該芯片還支持多種不同速率的端口,從而實現更高的靈活性和可擴展性。
除了用到業界頂級的112G SerDes IP和先進的工藝實現低功耗的系統設計以外,Marvell宣稱Teralynx 10可以提供1.7倍的延遲優勢,這對于生成式AI這種看重完成時間和網絡傳輸時間的應用來說至關重要。
據Marvell介紹,Teralynx 10 旨在解決運營商帶寬爆炸的問題,同時滿足嚴格的功耗和成本要求。它可適用于下一代數據中心網絡中的 leaf 和 spine 應用,以及 AI / ML 和高性能計算 (HPC) 結構。
據介紹,一個 Teralynx 10 相當于 12 個 12.8 Tbps 一代芯片,由此可以在同等容量下減少 80% 的功耗。Teralynx 10 具有 512 個長距離 (LR) 112G SerDes,有了它,交換機系統可以開發出更全面的交換機配置,例如 32 x 1.6T、 64 x 800G 和 128 x 400G 鏈路。
運營商
中國移動
中國移動把握算力時代發展脈搏,以網強算提出發展算力網絡的全新理念,持續開拓創新,不斷提升算力網絡發展的高度、廣度、深度。今年5月,中國移動聯合騰訊等率先發布了《全調度以太網技術(GSE)架構白皮書》,其中詳細描述了容器化Packet分發(PKTC)+全局動態調度隊列(DGSQ)的技術機制。
容器化Packet分發機制引入分組容器(PKTC)的邏輯概念,而不是單純的Per Packet分發,在Packet級均衡的基礎上能兼顧不同鏈路Byte級的均衡效果。DGSQ也不同于傳統基于VoQ的流量調度,沒有采用傳統基于端口靜態分配,而是基于數據流目標設備端口按需、動態創建,實現全網優化調度。
此外,中國移動加快發展智能算力,以新型智算中心為發力點,打造算力高峰,推動算力網絡實現智能躍遷。
新型智算中心(NICC)是以GPU、AI加速卡等智能集群算力為核心集約化建設的E級超大規模新型算力基礎設施,具備軟硬件全棧環境,是支撐AI大模型的高效訓練,推動行業數智化轉型升級的基石。相較于傳統云數據中心,新型智算中心在算、存、網、管、效五大方面升級,躍遷到更高水平,具備GPU集群算力、多元融合存儲、高速無損網絡、異構算力池化、高效節能控制五大特征。
面向新型智算中遠期發展,中國移動加大算存網管效五大方面技術的融合創新突破,體系化布局攻關“打破異構生態豎井”的算力原生、“突破經典馮氏架構”的存算一體、“突破無損以太性能瓶頸”的全調度以太網、“改變互聯網基礎架構”的算力路由、“匯聚多樣算力”的算力并網等創新技術,打造原創技術策源地。
中國聯通
在AI加速行業發展的當下,中國聯通在AI領域不斷創新,致力于建設云算網一體的信息基礎設施,從算力供給、輸送、調度和服務四個方面規劃算力網絡,構建中國聯通智算網絡。
2023 年 4 月,中國聯通研究院、廣東聯通攜手華為建成全棧自主創新AI智算中心,并完成全國首個OSU(光業務單元,Optical Service Unit)靈活入多云的現網驗證,實現算網融合發展新突破。
廣東聯通攜手華為打造運營商首個全棧自主創新智算平臺,創建算法商城和一體化算力門戶交易平臺,提供多樣性算力服務,并具備全棧自主創新、極簡開發、全場景端邊云協同和豐富的生態體系四大能力優勢:
自主創新的基礎軟硬件:基于昇騰硬件、歐拉開源操作系統、昇思MindSpore全場景AI框架,CANN異構計算架構等全棧自主創新的基礎軟硬件支撐原生創新。
極簡易用的訓推一體平臺:提供從訓練到推理的一站式AI開發平臺,通過昇思AI框架和全流程開發工具包,加速行業算法和應用開發,快速實現AI使能業務能力。
全場景的端邊云協同能力:硬件層面均采用統一的達芬奇架構,軟件層面支持主流操作系統、多種AI框架,實現增量訓練模型迭代,全場景自適應感知與協同。
不斷豐富的生態體系:依托智算平臺,聯合高校、算法廠商等合作伙伴聯合創新,孵化AI行業應用,實現產學研用深度融合,構筑成熟AI生態體系。
廣東聯通在社會算力并網方面也積極實踐,實現省內算力協同和生態體系共享;以智算平臺為載體,逐步構建區域AI應用創新體系,滿足多樣性AI應用需求使能千行百業。
中國電信
中國電信正在上海試點新一代智云網絡,以高質量、廣覆蓋大帶寬、低時延、云-邊-端協同的算力網絡為人工智能的大規模應用提供堅實的基礎。
2022年,中國電信自研天翼云4.0算力分發網絡平臺——“息壤”入選國資委央企十大超級工程。目前,“息壤”已全面接入天翼云的多級資源,并與多個合作伙伴實現算力并網,實現基于云原生和跨域大規模調度技術的智能算網調度,為“東數西算”、云渲染、跨云調度、性能壓測、混合云AI計算等應用場景,提供多樣化、差異化的算力產品形態,滿足不同業務需求。
今年來,AI大模型呈井噴式爆發,面對節奏越來越快的技術迭代、創新和升級,堅實的網絡基礎的重要性愈發凸顯。早在去年中國電信就順應時代趨勢和產業發展需求,在AI助力管理應用創新方面,推出全球首款以云網融合為核心架構的“星河AI賦能平臺”,這也是業界首個百億參數級別的城市治理大模型。
中國電信星河AI賦能平臺在全球率先以云網融合為核心架構,搭載“全網、區域、邊、端”四級算力,擁有31個省級算力集群的人工智能產品和能力平臺,可以實現AI能力一鍵下發、快速部署、全場景應用。
得益于構架層的創新,星河AI實現了算力動態調度、資源高可用、標準開放的API(應用編程接口),能夠極速部署安裝,集成千余種AI算法能力納管和封裝,滿足多樣協議視頻流智能接入,實現AI能力平臺可視化編排。
寫在最后
數據中心和算力集群是AI的核心,網絡則是它的命脈,它們共同構筑了AI大模型底層網絡基礎設施,實現了數據和智能的無縫傳遞。正如身體需要心臟泵血來保持生命,AI也需要這些要素來持續演進,我們應致力于構建更加安全、高效和可靠的網絡基礎設施,以確保AI的無限潛力能夠得以實現。網絡不僅是連接,更是創新與合作的橋梁。
-
AI
+關注
關注
87文章
30741瀏覽量
268896 -
算力
+關注
關注
1文章
965瀏覽量
14794 -
大模型
+關注
關注
2文章
2424瀏覽量
2645 -
AI大模型
+關注
關注
0文章
315瀏覽量
305
原文標題:盤點:AI 大模型背后不同玩家的網絡支撐
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論