01EtherNET 還是 EtherNOT?
其實早在2005年的HOTI會議上,“EtherNET 還是 EtherNOT”這個話題已經(jīng)被討論了,當時得出的結(jié)論如下:如今來看,當時的“預(yù)言”果真應(yīng)驗了。
在2023 HOTI會議的圓桌討論中(視頻鏈接:https://www.youtube.com/watch?v=yAjP1idJvB8 ),英特爾高級研究員、網(wǎng)絡(luò)和邊緣組首席硬件架構(gòu)師Brad Burres和AMD數(shù)據(jù)中心 GPU 系統(tǒng)架構(gòu)師Frank Helms偏向于EtherNET。Brad Burres認為無論采用何種技術(shù),都需要一個開放的生態(tài)系統(tǒng)來降低整個行業(yè)的成本,并實現(xiàn)所需的軟件基礎(chǔ)設(shè)施。而隨著協(xié)議的成熟,除非另一個開放的標準結(jié)構(gòu)立即出現(xiàn)(例如CXL?),否則以太網(wǎng)將成為贏家。Frank Helms則列舉了全球超級計算機TOP500榜單中第一名Frontier、第二名Aurora和第五名LUMI,它們都基于以太網(wǎng)的HPE Cray Slingshot-11網(wǎng)絡(luò)結(jié)構(gòu)進行連接。他認為以太網(wǎng)處于互聯(lián)技術(shù)的前沿。UEC(超以太網(wǎng)聯(lián)盟)的出現(xiàn),也正反映了對于大型AI訓(xùn)練集群互連來說,以太網(wǎng)有很多被壓抑的需求。
NVIDIA網(wǎng)絡(luò)研究總監(jiān)Larry Dennison認為以太網(wǎng)離滿足AI工作負載的需求還存在著一定的差距。如果以太網(wǎng)滿足了所有的這些需求,它還是以太網(wǎng)嗎?在多長的時間能實現(xiàn)?以太網(wǎng)的市場確實很大,它不會消失,但在未來幾年,以太網(wǎng)的發(fā)展速度將無法滿足這個市場的需求。蘇黎世聯(lián)邦理工學(xué)院教授、微軟大規(guī)模人工智能和網(wǎng)絡(luò)領(lǐng)域的顧問Torsten Hoefler指出以太網(wǎng)是數(shù)據(jù)中心和超級計算機的現(xiàn)在和未來,但不是我們現(xiàn)在所說的以太網(wǎng),以太網(wǎng)需要進化。
01開放生態(tài)or供應(yīng)商鎖定?
從歷史上看,InfiniBand 和以太網(wǎng)一直在爭奪AI/ HPC 市場的主導(dǎo)地位,它們都是開放標準。然而,一個關(guān)鍵的區(qū)別是,目前InfiniBand 僅由 Nvidia 作為單一供應(yīng)商提供支持,而以太網(wǎng)則享有多供應(yīng)商的支持,從而培育了一個充滿活力和競爭的生態(tài)系統(tǒng)。 但是,在人工智能和高性能計算網(wǎng)絡(luò)解決方案領(lǐng)域,即使是以太網(wǎng)解決方案也帶有“部分定制”的標簽,有可能導(dǎo)致供應(yīng)商鎖定。
例如,博通的 Jericho3 以太網(wǎng)交換機在其高性能“fully scheduled fabric”模式下運行時,要求整個網(wǎng)絡(luò)fabric使用相同的交換機芯片。
思科的 Silicon One 交換機和 Nvidia 的 Spectrum-X 交換機也出現(xiàn)了類似的情況——高性能要求可能會造成供應(yīng)商鎖定。
一些超大規(guī)模企業(yè)設(shè)計了“定制”NIC,這也可以導(dǎo)致定制網(wǎng)絡(luò)。 因此,即使在選擇以太網(wǎng)解決方案時,也可能會遇到自定義實現(xiàn)和供應(yīng)商鎖定的情況。
AI/HPC 網(wǎng)絡(luò)可能會向一個新的、開放的、功能更強大的傳輸標準過渡,部分或完全取代 ROCEv2 RDMA 協(xié)議,這是超以太網(wǎng)聯(lián)盟正在追求的愿景。
02各家AI/ML 網(wǎng)絡(luò)技術(shù)盤點
那么,超大規(guī)模廠商如何選擇它們的 AI/ML 網(wǎng)絡(luò)技術(shù)的呢?是EtherNET 還是 EtherNOT?以下是對各廠商AI網(wǎng)絡(luò)方案簡單的整理,很多廠商的選擇并不是非A即B,平衡和利益是最終追求,不著急選邊站也許才是最好的選擇。
>亞馬遜AWS
亞馬遜從 InfiniBand RD 協(xié)議中汲取靈感,推出了適用于 HPC 網(wǎng)絡(luò)的可擴展可靠數(shù)據(jù)報 (SRD) 傳輸協(xié)議。亞馬遜“獨家”采用增強型網(wǎng)絡(luò)適配器(ENA),該適配器基于其專有的 Nitro 芯片構(gòu)建。 SRD 利用 UDP,支持跨多個鏈路的packet spraying,并消除了“按順序”數(shù)據(jù)包傳送要求,以減少fabric擁塞和尾部延遲。必要時,數(shù)據(jù)包的重新排序由 SRD 的上層管理。 亞馬遜繼續(xù)追求本土的AI/HPC網(wǎng)絡(luò)戰(zhàn)略,并且可能是與 Nvidia 合作最少的公司。
相關(guān)鏈接:AWS re:Invent:SRD協(xié)議將取代TCP?
>谷歌
谷歌將自己的 TPU 和 Nvidia 的 GPU混合使用。TPU 和 GPU 相互競爭,并且可能根據(jù)工作負載適用性進行部署。谷歌很可能沒有在其網(wǎng)絡(luò)中使用 InfiniBand 產(chǎn)品。 谷歌 AI/ML 網(wǎng)絡(luò)是相對定制的,并且多年來一直在部署類似 NVLink 的“coherent”架構(gòu)。谷歌在網(wǎng)絡(luò)堆棧上進行了大量創(chuàng)新,并在其常規(guī)數(shù)據(jù)中心和人工智能數(shù)據(jù)中心部署了“本土”光交換系統(tǒng)(OCS)——一種基于微機電系統(tǒng)(MEM鏡像)的電路交換機。 光交換機通常消除了一層物理交換機,支持更高的基數(shù)配置,并降低功耗和延遲。光交換機“反射”光,并且與網(wǎng)絡(luò)協(xié)議和網(wǎng)絡(luò)交換機升級無關(guān)。缺點是鏡像重新配置時間通常較長,在幾十毫秒范圍內(nèi),因此這些 OCS 交換機作為固定容量“circuit”線路工作。對于人工智能訓(xùn)練網(wǎng)絡(luò)來說,這不是一個主要問題,因為流量模式是可預(yù)測的。
>微軟
微軟是超大規(guī)模企業(yè)中最務(wù)實的,它很早就采用了 InfiniBand 為其合作伙伴 OpenAI 構(gòu)建人工智能網(wǎng)絡(luò)。雖然微軟為 Azure 云開發(fā)了自己的定制網(wǎng)絡(luò)適配器并使用定制的 RDMA 協(xié)議,但它對 InfiniBand 的開放性、對 Nvidia 全棧 AI/ML 解決方案的擁抱,以及與 OpenAI 的緊密合作,所有這些都使其成為Nvidia的首選客戶! 微軟收購了 Fungible,該公司發(fā)明了 True Fabric——一種基于 UDP 的可靠數(shù)據(jù)報協(xié)議,可處理流量、擁塞和錯誤控制,并優(yōu)化尾部延遲。一些 Fungible 技術(shù)創(chuàng)新可能會出現(xiàn)在未來的微軟的產(chǎn)品和開源貢獻中。
相關(guān)鏈接:1.9 億美元,F(xiàn)ungible難逃賣身劫?
>Meta
Meta是AI競賽中的黑馬,其人工智能計劃有何突出之處?
采用Llama等基礎(chǔ)模型的開源方法
通過PyTorch軟件框架/生態(tài)系統(tǒng),使 AI 變得用戶友好并可供每個軟件工程師使用。
在硬件方面,Meta建立了開放計算項目社區(qū),作為開源硬件創(chuàng)新的關(guān)鍵支柱。 Meta部署了大型GPU集群,并憑借其推薦系統(tǒng)(DLRM模型)一直處于人工智能創(chuàng)新的前沿。Meta 的 AI 基礎(chǔ)模型和 PyTorch 生態(tài)系統(tǒng)啟用了龐大的開源 AI 創(chuàng)新庫,部署了基于以太網(wǎng)和 InfiniBand 的 AI/ML 集群,還為其 DLRM 模型和視頻轉(zhuǎn)碼構(gòu)建 ASIC。 Meta 正在讓人工智能“民主化”,盡管目前尚未獲得足夠的認可,但這種趨勢很快就會轉(zhuǎn)變。
相關(guān)鏈接:Meta和MIT最新網(wǎng)絡(luò)架構(gòu)研究,對傳統(tǒng)架構(gòu)提出挑戰(zhàn)
>Oracle
Oracle 堅定支持以太網(wǎng),不使用 InfiniBand。 Oracle 云基礎(chǔ)設(shè)施 (OCI) 利用 Nvidia GPU 和 ConnectX NIC 構(gòu)建基于 ROCEv2 RDMA 的超級集群。OCI構(gòu)建了一個獨立的RDMA網(wǎng)絡(luò),基于DC-QCN的自定義擁塞通知協(xié)議,最小限度地使用 PFC,并針對 AI 和 HPC 工作負載進行了微調(diào)的自定義配置文件。
>Nvidia
Nvidia 的 GPU 及其全棧 AI/ML 解決方案使其成為市場中無可爭議的上流玩家。 Nvidia DGX Cloud 解決方案將 Quantum-2 (25.6Tbs) InfiniBand 交換機與 ConnectX 和 Bluefield 網(wǎng)絡(luò)適配器集成。這些網(wǎng)絡(luò)適配器支持以太網(wǎng)和 InfiniBand。基于 DGX Cloud 的全棧 InfiniBand 解決方案還將通過 Nvidia 及其 OEM 銷售到電信和企業(yè)市場。 然而,Nvidia 還通過其 Spectrum-X 交換機大力投資以太網(wǎng)。幾年前,InfiniBand 是人工智能訓(xùn)練的首選架構(gòu),使其成為 Nvidia 集成 DGX 云解決方案的理想選擇。隨著 Nvidia Spectrum-X 以太網(wǎng)交換機(容量為 51.2 Tbs,是 InfiniBand 交換機容量的兩倍)的推出,Nvidia 將轉(zhuǎn)向以太網(wǎng)進行大規(guī)模 GPU 部署,以利用以太網(wǎng)更高的端口速度、成本效益和可擴展性。 Spectrum-X 以太網(wǎng)交換機支持高級 ROCEv2 擴展 — RoCE 自適應(yīng)路由和擁塞控制、遙測支持以及稱為collective的網(wǎng)內(nèi)計算(通過 Nvidia 的 SHARP 產(chǎn)品)。
相關(guān)鏈接:誰能阻止英偉達?
>博通
博通提供全面的 AI/HPC 網(wǎng)絡(luò)解決方案,包括交換機芯片和網(wǎng)絡(luò)適配器。博通對“Correct Networks”的戰(zhàn)略收購引入了基于 EQDS UDP 的傳輸協(xié)議,該協(xié)議將所有排隊活動從核心網(wǎng)絡(luò)轉(zhuǎn)移到transmitting主機或leaf交換機。這種方法支持 Jericho3/Ramon3 芯片組合中的交換機優(yōu)化,這是一種“fully scheduled fabric”,配備了packet spraying、leaf交換機中的重新排序緩沖區(qū)、路徑再平衡、丟棄擁塞通知和硬件驅(qū)動的帶內(nèi)故障恢復(fù)機制。 Tomahawk (52Tbs) 系列專為優(yōu)化單芯片容量而設(shè)計,并非fully scheduled fabric。Tomahawk 交換機也支持邊緣隊列,它還支持硬件中的延遲關(guān)鍵功能,例如全局fabric級負載平衡和路徑再平衡。Tomahawk 不支持leaf交換機中的數(shù)據(jù)包排序,因此需要在網(wǎng)絡(luò)適配器(端點)中實現(xiàn)數(shù)據(jù)包重新排序緩沖區(qū)。
>思科
思科最近推出了 Silicon One 52Tb/s 交換機,展示了其網(wǎng)絡(luò)解決方案的多功能性。該交換機是 P4 可編程的,可以靈活地對各種網(wǎng)絡(luò)用例進行編程。 思科基于 Silicon One 的交換機提供對fully scheduled fabrics、負載平衡、硬件故障隔離和遙測的支持。思科與多家 NIC 供應(yīng)商合作,提供完整的 AI/ML 網(wǎng)絡(luò)解決方案。
相關(guān)鏈接:思科推出新的AI網(wǎng)絡(luò)芯片,正面硬剛博通、Marvell
03總 結(jié)
面向AI/HPC 網(wǎng)絡(luò)的以太網(wǎng)標準化之旅才剛剛開始,需要通過規(guī)模、開放創(chuàng)新和多供應(yīng)商競爭進一步降低成本和功耗。超級以太網(wǎng)聯(lián)盟由主要網(wǎng)絡(luò)利益相關(guān)者組成,致力于打造一個專為 AI/HPC 工作負載量身定制的開放式、“全棧”以太網(wǎng)解決方案。 如上所述,大多數(shù)“必要的”AI/HPC 網(wǎng)絡(luò)技術(shù)已經(jīng)由各種以太網(wǎng)供應(yīng)商和超大規(guī)模提供商以某種形式或方式大規(guī)模部署。所以,關(guān)于標準化的挑戰(zhàn)不是技術(shù)性上的,更多的是建立共識。
審核編輯:黃飛
評論
查看更多