不出意外,AI是今年云棲大會的絕對主角,無論是主論壇的主旨演講還是各分論壇的大咖論道,無不充斥著人工智能的青春荷爾蒙。作為資深網(wǎng)工,我們重點帶大家探秘10.31日下午的《可預(yù)期網(wǎng)絡(luò):AI Infra》專場。可預(yù)期網(wǎng)絡(luò)專場邀請了英偉達(dá)SVP Gilad,博通VP Mohan,以及阿里云基礎(chǔ)網(wǎng)絡(luò)負(fù)責(zé)人蔡德忠等行業(yè)頂級專家齊聚云棲小鎮(zhèn),頗有些華山論劍的味道。再加上IB和以太網(wǎng)在AI集群市場上的激烈廝殺,以及近期國際上成立UEC聯(lián)盟來構(gòu)建新一代高性能網(wǎng)絡(luò)等最熱門的話題,顯而易見的結(jié)果就是兩個字,“火爆“。幾百人的會場,3個小時,從始至終座無虛席。
主旨演講1:阿里云《端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò)》
言歸正傳,論壇的第一個主旨演講是阿里云的蔡德忠,付斌章和席永青帶來的《端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò)》。這個演講對阿里云針對AI集群網(wǎng)絡(luò)的設(shè)計理念以及當(dāng)前的解決方案做了深入的闡述,干貨滿滿,尤其是很多AI大模型實際的訓(xùn)練數(shù)據(jù)和流量模型是第一次向外披露,充分展示了阿里云基礎(chǔ)設(shè)施團隊的硬核創(chuàng)新能力,體現(xiàn)了阿里云作為業(yè)界頭部云廠商推動業(yè)界進(jìn)步的技術(shù)擔(dān)當(dāng)。整個演講內(nèi)容分為三部分:
Part 1: 為什么需要AI集群網(wǎng)絡(luò)?
首先,傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)內(nèi)的東西向流量呈現(xiàn)“多、小、相對穩(wěn)定“的特點,而AI集群內(nèi)的東西向流量則呈現(xiàn)”少,大、突發(fā)/并發(fā)“的特點。根據(jù)演講中的示例,某ECS大客戶的鏈接規(guī)模達(dá)到了100K規(guī)模,而靈駿大客戶訓(xùn)練任務(wù)的鏈接數(shù)只有60多個。正是因為有1000倍的數(shù)量上的差異,所以原本在通用計算場景下無法實現(xiàn)的per-flow的流量工程,在AI場景都變得順理成章了。
另外,因為ECS集群內(nèi)同時運行的任務(wù)種類和數(shù)量更多,很多個小流匯總在一起,反而在統(tǒng)計學(xué)意義上呈現(xiàn)出一種“相對穩(wěn)定”的狀態(tài),但是總的帶寬利用率也仍然只有20%左右。
靈駿集群內(nèi)的流量則完全不同,因為訓(xùn)練任務(wù)是周期性迭代的,導(dǎo)致網(wǎng)絡(luò)上的流量也是周期性的突發(fā),并且每次突發(fā)都可以打滿網(wǎng)絡(luò)帶寬。這就給網(wǎng)絡(luò)設(shè)計帶來了很大的挑戰(zhàn),因為網(wǎng)工們都知道“少量大象流”是ECMP的噩夢,非常容易導(dǎo)致Hash不均的問題出現(xiàn)。
阿里云的解決辦法是多級的流量工程,從最上層的任務(wù)調(diào)度一直到最底層的Adaptive Routing,根據(jù)實際部署實踐,這套“降龍十八掌”打下來,很好的解決上面這些問題,最后展示的大幅度性能提升也佐證了這種多級流量工程帶來的效果。
Part2: 如何構(gòu)建AI集群網(wǎng)絡(luò)?
其次,并行訓(xùn)練需要的GPU數(shù)量越來越大,并且GPU服務(wù)器有NVLINK提供機內(nèi)高速互聯(lián)。
基于這兩個前提,阿里云的HPN7.0架構(gòu)基于博通 51.2T的TH5交換芯片搭建了一個單層1K GPU,2層16K GPU的極致性能網(wǎng)絡(luò)架構(gòu),并且已經(jīng)在上個月正式開服了,這也是全球第一個實現(xiàn)51.2T交換機大規(guī)模商用的云廠商,一方面說明阿里云有足夠的前瞻性,準(zhǔn)確預(yù)測了需求,同時也證明其強大的研發(fā)能力。
另外,演講中比較有意思的一點是關(guān)于集群最大規(guī)模的討論。因為業(yè)界也有可以支持更大規(guī)模的集群架構(gòu),但是阿里云的架構(gòu)師強調(diào)這些更大規(guī)模的集群架構(gòu)在當(dāng)前IDC功耗限制下是沒有意義的。這個觀點與英偉達(dá)的首席科學(xué)家Bill Dally在今年的某次演講中表達(dá)的觀點不謀而合,即當(dāng)前的AI集群是“power gating”的。
如果國內(nèi)的IDC的總功率仍停在每棟樓10MW左右的能力,那么單集群搞10W卡或者更大其實意義也不大。畢竟因為時延的關(guān)系,我們一般不會跨樓構(gòu)建集群。但是這里有個變量,在新的法規(guī)限制下,單芯片算力下降了,那么是否就需要更大規(guī)模的網(wǎng)絡(luò)架構(gòu)可能是一個需要重新討論的問題。此外,在強大的需求推動下,相信未來也會有超高功率的IDC出現(xiàn)。
最后就是面向serverless場景的技術(shù)挑戰(zhàn)。事實上,阿里云在容器網(wǎng)絡(luò)領(lǐng)域也有很深的技術(shù)積累。Nimitz容器網(wǎng)絡(luò)從2017年開始在阿里內(nèi)部服務(wù)ODPS業(yè)務(wù),21年開始和高網(wǎng)相結(jié)合,構(gòu)成了一套完整的支持多租的高性能網(wǎng)絡(luò)解決方案。在AI這個場景下,由于并行訓(xùn)練任務(wù)對高性能網(wǎng)絡(luò)的性能有極致追求,而傳統(tǒng)的SRIOV+VxLAN的標(biāo)準(zhǔn)解決方案會帶來不可忽略的性能損失,所以阿里云提出了全新的vSolar+RDMAv6的解決方案。
vSolar是對Solar RDMA的擴展,也是Solar RDMA從存儲走向計算的一個重要優(yōu)化。通過基于virtio的混合虛擬化技術(shù),既保證了租戶隔離的安全需求,同時確保性能敏感的數(shù)據(jù)通路沒有任何性能損失,再配合基于IPv6的地址編碼技術(shù)RDMAv6實現(xiàn)了網(wǎng)絡(luò)地址的隔離。最終在這套解決方案的加持下,阿里云自研的高性能網(wǎng)卡EIC雖然是基于FPGA實現(xiàn)的(underlay性能不如ASIC方案),其overlay網(wǎng)絡(luò)性能完全可以媲美ASIC方案,這就是架構(gòu)創(chuàng)新的優(yōu)勢吧。再疊加阿里云自研的HPCC擁塞控制和多路徑傳輸技術(shù),應(yīng)用的端到端性能可以更上一層樓。
Part3:未來展望
由于時間的關(guān)系,未來展望部分講的比較簡短。核心的觀點是堅定的基于開放的以太網(wǎng)生態(tài)打造新的高性能網(wǎng)絡(luò)技術(shù),特別提到了GPU的互聯(lián)部分。當(dāng)前以英偉達(dá)為主導(dǎo)的異構(gòu)計算生態(tài)下,GPU的IO分為PCIe(以太)和NVLINK兩個部分,其中 PCIe/以太部分用于實現(xiàn)scale out,NVLINK部分用于實現(xiàn)scale up。而當(dāng)前國際上的UEC聯(lián)盟也在探索GPU全出以太網(wǎng)接口,即無論scale out還是scale up都采用以太網(wǎng)。這種方法的好處是顯而易見的,因為以太網(wǎng)是開放的,可以吸納全球的力量來促進(jìn)技術(shù)進(jìn)步。
主旨演講2:英偉達(dá)《Networking for AI》
第二個主旨演講來自于英偉達(dá)的Gilad,他是Mellanox的聯(lián)合創(chuàng)始人,英偉達(dá)全球高級副總裁,在HPC和高性能網(wǎng)絡(luò)領(lǐng)域有著豐富的經(jīng)驗。同時Gilad來自以色列,這一次也是排除了萬難(換了3班飛機)才來到了中國參加云棲大會,說明了他對中國市場以及云棲大會的高度重視。對于他的到來,現(xiàn)場觀眾也報以了雷鳴般掌聲,來表達(dá)了歡迎和感謝。Gilad的演講題目是《Networking for AI》。回想今年在中國臺灣舉行的ComputeX大會上,Jensen Huang就介紹了Spectrum以太網(wǎng)方案。當(dāng)時業(yè)界就有疑惑,難道英偉達(dá)放棄IB了嗎?這次Gilad演講給出了還算比較清晰的定義,Spectrum面向AI Cloud,而IB面向AI Factory。
關(guān)于設(shè)計理念部分,Gilad的見解和阿里云基本相同,也強調(diào)了網(wǎng)絡(luò)性能的重要性,特別是長尾時延的重要性。因為AI訓(xùn)練是典型的并行計算應(yīng)用,一個慢節(jié)點就會導(dǎo)致整個任務(wù)的性能下降,所以只是峰值性能高是不能滿足要求的。為了解決這個問題,英偉達(dá)在Spectrum+BF3的整體以太網(wǎng)方案率先支持了Adaptive Routing技術(shù),從而可以實現(xiàn)穩(wěn)定的、可預(yù)期的網(wǎng)絡(luò)性能。Gilad也多次提到可預(yù)期(Predictable),這一點和阿里云的觀點完全一致,正所謂英雄所見略同。
可以預(yù)料到的是,Gilad最后還是轉(zhuǎn)向推薦他們的IB解決方案。與以太網(wǎng)相比,IB最大的優(yōu)勢在于對In-network Computing的支持,例如SHARP技術(shù)。根據(jù)Gilad展示的數(shù)據(jù),使能SHARP之后集合通信性能是默認(rèn)模式下的1.7倍,這個收益還是非常具有吸引力的。據(jù)說國內(nèi)不少廠商都采購了IB,并且在積極推動SHARP的應(yīng)用。不過按照UEC披露的信息來看,未來以太網(wǎng)交換芯片也會支持相關(guān)功能,咱們拭目以待吧。
主旨演講3:博通《Unleashing Ethernet: The Ubiquitous choice of Networking for AI/ML Clusters》
第三個主旨演講來自于博通的Mohan,他是博通全球副總裁、首席架構(gòu)師。Mohan的演講題目是《Unleashing Ethernet: The Ubiquitous choice of Networking for AI/ML Clusters》。博通作為以太網(wǎng)交換芯片的絕對領(lǐng)導(dǎo)者,其態(tài)度非常鮮明,即基于以太網(wǎng)打造AI/ML集群網(wǎng)絡(luò)。背景部分不再重復(fù),直入主題。Mohan演講中重點強調(diào)了“調(diào)度”的重要性,包括switch scheduled和endpoint scheduled兩種方案。
Switch scheduled方案是利用Jericho3-AI作為leaf交換機,利用Ramon3作為spine交換機。其核心思想包括幾點:1)在leaf交換機之間建立credit流控,只有接收端的交換機有空閑的credit,發(fā)送端交換機才允許將報文注入網(wǎng)絡(luò),2)報文在注入網(wǎng)絡(luò)時,會被切成固定大小的“cell”,并將不同的cell均勻的分發(fā)到不同的網(wǎng)絡(luò)路徑上,實現(xiàn)負(fù)載均衡,3)用VOQ技術(shù)避免HOL blocking。由于時間關(guān)系,Mohan在會上講的細(xì)節(jié)不多,感興趣的同學(xué)可以參考這個演講(博通交換機調(diào)度方案)。
端側(cè)調(diào)度的核心思想來自于NSDI‘22的論文(EQDS論文),基本思路還是receiver-based credit調(diào)度。最近幾年,sender調(diào)速和receiver調(diào)速的爭論很多,其實Bill Dally教授在《Principles and Practices of Interconnection Networks》一書中講解input-arbiter和output-arbiter的時候分析的很清楚,兩者本質(zhì)上沒有區(qū)別。另外,ACK和credit又有什么區(qū)別呢?ACK的目的不也是用于釋放/增大窗口嗎?那么稍微優(yōu)化一下ACK的反饋機制就夠了?總體上感覺,雖然博通和阿里云都在講流量調(diào)度,但是阿里云的視角更寬一些,從集群任務(wù)調(diào)度到底層AR都有涉及,而博通的方案還是局限在網(wǎng)卡和交換機。當(dāng)然這與兩個公司在生態(tài)中的站位是有關(guān)的。個人感覺阿里云的方案更全面。
當(dāng)然Mohan演講中最吸引眼球還要是UEC話題。UEC最早是在今年OCP大會上公開的,博通、AMD、Intel、Meta、Microsoft是其中的主力成員,目標(biāo)是在AI/ML這個市場上構(gòu)建基于以太網(wǎng)的網(wǎng)絡(luò)生態(tài)。目前AI集群中,GPU網(wǎng)絡(luò)仍然分為scale out網(wǎng)絡(luò)和scale up網(wǎng)絡(luò)。Scale out網(wǎng)絡(luò)的實際標(biāo)準(zhǔn)是RoCE和IB,scale up網(wǎng)絡(luò)的事實標(biāo)準(zhǔn)是NVLINK。UEC的核心目標(biāo)是把兩個網(wǎng)絡(luò)都統(tǒng)一到以太網(wǎng)。但這也并不是很容易,例如NVLINK需要支持緩存一致性協(xié)議,從而可以實現(xiàn)一個“Giant GPU”,以太網(wǎng)是否可以高效的支持緩存一致性協(xié)議是目前主要的問題。
圓桌論壇
前面的演講精彩紛呈,圓桌會議也是熱烈非凡,頗有華山論劍的感覺。
在AI大模型時代,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)該如何演進(jìn),高性能網(wǎng)絡(luò)協(xié)議又該如何演進(jìn)是目前行業(yè)內(nèi)最熱門的話題,針對這個問題,專家們的觀點總體上是一致的,即網(wǎng)絡(luò)的發(fā)展一定是要滿足應(yīng)用需求來發(fā)展的,那么當(dāng)前最重要的需求還是支持更大規(guī)模的模型訓(xùn)練,那么協(xié)議的設(shè)計、AR和CC算法的設(shè)計都是圍繞這個目標(biāo)來展開的。
為此,UEC已經(jīng)在嘗試給出自己的答案,但是也有專家提出UEC并不是目前唯一的“努力”,谷歌也提出了Falcon方案并計劃開源。由于UDP提供了一個最基礎(chǔ)的datagram語義,所以Falcon也是采用了業(yè)界普遍的做法,和SRD、Solar 一樣,采用在UDP之上進(jìn)行擴展的方式來滿足各自的業(yè)務(wù)需求,在高性能網(wǎng)絡(luò)傳輸?shù)暮诵墓δ芊矫妫現(xiàn)alcon 和阿里的 Solar-RDMA,AWS 的SRD 沒有太多本質(zhì)區(qū)別,都是圍繞多路徑傳輸,更加先進(jìn)的流控,以及支持更大規(guī)模連接方面在增強,但是Falcon在安全性,以及協(xié)議的多樣性支持方面有所增強,從而可以支持多種應(yīng)用,例如RoCE和NVMe,甚至 TCP,但是據(jù)一些渠道獲取的信息,F(xiàn)alcon 在Google 內(nèi)部并沒有大規(guī)模部署。
關(guān)于NVLINK 和IB 的關(guān)系,Gilad也闡述了自己的觀點,他認(rèn)為NVLINK和IB是面向不同場景下設(shè)計的,所以兩者之間不存在替換的關(guān)系,所有在未來不會看到IB完全取代NVLINK的情況,不過在需求的推動下,目前GH200已經(jīng)支持了256個GPU通過NVLINK Switch互聯(lián),未來這個網(wǎng)絡(luò)的規(guī)模可能會更大,當(dāng)NVLINK大規(guī)模組網(wǎng)時也會遇到以前大規(guī)模IB或者以太網(wǎng)已經(jīng)遇到的擴展性問題,所以NVLINK在某種程度上與IB進(jìn)行協(xié)同甚至融合又是一個確定性的趨勢。
在GPU集群如何 scale up 方面,Mohan堅持認(rèn)為未來會統(tǒng)一到Ethernet,事實上,AMD和Intel最新的GPU已經(jīng)在使用以太網(wǎng)來實現(xiàn)Scale up網(wǎng)絡(luò)了,那么是不是可以說技術(shù)上全部基于以太網(wǎng)是可行的,那么剩下的就是商業(yè)選擇了,不同廠家可能會有不同的選擇。
如果從客戶的角度來看(云廠商是芯片廠商的客戶),客戶肯定不希望有五花八門的網(wǎng)絡(luò)方案,這一點阿里云的專家也表達(dá)的非常清晰。云廠商的這個訴求其實也是比較容易理解的,網(wǎng)絡(luò)不只是一個個芯片,實際上是一個復(fù)雜的分布式系統(tǒng),需要配套的監(jiān)控和運營系統(tǒng),以及相應(yīng)的運營團隊。如果每個GPU廠商都采用自己定義的私有協(xié)議,那么云廠商就需要為每種芯片定制監(jiān)管控系統(tǒng),并且配置單獨的運營團隊。當(dāng)然這些復(fù)雜度和成本最終一定會轉(zhuǎn)嫁到更下游的消費者。
參考白盒交換機市場,所有交換芯片廠商都支持SONiC,那么下游的云廠商只需要適配SONiC就好了,回顧SONiC的歷史,早期也有其他競對方案,通過多年的持續(xù)迭代最終逐漸歸一到SONiC,相信GPU互聯(lián)標(biāo)準(zhǔn)這塊也會有類似的過程,通過市場的選擇,最終一定會出現(xiàn)一個事實標(biāo)準(zhǔn),可能是UEC,也可能是其他,但是一定是一個開放的、大家可以共同參與的生態(tài)。
阿里云早在2019 年就提出了端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò)這個網(wǎng)絡(luò)發(fā)展方向,這是基于阿里云從2016年就開始研發(fā)部署 RDMA 高性能網(wǎng)絡(luò),并在大規(guī)模部署實踐中不斷創(chuàng)新而提出來的理念。
隨著AI大模型的火熱,行業(yè)內(nèi)對“Predictable” 這個詞使用的頻率已經(jīng)越來越高,對于可預(yù)期網(wǎng)絡(luò)的理解也越來越具像化了,這次圓桌論道,行業(yè)內(nèi)的多位專家也是多次提及 Predictable, Predictable 可預(yù)期網(wǎng)絡(luò)目的是規(guī)避網(wǎng)絡(luò)“抖動”,這對于高并發(fā),高帶寬,同步通信等大模型訓(xùn)練的網(wǎng)絡(luò)流量特質(zhì)而言,收益是巨大的,因為提升大算力集群線性擴展度不僅僅需要絕對網(wǎng)絡(luò)性能的提升,而且需要降低網(wǎng)絡(luò)長尾延時,規(guī)避木桶短板,提供穩(wěn)定的高性能,而這就是可預(yù)期網(wǎng)絡(luò)(Predictable Network)的真正精髓所在。
-
AI
+關(guān)注
關(guān)注
87文章
30763瀏覽量
268914 -
阿里云
+關(guān)注
關(guān)注
3文章
952瀏覽量
43010 -
大模型
+關(guān)注
關(guān)注
2文章
2427瀏覽量
2650 -
AI大模型
+關(guān)注
關(guān)注
0文章
315瀏覽量
306
原文標(biāo)題:華山論劍:AI 大模型時代的高性能網(wǎng)絡(luò)如何演進(jìn)?
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論