電子發燒友網報道(文/周凱揚)在現代數據中心架構中,網絡和計算設備都部署在兩層甚至三層的互聯矩陣中,與傳統的多層架構不同,數據中心的交換矩陣促成了服務器架構的扁平化,進一步縮短了數據中心內不同端點之間的距離,提高效率的同時,也降低了延遲。
可以說交換矩陣技術決定了數據中心的擴展性,相較傳統的網絡交換矩陣而言,如今的復雜計算交換矩陣,也就是我們所說的芯片外互聯技術,更是提高算力的重要解決方案之一。
英偉達NVLink和NV Switch
與其他公司采用的通用交換矩陣技術不同,英偉達憑借其在互聯交換技術上的積累,再結合收購Mellanox獲得的技術,為其GPU產品打造并迭代了NVLink和NVSwitch技術。
以目前的英偉達GPU服務器集群為例,集群內的GPU通過NVSwitch交換機,以NVLink來實現互相通信。如今NVLink技術已經發展至第五代,NVSwitch也已經發展至第四代NVLink Switch。
隨著GB200的出現,英偉達已經實現了單Blackwell GPU支持18個NVLink連接的可拓展性,也使得總帶寬達到了1.8TB/s,是第四代NVLink技術的兩倍,更是遠超PCIe 5.0。
單個GB200 NVL72服務器更是可以集成72個GB200 GPU,依靠NVLink Switch實現130TB/s的總帶寬,這樣的可拓展性對于提高現在的大模型訓練規模和速度來說尤為重要,NVL72就可以普遍用于訓練萬億參數級別的大模型。
AMD Infinity Fabric
雖然很多AI加速器初創企業或英偉達的競爭對手,都會鼓吹單個GPU或加速器的性能本身,但如果不能從擴展性上縮短差距,也很難被云服務廠商和數據中心大規模商用。以英偉達的老對手AMD為例,他們的MI300系列在交換矩陣的支持上由128鏈路組成,其中64個支持PCIe 5.0和自研的Infinity Fabric,另外64個則僅支持Infinity Fabric。
在單芯片或單個服務器上的性能可能會更加優異,但一旦擴展至數百個服務器的規模下,就很難繼續保持優勢了。AMD也很清楚自己需要縮小這一差距,但僅僅依靠自身在Infinity Fabric交換矩陣上的積累,很難打通整個生態,所以AMD選擇了合作開放一途。
早在去年AMD的Advancing AI大會上,AMD就宣布向生態合作伙伴開放自己的Infinity Fabric IP(XGMI),呼吁別的交換芯片廠商對Infinity Fabric加以支持。比如博通就表示,其下一代PCIe交換芯片,除了支持PCIe、CXL之外,也將支持AMD的Infinity Fabric。
然而這里指的并不是今年下半年才送樣的PCIe 6.0交換芯片,Atlas 3系列,而是PCIe 7.0的Atlas 4系列。由此看來,要想真正見到第三方交換矩陣方案支持AMD的Infinity Fabric,還得等到PCIe 7.0正式面世。
寫在最后
對于市面上其他的AI加速器而言,開放標準或已有的商用標準是他們的最好選擇,比如PCIe、CXL等等。除此之外,據了解一些與緩存一致性相關的專利即將過期,或許對于一些初創公司來說,未來會有開源的高端交換互聯方案供他們選擇。
-
數據中心
+關注
關注
16文章
4792瀏覽量
72172
發布評論請先 登錄
相關推薦
評論