在Meta,我們相信開放的硬件會推動創新。在當今世界,越來越多的數據中心基礎設施致力于支持新興的AI技術,開放硬件在協助分解方面發揮著重要作用。通過將傳統數據中心技術分解為其核心組件,我們可以構建更加靈活、可擴展和高效的新系統。
自2011年幫助創建OCP以來,我們分享了數據中心和組件設計,并開源了網絡編排軟件,以激發自己的數據中心和整個行業的新想法。這些想法使Meta的數據中心成為世界上最具可持續性和效率的數據中心之一。現在,通過OCP,我們正在為數據中心和更廣泛的行業帶來新的開放的先進網絡技術,用于先進的AI應用。
我們宣布了數據中心的兩個新的里程碑:下一代AI網絡結構,以及與多家供應商密切合作開發的新網絡硬件組合。
DSF:已分解并開放的結構
網絡性能和可用性在從AI訓練集群中提取最佳性能方面起著重要作用。正是出于這個原因,我們一直在為AI集群推動后端網絡結構的分解。在過去的一年里,我們為下一代AI集群開發了一個分解的計劃結構(DSF),以幫助我們開發開放的、與供應商無關的系統,這些系統具有來自整個行業供應商的可互換的構建塊。基于DSF允許我們構建大型、無阻塞的結構,以支持高帶寬AI集群。
DSF將我們的分解網絡系統擴展到基于VoQ的交換系統,該系統由開放的OCP-SAI標準和FBOSS(Meta自己的網絡操作系統,用于控制網絡交換機)提供支持。基于VoQ的調度確保了網絡中的主動擁塞避免,而不是被動的擁塞信號和反應。
DSF結構支持一個開放和標準的基于以太網的RoCE接口,跨越多個xPU和NIC,包括Meta的MTIA以及來自幾個供應商的端點和加速器。
下一代AI結構的DSF平臺
Arista 7700R4系列
DSF平臺,Arista 7700R4系列,由專用的葉片和spine系統組成,它們組合在一起形成一個大型的分布式交換機。作為一個分布式系統,DSF旨在支持大規模的AI集群。
7700R4C-38PE: DSF葉片開關
DSF分布式葉式交換機(基于Broadcom Jericho3-AI)
18 * 800GE (36 * 400GE) fp800主機端口
20 *800Gbps (40 *400Gbps)光纖接口
14.4Tbps的無線速度性能和16GB的緩沖區
7720R4-128PE: DSFspine開關
DSF分布式主干交換機(基于Broadcom Ramon3)
加速計算優化流水線
128*800Gbps (256*400Gbps)光纖接口
102.4Tbps的無線速度性能
下一代400G/800G光纖的51T交換機
Meta將部署兩款下一代400G光纖交換機,Minipack3(最新版本的Minipack,Meta自己的光纖網絡交換機)和Cisco 8501,這兩款交換機都可以向后兼容之前的200G和400G交換機,并支持升級到400G和800G。
Minipack3采用Broadcom最新的Tomahawk5 ASIC,而Cisco 8501則基于Cisco的Silicon One G200 ASIC。這些高性能交換機的傳輸速率高達51.2 Tbps,具有64x OSFP端口,并且該設計在不需要計時器的情況下進行了優化,以實現最大的功率效率。與之前的型號相比,它們也顯著降低了每比特的功率。
Meta將在FBOSS上同時運行Minipack3和Cisco 8501。
光學:2x400G FR4光學器件,用于400G/800G光互連
Meta的數據中心結構已經從200 Gbps/400 Gbps發展到400 Gbps/800 Gbps,我們已經在數據中心部署了2x400G光學器件。
DSF中FBOSS和SAI的演化
我們繼續采用OCP-SAI將新的網絡結構、交換硬件平臺和光收發器搭載到FBOSS。我們與供應商和OCP合作,共同發展SAI。它現在支持新的特性和概念,如DSF和其他增強的路由方案。
來自世界各地的開發人員和工程師可以使用這個開放硬件,并貢獻自己的軟件,反過來,他們可以自己使用并與更廣泛的行業共享。
FBNIC:由Meta設計的多主機基礎網卡
我們正在繼續設計更多的ASIC,包括用于FBNIC的ASIC。FBNIC是一個真正的多主機基礎網卡,包含了為服務器艦隊和MTIA解決方案設計的第一個元網絡ASIC。它最多可以支持四個主機,每個主機具有完全的數據路徑隔離。FBNIC驅動程序從v6.11內核開始可用,NIC模塊由Marvell設計,并已貢獻給OCP。
FBNIC的主要特點包括:
網絡接口高達4*100/4*50/4*25 GE,SerDes支持高達56G PAM4每通道。
最多4個獨立的PCIe Gen5片
HW卸載包括LSO,Checksum
用于PTP的線路速率時間戳(從PHY一直到每個主機)
頭數據分割,以協助零拷貝
兼容OCP網卡3.0,版本1.2.0,設計規范
未來是開放的
推進AI意味著構建超越規模的數據中心基礎設施。它還必須考慮到靈活性,高效和可持續地執行。在Meta,我們設想AI硬件系統的未來不僅是可擴展的,而且是開放和協作的。
我們鼓勵任何想要幫助推進AI網絡硬件未來的人與OCP和Meta合作,以幫助共享AI基礎設施的未來。
-
數據中心
+關注
關注
16文章
4761瀏覽量
72033 -
AI
+關注
關注
87文章
30728瀏覽量
268886 -
OCP
+關注
關注
0文章
79瀏覽量
16424 -
DSF
+關注
關注
0文章
9瀏覽量
2395
原文標題:Meta AI數據中心網絡用了哪家的芯片?
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論