當地時間 9 月 12 日,思科正式宣布已停止生產其 HyperFlex 超融合基礎設施(HCI)產品。
思科表示,做出這個決定有兩方面的考慮。一方面是不斷變化的客戶需求和市場形勢,讓自己重新考慮了針對這款設備的計劃;另一方面是超大規模計算公司開始涉足這個市場。例如,甲骨文剛剛將其本地云精簡為一款可與大型超融合設備競爭的產品。
思科沒有詳細解釋為何停止 HyperFlex,只是說,這是為客戶、合作伙伴和員工提供更有力的支持。思科發言人稱,思科“仍然致力于簡化混合多云運營”。但實現這一目標背后出力的是 Nutanix 而不是思科。兩家公司最近宣布合作,在思科硬件上運行 Nutanix 的軟件堆棧,思科出售最終的設備并獲得傭金。
思科承諾為 HyperFlex 客戶提供五年的支持和服務。不過,對于使用 HyperFlex 運行 VMware ESXi 虛擬機管理程序的客戶來說,這項服務很復雜。思科不會在其硬件上認證未來版本的 ESXi ,也就是說 VMware 客戶要么在 ESXi 8.0 退出支持后依舊使用,要么運行不受支持的代碼。
另一種選擇是完全放棄 HyperFlex,思科已經針對這種情況發布了一份白皮書。亦或是清理 HyperFlex 并將其運行的機器用作普通 UCS 服務器使用。為了讓該平臺的用戶有時間做好準備。思科將在 2024 年 3 月 12 日之前繼續接受 HyperFlex 硬件和軟件的訂單,并嘗試在同年 6 月 10 日之前全部發貨。
厭倦了成為“others”
思科之所以放棄 HyperFlex,可能是因為它的銷量始終沒能達到讓思科滿意。
IDC 2022 年底的數據顯示,在該市場中,VMware 占據了絕對優勢的 41% 份額, Nutanix 占 25%,排名第三的HPE 占 7.3% ,這使得思科只能“屈居”于“其他”類別中。
思科一直在大肆宣傳自己在刀片服務器領域的實力——UCS 服務器占據利基市場,但實際上從未撼動過戴爾、 HPE 或聯想等其他玩家的地位。HyperFlex 對于改變這種局面似乎幫助不大,在思科將大部分工具轉向云和訂閱模式的時期,反而給思科帶來了維護管理軟件堆棧的負擔。
鑒于這塊業務始終無法做出成績,而超大規模云又對服務器制造商構成威脅,混合云又減少了對本地設備的需求,這也不難看出為什么思科決定讓 HyperFlex 的時代提前結束了。
不過思科沒有錯過這輪AI網絡的風口,此前就制定了一系列基于以太網的AI網絡戰略。
思科基于以太網的AI網絡戰略
思科云網絡、Nexus和ACI產品線產品管理副總裁Thomas Scheibe表示:“各組織正坐擁海量數據,他們正在研究人工智能技術,試圖讓這些數據更容易訪問,并更快地從中獲得價值。客戶想知道他們需要在網絡方面做什么,以便能運行其龐大的 GPU 集群并處理大量數據。對于大多數客戶來說,以太網將是答案。”
為此,思科制定了一份藍圖,定義組織如何使用現有數據中心以太網來支持人工智能工作負載。思科人工智能藍圖的核心組件是其 Nexus 9000 數據中心交換機,這些交換機的每個 ASIC 高達 25.6Tbps 的帶寬,并且擁有可用的硬件和軟件功能,可提供所需的低延遲、擁塞管理機制和遙測, 可提供 AI/ML 集群所需的極高吞吐量。
此外,最近思科在面向AI的新型高端可編程Silicon One處理器取得了全新進展,芯片產品家族又添新成員。全新處理器包括Silicon One G202和Silicon One G200,能夠實現25.6Tbps和51.2Tbps的轉發性能。兩款處理器建立在 Cisco Silicon One G100統一架構的技術基礎之上實現突破創新。針對高帶寬、超大規模數據中心以及 AI/ML高性能網絡進行了全面優化,構建無損、低延遲和高能效的AI數據中心。
RoCEv2 作為 AI 集群的傳輸
RDMA是眾所周知的用于高性能計算和存儲網絡環境的技術。RDMA 的優點是在內存到內存級別的計算節點之間實現高吞吐量和低延遲的信息傳輸,而不會給 CPU 帶來負擔。該傳輸功能被卸載到網絡適配器硬件以繞過操作系統軟件網絡堆棧。
RDMA 提供了多種網絡傳輸實現,包括InfiniBand 和基于以太網的RoCE。
InfiniBand (IB) 提供高吞吐量和 CPU 旁路,從而降低延遲。InfiniBand 還在協議中內置了擁塞管理,這些優勢使 InfiniBand 成為高性能計算傳輸的首選。對于需要 HPC 工作負載的企業網絡,InfiniBand 設計了一個單獨的網絡以利用其所有優勢,但這些專門構建的網絡給企業帶來了額外的成本和復雜性。
RoCE 是 InfiniBand 的以太網轉發擴展。RoCEv2 將 IB 傳輸封裝在以太網、IP 和 UDP 報頭中,因此可以通過以太網進行路由。ROCEv2是一種高性能網絡計算技術,可以讓數據直接在兩個設備的內存之間傳輸,而無需涉及服務器CPU。它允許通過單個連接同時傳輸或路由多個數據包,從而減少延遲和復雜性并提高吞吐量。
RoCE 和 RoCEv2 幀格式,其中 RoCEv2 IP 和 UDP 報頭位于以太網之上
以太網在企業數據中心中無處不在,網絡管理員對以太網非常熟悉,這是該技術的一大優勢。除此之外,經濟性和創建承載常規企業流量以及 RDMA 工作負載的“融合”結構對客戶非常有吸引力,這也是在數據中心網絡中實施 RoCEv2 的原因之一。
RoCEv2 需要無損傳輸,可以通過使用顯式擁塞通知 (ECN) 和優先級流量控制 (PFC) 擁塞避免算法來實現。
AI集群需要無損網絡
對于RoCEv2傳輸,網絡必須提供高吞吐量和低延遲,同時避免在發生擁塞的情況下流量下降。Cisco Nexus 9000 通過 ECN 和 PFC 中的軟件和硬件遙測在無損網絡中提供支持和可見性。
顯式擁塞通知 (ECN)
在需要端到端傳播擁塞信息的情況下,可以使用ECN進行擁塞管理。ECN 在 IP 報頭服務類型 (TOS) 字段內的 2 個最低有效位內經歷擁塞的網絡節點中進行標記。當接收方收到 ECN 擁塞經歷位設置為 0x11 的數據包時,它會生成擁塞通知數據包 (CNP) 并將其發送回發送方。當發送方收到擁塞通知時,它會減慢與該通知匹配的流量。這種端到端流程構建在數據路徑中,因此是管理擁塞的有效方法。
網絡設備和終端主機使用的 ECN 位值
ECN 本質上是通過監控網絡擁塞或其他可能導致數據包丟失的情況,并限制網絡以確保這種情況不會發生,從而實現無損以太網。無損以太網不僅是AI網絡的關鍵要求,也是當今 VOIP 或視頻環境的關鍵要求。
優先流量控制 (PFC)
優先級流量控制在第 2 層網絡中引入,作為實現無損以太網的主要機制。流量控制由第 2 層幀中的服務類別 (COS) 值驅動,并使用暫停幀和暫停機制來指示和管理擁塞。然而,構建可擴展的第 2 層網絡對于網絡管理員來說是一項具有挑戰性的任務。因此,網絡設計大多演變為第 3 層路由結構。
由于 RoCEv2 可以路由,因此 PFC 被調整為與DSCP 優先級配合使用,以發出網絡中路由跳之間的擁塞信號。DSCP 是一種用于對 IP 網絡上的網絡流量進行分類的機制。它使用 IP 報頭中的 6 位差分服務字段來進行數據包分類。使用第 3 層標記使流量能夠跨路由器維護分類語義。由于 PFC 幀使用鏈路本地尋址,因此網絡設備可以接收并執行路由和交換流量的暫停信令。PFC 從擁塞位置到流量源逐跳傳輸。此逐步行為可能需要一些時間才能傳播到源。PFC 用作管理 RoCEv2 傳輸擁塞的主要工具。
Cisco Nexus 9000 交換機支持 PFC 擁塞管理和 ECN 標記,通過加權隨機早期檢測 (WRED) 或近似公平丟棄 (AFD) 來指示網絡節點中的擁塞情況。
PFC 和 ECN 相輔相成,提供最高效的擁塞管理。它們共同在擁塞期間提供最高的吞吐量和最低的延遲損失,在構建無損以太網中發揮著重要作用。總而言之,這些技術可以使以太網能夠對某些工作負載進行優先級排序,例如人工智能工作負載,它們不能容忍任何丟包,并且即使出現擁塞也始終獲得網絡優先級。
Silicon One
思科AI網絡基礎設施的另一個要素是其新型高端可編程Silicon One處理器,該處理器旨在為企業提供大規模 AI/ML基礎設施。
思科將 5 納米 51.2Tbps Silicon One G200 和 25.6Tbps G202 添加到其Silicon One 系列中。這些處理器可以針對單個芯片組的路由或交換進行定制,從而無需為每個網絡功能使用不同的芯片架構。這是通過通用操作系統、P4 可編程轉發代碼和 SDK 來完成的。
思科表示,這些新設備位于 Silicon One 系列的頂端,將帶來網絡增強功能,使其成為要求苛刻的 AI/ML 部署或其他高度分布式應用的理想選擇。Silicon One 系統的核心是支持增強的以太網功能,例如改進的流量控制、擁塞感知和避免。該系統還包括先進的負載平衡功能和“packet-spraying”功能,可將流量分散到多個 GPU 或交換機上,以避免擁塞并改善延遲。思科表示,基于硬件的鏈路故障恢復還有助于確保網絡以最高效率運行。
結合這些增強型以太網技術并進一步推進,最終使客戶能夠建立思科所謂的Scheduled Fabric。思科表示,在Scheduled Fabric中,芯片物理組件、光學器件、交換機像一個大型模塊化機箱一樣連接在一起,并相互通信,以提供最佳的調度行為和更高的帶寬吞吐量。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19293瀏覽量
229941 -
以太網
+關注
關注
40文章
5427瀏覽量
171776 -
交換機
+關注
關注
21文章
2641瀏覽量
99678 -
人工智能
+關注
關注
1791文章
47314瀏覽量
238625 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5820
原文標題:思科新動作:放棄 HyperFlex超融合,強化基于以太網的AI網絡戰略!
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論