在本系列的第二部分也是最后一部分中,我將介紹一種更好的方法來應對這些挑戰,并展示Microchip創新如何構建計算、內存和存儲的敏捷基礎架構。我還將重點介紹行業和像我們這樣的供應商為滿足可組合平臺的需求而實現的技術進步。
實現敏捷基礎架構的最佳途徑
在Microchip,我們堅信實現這種資源敏捷性的最佳方法是構建靈活的解決方案構建塊。我們正在創建能夠適應新用例和新要求的構建塊。并啟用系統級可組合性。有了可組合和靈活的基礎設施,或者我們稱之為敏捷的基礎設施,效率的巨大進步是可能的。
在將物理計算、存儲和內存資源視為可組合構建塊的情況下,實現資源敏捷性是提高效率和消除擱淺或未充分利用資產的關鍵。可組合存儲、計算和內存使您能夠按工作負載優化資源,并減少或消除資源擱淺。我們可以消除帶寬瓶頸、內存瓶頸、存儲瓶頸和計算 IO 瓶頸。敏捷數據中心需要適應性強的構建塊芯片平臺,使您能夠經濟高效地管理新興的內存和存儲技術,使您的基礎架構用例在硬件構建后繼續發展。
提高 GPU 利用率
Microchip的Switchtec PAX Advanced Fabric解決方案支持可組合的異構計算架構。這包括可擴展的非分層結構,其中結構創建可動態重新配置的虛擬域。資源通過低延遲數據移動按需分配,因為通過結構的所有數據傳輸都由硬件管理。該解決方案不需要對主機進行任何特殊的驅動程序要求,從而加快上市時間并減少系統集成商的研發工作。
它是如何工作的?重要的是要認識到,Switchtec 結構不僅僅是 PCIe 交換機的集合。它是結構元素的集合,這些元素使用虛擬域將路由復合體或 CPU 連接到 GPU 或存儲等端點。隨著異構計算在數據中心變得越來越普遍,這一點非常重要。GPU 和加速器廣泛用于各種應用。每個應用程序和工作負載可能需要唯一的計算與加速器資源比率。PCIe Gen 4 架構在 CPU 和 GPU 上都原生支持 PCIe Gen 4,是允許在人工智能和機器學習應用中進行可組合異構計算的自然選擇。
我們如何到達那里?我們從可編程、企業級質量、低延遲的 PCIe Gen 4 交換機開始。我們添加了交鑰匙高級交換矩陣固件,以創建可擴展且可配置的低延遲 PCIe 第 4 代交換矩陣。PCIe 結構可以擴展多個交換機和端點,主機保存在單獨的虛擬域中。
在下面的示例中,我們將看到主機 1 如何分配給 4 個標記為橙色的 GPU,即使第 4 個 GPU 在物理上連接到結構中的不同交換機。這些虛擬域由每個結構元素中靈活且可配置的嵌入式控制平面創建。虛擬域實際上是一個符合 PCIe 標準的虛擬交換機,在這里您可以看到一個橙色主機示例,該主機可以看到第 4 個 GPU。雖然通過Microchip提供的固件作為交鑰匙解決方案實現了靈活性,但數據在硬件中路由以確保最低延遲。
此外,此體系結構允許在結構內直接進行點對點數據移動。為什么通過 PCIe 交換矩陣的點對點數據移動很重要或有用?點對點數據移動可提高性能并減少延遲。在下面的示例中,我們可以通過繞過雙插槽系統中的 CPU 到 CPU 互連來提供 2.5 倍的帶寬。您可以看到,在這種情況下,GPU 在執行點對點傳輸時可以提供 26 Gbps,而不是通過 CPU 子系統匯集流量。由于直接的點對點傳輸,此處的性能有了顯著提高。
這種可組合 GPU 模型通過將 NVMe SSD 添加到同一結構架構中,可輕松擴展到 NVMe 存儲。NVMe 端點可以簡單地添加到結構中,就像符合規范的 GPU 一樣。這允許根據需要將 SSD 動態分配或重新分配給不同的主機,從而使存儲成為靈活且適應性強的資源。
我們已經討論了根據需要將整個 SSD 和整個 GPU 分配給主機。如果單個資源本身非常大,并且我們希望對此類資源進行分區和共享,該怎么辦?這樣的例子就是我們希望在多個CPU之間共享的高容量SSD,以避免存儲擱淺。
SR-IOV 和多主機共享正是允許這種類型的靈活性。Microchip的Switchtec PCIe擴展器以及我們的Flashtec NVMe SSD控制器通過標準的現成驅動程序實現端到端多主機IO虛擬化。SR-IOV是當今的現實。有超過八家供應商宣布了支持 SR-IOV 的 NVMe SSD,我們擁有靈活的基礎架構來支持此類架構。值得注意的是,PCIe 交換矩陣的應用超出了數據中心的范圍。在自動駕駛汽車中,您可以擁有許多傳感器和控制單元,它們在駕駛時不斷需要做出推理決策,以存儲數據以供將來訓練。這可以通過擁有低延遲結構來最有效地完成,該結構可以訪問共享資源,例如支持 SR-IOV 的 SSD。
我們已經討論了通過PCIe結構解決方案(如Switchtec PCIe結構)提高GPU和存儲利用率以及消除存儲帶寬瓶頸。但真正的敏捷性需要可組合性和靈活性。
提高存儲利用率
在存儲方面,可以通過許多不同的方式實現靈活性。Microchip相信將使能技術推向市場,以實現最大的重用,無論是軟件還是硬件認證工作,當您從一類存儲介質轉移到另一類存儲介質時。從協議的角度來看,我們的三模IP和智能存儲系列存儲控制器支持一個平臺,該平臺將允許企業級,高性能和安全的NVMe存儲,SAS存儲,SATA存儲或三者的某種組合。
從閃存介質的角度來看,我們的Flashtec NVMe SSD控制器中的閃存通道引擎提供面向未來的可編程架構,具有先進的LDPC ECC,包括硬解碼和軟解碼。這使得 NVMe SSD 能夠進行更多投資,在不犧牲服務質量的情況下利用多代 NAND。
提高內存利用率
內存創新正沿著兩個向量發生,近處和遠處。近內存創新是關于為 CPU 提供更多帶寬,以滿足 CPU 內不斷增加的核心數量。遠內存創新是關于有效地匯集然后共享內存,使其可供機架內的更多機器訪問。Microchip一直在與行業合作伙伴合作開發許多新的串行加載/存儲標準來解決這個問題,例如CXL,Gen Z和OpenCAPI。
在FMS上,我們發布了我們在這一領域的第一款產品,即DDR4智能內存控制器的開放式內存接口。
SMC 1000 8x25G 內存控制器通過 4 通道 8G 串行 OMI 開放式內存接口提供與 DDR25 的低延遲連接,從而實現 AI 和機器學習應用所需的內存帶寬。
這種類型的解決方案提供:
增加內存帶寬。我們將 288 引腳 DDR4 接口縮減為 84 引腳 OMI 接口,從而有效地將 CPU 的內存帶寬提高了四倍。
它使媒體獨立。通過將控制器移到 CPU 之外,我們使內存技術能夠獨立于 CPU 發展。
總體解決方案成本更低。CPU 和 SoC 的硅、IP 和封裝成本更低。
利用SMC 1000的DDIMM可從Microchip的一些合作伙伴處獲得,即美光,三星和智能模塊化。
總之,在Microchip,我們相信靈活和可組合的基礎設施是數據中心的未來。Microchip在存儲、內存和計算互連領域不斷創新,使系統構建商和數據中心運營商能夠提高效率并適應不斷變化的用例。
審核編輯:郭婷
-
gpu
+關注
關注
28文章
4752瀏覽量
129042 -
交換機
+關注
關注
21文章
2645瀏覽量
99775 -
PCIe
+關注
關注
15文章
1242瀏覽量
82765
發布評論請先 登錄
相關推薦
評論