5G與AI的到來催生了無數全新的應用,這些應用帶來大量數據,促使加速器的使用量大幅增加,形成了數據中心異構計算的趨勢。
這種趨勢意味著,越來越多不同類型的處理器和協處理器必須有效地協同工作,同時共享存儲器。這種分解可能導致系統由于在加速器上占用大量內存而遭遇嚴重的瓶頸,并且始終都需要與主機共享該存儲器以避免不必要的和過度的數據復制。
為什么CXL很重要?
此前有相關文章提到,普通電腦用戶也許偶爾有借用顯存的需求,不過這種需求不強烈,在某種程度上也很容易做到,顯存基本上都會被映射到PCI的mmio地址空間中,一個簡單的驅動就可以將它們映射到普通的地址空間中,但如果在其上運行任何banchmark軟件你就會發現性能相當差。
更重要的是,服務器用戶有巨大的內存池和數量龐大的基于PCIe運算加速器,每個上面都有很大的內存。內存的分割已經造成巨大的浪費、不便和性能下降。為此,業界采用讓加速器與處理器進行高性能連接的方法,在理想情況下,它們可以共享同一個內存空間以減少開銷、降低延遲。
事實上,在未來,互連技術將會變得越來越重要,因為在新興應用程序中處理數據需要在CPU,GPU,FPGA,網絡和其他加速器中部署的標量,矢量,矩陣和空間架構的多種組合。CXL是互連技術的一個很好的例子,該互連技術旨在解決CPU和專用加速器不斷增長的高性能計算工作負載。
CXL(Compute Express Link)是一項雄心勃勃的新互連技術,可以實現CPU與GPU、FPGA等(數據中心)專用加速芯片間的快速連接,推動下一代數據中心的性能。助力每個設備之間的資源共享,提高多個設備之間的共享操作和數據的效率,降低延遲,保留其物理層的簡單性和適應性,是用于數據中心環境中的可移動高帶寬設備(例如基于GPU的計算加速器)。
AI,多媒體,圖像和語言處理,加密等多方面的新興數據處理應用程序將從CXL中受益匪淺。例如顯卡、GPU計算加速器和高密度計算卡。所有這三種CXL事務層協議都與此類設備相關。接下來是FPGA和NIC。CXL.io和CXL.cache在這里很重要,因為網絡堆棧是由NIC本地的處理器處理的。最后,還有所有重要的內存緩沖區,未來的數據中心將由成千上萬臺物理機和加速器之間共享的巨大內存池組成。
CXL在CPU和工作負載加速器(例如GPU,FPGA和網絡)之間創建了高速,低延遲的互連。CXL保持了設備之間的內存一致性,從而允許資源共享以實現更高的性能,降低的軟件堆棧復雜性并降低總體系統成本。
盡管存在其他互連協議,但CXL在單一技術中提供CPU /設備內存一致性,降低設備復雜性以及行業標準的物理和電氣接口的獨特性,以提供最佳的即插即用體驗。
英特爾數據中心執行副總裁兼總經理Navin Shenoy在一篇博客文章中說,CXL將消除CPU和數據中心專用加速器芯片之間的瓶頸。
PCle 5.0 與CXL
我們最初看到關于CXL的消息是在去年Hot Interconnects會議上,英特爾進行了技術演示并闡明了CXL的具體細節。
在協議具體應用方面,CXL官方給出的解釋為:CXL 1.0版本支持CPU、硬件平臺和加速芯片(如GPU、FPGA和其他專用加速器解決方案)之間的高速、高效互連。該技術建立在PCI-Express(PCIe)基礎上,利用PCIe 5.0物理和電氣接口在I/O協議、內存協議(最初允許主機與加速器共享內存)、一致性界面三方面提供協議支持。
不難發現,CXL的推出與PCIe 5.0協議綁定,不過目前該協議尚不可用。今年早些時候,英特爾曾透露,明年也許會在產品上引入PCIe 5.0。
在此之前,PCI-Express 4.0于2017年問世,目前仍僅支持兩種處理器-IBM的Power9和AMD的“羅馬” Epyc 7002,而更早之前的PCIe 3.0于2010年推出。實際上,5.0緊跟4.0之后,許多產品可能會簡單地跳過4.0版本并直接升級到5.0。PCIe的每個版本都將吞吐量提高了一倍,5.0版本的吞吐量為63 GB/s,采用16通道實現。相比之下,2003年PCIe 1.0的16通道吞吐量為4 GB/s。
來源:技術維新網站
回到1992年英特爾的原始PCI的規格,當時,32位總線的時鐘速率為33.33MHz,數據速率為133MB/s。當然,最初的PCI使用并行同步數據線,時鐘和總線仲裁問題限制了吞吐量。所有的PCIe規范都依賴于高速串行數據傳輸,每個連接的設備都有一對專用的全雙工傳輸線和接收線。與現代串行鏈路一樣,時鐘被嵌入到數據流中,消除了對外部時鐘線的需要。在限制通道傾斜的條件下,采用多通道來提高吞吐量,從而使控制器能夠重新組合條帶數據。
說回PCIe 5.0,新思科技高級市場經理Gary Ruggles指出,數據中心近年來發生巨大變化,尤其是在部署408萬千兆位超大規模數據中心的過程中,對PCIe 5.0的需求開始迅猛增長。舊的 PCI Express (PCIe) 技術正在加速向最新的 5.0 版本過渡,片上系統 (SoC) 設計人員會發現推出速度比使用 PCIe 4.0 時更快。
在此前Synopsys 舉辦的網絡研討會上,觀眾的問卷調查答案顯示,雖然許多 PCIe 4.0 設計的啟動工作井然有序,但一些設計人員正在跨過 PCIe 4.0 并直接轉向 PCIe 5.0 設計。調查還顯示,許多尚未改用 PCIe 5.0 設計的人員也會在未來 12 個月內改用。最近完成的 PCIe 基礎規范 5.0 版本現在能夠以高達 32GT/s 的速度實現 CPU 和外設的互連。
如何促進新一代異構計算架構?
PCIe 5.0 發布已經有一段時間了,但是相關硬件產品遲遲沒有問世,這其中有市場因素,但是PCIe 5.0的技術難度也是其中一個原因。正如前文所言,PCI Express實際上是一種標準接口,用于I/O鏈接,并幫助提高數據傳輸速率。在不斷升級中,要達到PCIe 5.0為標準的32GT/s的速度將達到挑戰。
對于系統設計師來說,印刷電路板(PCB)的走線、連接器、電纜乃至IC封裝都是系統級的帶寬限制因素,它們使得高數據速率的設計變得具有挑戰性。高信號頻率增加了銅損和功率損耗,這會導致傳輸距離減小。另外,更高信號頻率中存在的通道損失會導致信號完整性(SI)問題。
為了驗證其設計,系統設計人員必須與信號完整性工程師、封裝設計人員、SoC設計人員以及電路板布局設計人員密切合作,對其通道中的每個組件進行建模,并驗證其整個端到端性能。
對于PHY設計師來說,對16GT/s PHY設計進行漸進式改進在大多數應用中并不足以滿足PCIe 5.0通道要求。由于在 32GT/s 速度下信道損耗顯著增加,發射器(TX)和接收器(RX)中的均衡電路需要顯著的改進。另外,更嚴格的抖動參數和抖動限制以及回波損耗規格也要求在TX和RX中重新設計許多子電路。
PCIe PHY 設計必須包含獨特的架構,配備經過驗證的模擬前端、連續時間線性均衡器和先進的多抽頭決策反饋均衡器,可以無縫協作以緩解設計問題。PHY 和控制器的集成需要更仔細的規劃,才能確保 PIPE 接口的兼容性,并且方便完成 1GHz 時的時序收斂。
為了實現最高性能,必須仔細選擇和管理幾個 PCIe 5.0 控制器配置選項。應探索進行架構權衡,平衡最大有效載荷大小、讀取請求大小、標簽數量和其他重要的控制器配置設置。必須對芯片和封裝進行仔細的信號和電源完整性分析,并且必須仿真整個信道,確保在 32 GT/s 時達到性能目標。在更高的數據速率下解決信號完整性、封裝和通道性能等問題需要在多個領域具備充分能力。
簡而言之,SoC 設計人員將面臨例如增多的信道損耗、復雜的控制器考量、PHY 和控制器集成、封裝和信號完整性問題以及建模和測試要求等多種關鍵設計挑戰。因此越來越多的片上系統(SoC)設計人員采用經過驗證的第三方IP來進行成功的IC集成。
作為半導體IP頭部廠商,新思顯然已經考慮到了這些。報道稱,此前,新思推出了適用于 PCIe 5.0 的 Synopsys DesignWare IP 全套解決方案包含控制器、PHY 和驗證 IP。該解決方案以32GT / s的數據速率運行,可為云計算,存儲和AI SoC提供低延遲和高性能的實時數據連接。
經過硅驗證的IP支持 PIPE 4.4.1 和 5.1.1 規范,使用的架構可承受超過 36dB 的信道損耗,并能直接實現 1GHz 的時序收斂。這種控制器具有高度可配置性,支持多種數據路徑寬度,包含經過硅驗證和測試的 512 位架構,并具有業界最廣泛的 RAS-DES 功能,可實現無縫啟動和調試。這種經過硅驗證的解決方案已被眾多客戶采用,可提供準確仿真 PCIe 系統所需的完整 IBIS-AMI 模型。
采用新思以數十年PCIe專業知識為基礎的面向PCIe 5.0的IP,SoC設計人員可以盡早啟動其32GT/s 的設計。
當實現具有32Gbit / s帶寬的PCIe Gen 5時,CXL總線協議就可以在其上運行。最早的PCIe Gen 5系統以及CXL將于2021年問世。總體思路是PCIe 5.0 + CXL將用于高性能數據中心服務器,而PCIe 4.0僅用于性能較低的服務器和臺式機/筆記本電腦/工作站系統。
CXL方案中有三個子協議,它們可以在CXL導線上同時使用。它們是CXL.io,CXL.cache和CXL.memory。
CXL.io 協議本質上是經過一定改進的 PCIe 5.0 協議,用于初始化、鏈接、設備發現和列舉以及寄存器訪問。它為 I/O 設備提供了非一致的加載/存儲接口。
CXL.cache 協議定義了主機和設備之間的交互,允許連接的 CXL 設備使用請求和響應方法以極低的延遲高效地緩存主機內存。 ●CXL.memory 協議提供了主機處理器,可以使用加載和存儲命令訪問設備連接的內存,此時主機 CPU 充當主設備,CXL 設備充當從屬設備,并且可以支持易失性和持久性存儲器架構。
憑借 PCIe 5.0的強大基礎設施,以及高帶寬的支持下,CXL使加速器和CPU之間實現更加連貫的內存共享,促進了異構計算中專用加速器和通用CPU的協同工作。
英特爾研究員、英特爾I/O技術與標準主管Debendra Das Sharma博士指出:“Compute Express Link是新一代異構計算架構的關鍵促成因素,在這些架構中,CPU和加速器配合使用以提供最先進的解決方案。在新思科技等領先IP核提供商的支持下,我們正在開發一個有望讓整個行業受益的穩定、創新型CXL生態系統。”
總 結
作為接口IP核領域的領導者,新思科技一直站在為新一代互連(如CXL)開發IP核解決方案的前沿,以幫助設計人員將必要的功能整合進他們的芯片中。利用在PCI Express 5.0方面的專業知識,將完整的DesignWare CXL IP核解決方案推向市場,使設計人員能夠滿足其芯片的內存一致性和快速數據連接要求,同時降低相關風險。
責任編輯:xj
原文標題:為新一代異構計算架構搭橋,新思在里面扮演什么角色?
文章出處:【微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
-
新思科技
+關注
關注
5文章
798瀏覽量
50347 -
異構計算
+關注
關注
2文章
101瀏覽量
16303
原文標題:為新一代異構計算架構搭橋,新思在里面扮演什么角色?
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論