介紹
近年來,向基于NAND閃存的存儲遷移和非易失性存儲器快車?(NVMe?)的引入,為技術公司以不同的方式“做存儲”增加了許多機會1。實時數字業務的快速增長和多樣化要求這種創新,以便實現新的產品和服務。因此,新的存儲產品順應了更高的帶寬、更低的延遲以及減少占地面積和總擁有成本的趨勢--這對于依賴大型基礎設施的公司來說是至關重要的改進。最近的市場報告2預測,NVMe市場將以約15%的年均增長率增長,到2020年達到570億美元。NVMe市場繼續發展,并在三個領域尋求進一步的技術創新。
1. 存儲虛擬化以提高靈活性和安全性
2. 靠近存儲數據的局部數據處理
3. 優化基礎設施的分類存儲3
2018年3月,BittWare發布了250系列FPGA產品,該產品提供了創新的解決方案,以滿足存儲市場的需求。250系列產品采用Xilinx? UltraScale+? FPGA和MPSoC,在單芯片中提供ASIC級功能,符合存儲行業的技術需求6。通過將NVMe與可重構邏輯FPGA和MPSoC相結合,BittWare提供了一類新的存儲產品,在快速發展的市場中具有關鍵的差異化優勢;Xilinx器件的靈活性和可重構性保證了基于20的解決方案可以保持最新的功能,因為NVMe標準隨著時間的推移會融入新的功能5。
本應用說明介紹了BittWare支持FPGA和MPSoC的250系列加速器產品如何用于讓客戶為下一代物聯網和云基礎設施構建高性能、可擴展的NVMe基礎架構。
NVMe路線圖
自2011年NVMe誕生以來,NVMe聯盟一直非?;钴S。事實上,NVMe協議目前正從三個角度發展,分別定義在不同的規范中。除了基本的NVMe規范外,NVMe管理接口(NVMe-MI)詳細介紹了如何管理通信和設備(設備發現、監控等),而NVMe over Fabric(NVMe-oF)則推動了如何通過網絡與非易失性存儲進行通信,以呈現協議的傳輸不可知性9。
隨著時間的推移,隨著越來越多來自不同行業的用戶開始采用NVMe,新用戶對新功能的需求進行了定性,并對規范提出了新的想法。NVMe協議的應用還在不斷增加,它正在產生創新。硬件和軟件公司正在通過引入新的外形因素、創造新的產品和設備等方式來尋找新的方式進入內存。NVMe生態系統的重點是為用戶提供擴展到數據中心或超大規?;A設施的手段,協議規范將繼續朝著這個方向發展9。
2019年將發布NVMe基礎規范的1.4修訂版,這將帶來數據延遲、非易失性數據的高性能訪問和多個主機之間數據共享的便利性方面的改進。NVMe用戶,特別是云提供商期待的功能之一是IO確定性,這將提高IO10并行執行期間的服務質量。通過將后臺維護任務的影響限制在最小范圍內,并控制嘈雜鄰居的影響,IO確定性功能將為用戶在訪問非易失性數據時提供一致的延遲。另一種方法是之前討論的開放通道架構11。通過第二種方法,主機接管了部分管理功能,只有數據前往存儲硬件。在這種配置中,硬盤與主機的物理接口僅限于高速數據通道,沒有邊帶通道。這個例子顯示了NVMe規范中任何變化的影響和相關性,并強調了對靈活的NVMe硬件基礎設施的要求。
隨著基礎、MI和over Fabric規范的新修訂版在未來幾個月內出臺,NVMe用戶將受益于一個靈活的基礎,它可以適應新的NVMe要求。250系列FPGA和MPSoC產品不僅提供了這種靈活性,而且還解決了當今客戶的挑戰,為客戶帶來了直接的競爭優勢。
為什么是FPGA?
Bittware的FPGA和MPSoC產品采用了最新的Xilinx UltraScale+技術,并滿足了數據中心對NVMe日益關注的需求。三十多年來,FPGA已經為多個行業提供了可編程硬件解決方案,并被廣泛用于解決汽車、廣播、醫療和軍事市場等領域的計算和嵌入式系統問題。同時,近年來,FPGA廠商在集成系統設計中對這一成熟技術進行了最新、最優秀的改進。
Xilinx UltraScale+ FPGA和MPSoC產品采用16nm工藝,通過提供高速結構、嵌入式RAM、時鐘和DSP處理來提高系統性能。此外,Xilinx器件還引入了更快的收發器技術(高達32.75Gb/s),以實現更高的吞吐量連接到網絡或PCIe結構。憑借其高數量的串行收發器通道,UltraScale+產品可以同時連接到多個PCIe接口,并為主機CPU提供數據卸載接口。在某些情況下,通過用FPGA或MPSoC替換PLX開關,CPU可以卸載部分處理工作,騰出時間進行其他操作。FPGA和MPSoC的可編程邏輯還可以在系統中提供確定性和低延遲的接口,在某些用例中可以獲得明顯的競爭優勢。
最近的FPGA系列現在也在器件結構中加入了嵌入式低功耗微處理器。UltraScale+ MPSoC通過將它們結合到單一封裝中,滿足了需要軟件以及可編程邏輯的應用需求。例如,Xilinx Zynq UltraScale+ ZU19EG具有兩個處理單元,一個是四核ARM Cortex-A53,一個是實時雙核ARM Cortex-R5,此外還有一個圖形處理單元ARM Mali?-400 MP2,滿足有混合計算需求的應用。ZU19EG MPSoC器件是一款非常通用的芯片,特別適合NVMe over Fabric或Open Channel的實現,其中可編程邏輯為存儲數據提供了低延遲的確定性路徑,而ARM內核則可執行復雜的數據包控制操作,或在無CPU的嵌入式系統中取代主機CPU。
在過去的幾年里,BittWare一直走在存儲行業的前列,并通過開發基于NVMe技術的產品為其創新發展做出了貢獻。BittWare認識到,FPGA可以減少I/O瓶頸,并為NVMe固態硬盤提供一條直接的高速確定性路徑。早在2015年,BittWare就與Xilinx和IBM合作開發了創新的NoSQL數據庫解決方案12。250系列FPGA&MPSoC板建立在這一初始產品的成功基礎上,并為服務器存儲背板增加了更深更快的板載內存、網絡連接、片上系統和布線選項等功能。
250 FPGA & MPSoC產品系列
250 FPGA和MPSoC產品線包括三種FPGA適配器,即250S+、250-U2和250-SoC,可連接到各種行業標準的外形尺寸,如PCIe插槽、OCuLink/Nano-Pitch、SlimSAS、MiniSAS HD、U.2存儲背板等。250系列產品可直接安裝到現有基礎設施的PCIe結構中,以實現對NVMe存儲設備的低延遲直接訪問。
?
250S+直連式加速器
該系列的第一個加速器是250S+。這款FPGA加速器采用Xilinx UltraScale+ Kintex 15P FPGA和4個板載四通道1TB M.2 NVMe驅動器(共4TB非易失性閃存),采用符合PCIe標準的8通道半高半長外形。另外,對于只想在系統中引入FPGA計算并且已經有存儲設備的客戶,M.2板載連接器可以使用Molex低損耗高速布線技術,連接到OCuLink/Nano-Pitch或MiniSAS HD NVMe背板。KU15P FPGA擁有1,143K系統邏輯單元、1,968個DSP Slices和70.6 Mb的嵌入式存儲器,是UltraScale+ Kintex FPGA系列中最大的器件,并為實現增值功能提供了大量的可配置資源。板載DDR4內存庫允許對更深層次的數據向量進行額外的緩沖。
?
250S+有兩種配置。
最多四個M.2 NMVe固態硬盤通過卡上耦合到Xilinx FPGA。
OCuLink 分離式布線使 250S+ 成為大規模擴展存儲陣列的一部分。
這款緊湊的高密度存儲節點為主機需要高速讀取或寫入數據到NVMe驅動器的應用提供了一個一體化的解決方案。板載FPGA設備可以有效地協調和處理數據流,將驅動器呈現為一個或多個命名空間或實現RAID功能。250S+可用作直接連接加速器(DAA)來虛擬化存儲,允許NVMe SSD與多個虛擬機共享,在主機CPU和NVMe SSD之間提供一層隔離和安全。FPGA的可編程邏輯還提供了在線打包、壓縮或加密數據的選項,對驅動器訪問帶寬和延遲的影響很?。焕纾琗ilinx的擦除編碼IP引入了可忽略不計的90ns延遲--與基于CPU的實現相比,在原始性能方面遠勝一籌。250S+還解決了檢查點重啟或突發緩沖緩存的用例;為虛擬化和獨立的AI和IoT環境提供了一個簡單的緩存解決方案。
直接附著式加速器(DAA)
虛擬化NVMe存儲,并在多個虛擬機之間共享。
隔離NVMe存儲,以提高主機CPU和NVMe SSD之間的安全性。
250S+ & 250-SoC
250S-U2代理在線加速器
250系列的第二個成員是250-U2。這款加速器板采用Xilinx UltraScale+ Kintex 15P FPGA(與250S+相同)和一列DDR4內存,采用2.5“U.2驅動形式。與250S+不同的是,250-U2沒有任何直接連接到FPGA的板載SSD。這款加速器的新穎設計使其能夠在沒有專用PCIe插槽的系統中適應現有的U.2存儲背板,在現有的標準U.2 NVMe存儲旁邊提供額外的計算能力。這款250-U2產品承擔了代理在線加速器(PIA)的角色。
?
250-U2可以執行在線壓縮、加密和散列,也可以執行更復雜的功能,如擦除編碼、重復數據刪除、字符串/圖像搜索或數據庫排序/加入/過濾。根據應用的計算需求,背板群體將顯示出不同比例的250-U2板卡用于NVMe驅動器。250-U2與存儲一起位于U.2背板中,與其他標準的U.2 NVMe驅動器一樣,具有利用NVMe-MI規范的維護選項。由于250-U2處理節點和存儲直接連接到主機服務器的PCIe結構,DMA數據流量可以完全繞過CPU和全局內存,利用SPDK等技術優化端到端數據傳輸。使用RDMA或點對點DMA解決方案,數據直接在NVMe端點之間流動,完全繞過CPU。這些直接進入FPGA和MPSoC可編程邏輯的接口大大降低了訪問延遲(Lusinsky,201721)。另外,這種硬件平臺的另一個用例是作為卸載計算引擎,將很好地適應FPGAaaS可擴展基礎設施。
代理在線加速器(PIA)
在本地NVMe存儲數據上執行低延遲、高帶寬的處理。
多種主機形式 8通道PCIe適配器或2.5”U.2“適配器
250S+ & 250-U2
用于NVMe-over-Fabric的250-SoC。
該系列的第三款加速器250-SoC采用了Xilinx UltraScale+ Zynq 19EG MPSoC,可以通過兩個QSFP28端口(支持100GbE的25Gbps線路速率)連接到網絡結構,也可以通過一個16線PCIe 3.0主機接口和四個8線OCuLink連接器連接到PCIe結構。ZU19EG是該系列中最大的器件,擁有1,143K系統邏輯單元、1,968個DSP Slices和70.6 Mb的嵌入式存儲器。器件封裝中的嵌入式ARM處理和圖形單元為具有混合處理要求的產品創造了理想的平臺。
?
250-SoC的硬件通用性允許從網絡直接訪問存儲,并支持NVMe-over-Fabric。NVMe-oF是下一代NVMe協議,可通過網絡結構分解存儲,并遠程管理存儲;NVMe-oF還提供了比SAS更多的靈活性,可按需設置網絡陣列。分散存儲或EJBOF(Ethernet Just-a-Bunch-Of-Flash)硬件可降低數據中心的存儲成本、占地面積和功耗。
Xilinx Zynq MPSoC芯片為嵌入式系統提供了額外的靈活性。MPSoC板可以獨立于主機CPU運行操作系統及其完整的軟件棧。憑借其支持多達兩個100GbE端口的高帶寬網絡功能和板載MPSoC,250-SoC無需為NVMe-oF應用同時使用外部網絡接口卡(NIC)和外部處理器13?;贔PGA的NVMe-oF基礎架構的實現非常簡單,而且性能良好,因為數據只需通過硬件路徑,從而提供了一個低和可預測的延遲解決方案。
NVMe-over-Fabric (NVMEoF)
在數據中心網絡結構上實現NVMe幀的低延遲和高吞吐量。
250-SoC
250-SoC為存儲行業提供了一系列靈活的解決方案。250S+和250-SoC針對直接連接加速器的應用案例,滿足虛擬化和提高安全性的需求。250-U2和250S+作為代理在線加速器,可以輕松插入到現有的基礎設施中,為NVMe存儲提供低延遲和高帶寬的本地數據計算。最后,250-SoC支持NVMe-over-Fabric,作為一種僅有硬件的創新方法,在支持最新一代NVMe協議的同時,對存儲進行分解。隨著NVMe市場的不斷發展,FPGA和MPSoC解決方案將解決NVMe產品的應用難題。
NVMe應用
NVMe技術給存儲帶來了顛覆性的創新,并對數據中心基礎設施產生了深遠的影響。協議的特性使NVMe成為設計涉及存儲的新產品或應用時的首選。
數據庫加速等企業應用需要低延遲以及高帶寬的4K或8K數據寫入傳輸速率,這兩個要求完全符合NVMe協議的優勢。這些特性使NVMe成為實現重做日志的領頭羊,例如,在數據庫發生故障時,會存儲許多事務記錄并用于未來重放的用例。對于這種用例,250S+將高達4TB的NVMe存儲直接帶到FPGA可重構結構的邊緣,在那里,交易記錄被高速收集到SSD上,準備重播14。
NVMe還減輕了虛擬化基礎架構的挑戰,并簡化了虛擬機(Virtual Machines)、無狀態虛擬機和SRIOV的實施,其中IO是最常見的瓶頸。在無狀態虛擬機用例中,IT經理需要鎖定企業用戶不修改的操作系統鏡像。用戶只修改自己的數據,操作系統鏡像在NVMe存儲中保持不變,用戶之間的隱私和安全至關重要。對于這樣的IT基礎架構,NVMe存儲是多用戶共享的。250S+是實現這一應用的一體化平臺。每個1TB的物理硬盤都被FPGA IP分割,因此每個用戶都能隔離并安全地訪問其操作系統鏡像和數據。管理程序管理對硬盤的直接訪問,而不需要仿真驅動,這為這種IO綁定的應用提供了更好的性能。
”大數據“市場也為將存儲和處理結合起來的智能NVMe產品帶來了機會,因為它正在從批處理方法轉向實時處理方法。地圖縮減問題正朝著實時分析而不是批處理的方向發展,因此,它們需要一種新的存儲層,這種存儲層的速度要比GFS后端快得多。現在在IT基礎設施中看到的存儲分層將很少訪問和低速的冷存儲,分離到非??斓腟SD、NVMe或NVM存儲器中。在這種用例中,所有的數據都會被記錄在GDFS中,但隨后會被移動到具有更快內存的計算節點上。實現NVMe-over-Fabric的250-SoC滿足了這兩個要求,因為它可以訪問高速存儲和高性能計算能力。
深度學習行業與分析界有類似的需求。深度學習的新一代加速器,即GPGPU、TPU和FPGA;這些設備需要大的內存帶寬來匹配芯片的計算能力。訓練操作會消耗大量的這種高通量數據,通常是多TB的數據15。最近的研究工作表明,FPGA結構可以加速某些網絡類型的訓練操作。因此,將存儲和計算引擎結合到一個硬件平臺上可以減少延遲,隨著訓練數據集的增加,允許更多的再訓練周期16。
在HPC領域,250S+的本地存儲和250-SoC的遠程版本有一些應用,如檢查點/重啟、突發緩沖區、分布式文件系統或從調度器緩存作業數據。通過在FPGA結構上靠近存儲的地方運行算法,FPGA應用的占用率仍然很低,同時充分利用存儲,并將CPU騰出來用于其他處理作業。而不是簡單地存儲數據或使用主機CPU對內存數據庫進行壓縮或加密,其中千兆字節的數據保存在易失性存儲器中,但需要定期備份到閃存中?;贔PGA的系統可以處理這些數據的快照,以便永久存儲到基于NVMe的大型存儲陣列中。對于這種類型的操作,MPSoC特別適合對用戶數據進行更復雜的操作。
最后,在物聯網領域,需要在物聯網網關上進行數據過濾和預處理,在物聯網網關上進行數據的聚合以及接收到數據后的加密,FPGA通過加密或壓縮等位運算實時處理數據流,并使用250S+將數據在板上存儲走,或使用有線250S+或250-SoC將數據以輸入帶寬傳遞到存儲背板。從區塊鏈計算來看,FPGA也是首選平臺。區塊鏈技術為物聯網網關帶來了差異化,提供一種自適應和安全的方法來維護物聯網設備的用戶隱私偏好17。
BittWare的能力
二十多年來,BittWare幫助行業專家在其基礎架構中引入FPGA來設計、開發和優化工作負載。在此期間,BittWare的計算和網絡解決方案為各個行業的客戶提供了競爭優勢,包括HPC、金融、基因組學和嵌入式計算。BittWare結合了硬件、軟件和系統設計的專業知識,指導客戶在其產品中最大限度地發揮FPGA技術的優勢。
?
在250加速器系列中,BittWare選擇了多種Xilinx UltraScale+器件和PCIe外形,為存儲基礎設施架構師提供完整的解決方案。這些加速器將Xilinx器件的可編程邏輯直接連接到基礎架構網絡中,并通過上一代100GbE和PCIe 3.0高速接口連接PCIe結構。此外,利用BittWare母公司Molex的能力,250系列提供了連接現有硬件的高靈活性。Molex是超高速低損耗電纜和互連解決方案的行業領導者。
結論
NVMe已經并仍在快速地改變著存儲行業。這種全新的高吞吐量存儲技術為IT基礎設施提供了靈活的存儲解決方案。與上一代存儲相比,NVMe不僅提供了卓越的數據寫入和讀取帶寬,還充分利用了現有數據中心的PCIe和網絡結構。隨著NVMe的普及,業界創新者紛紛推出支持NVMe的新產品。所有的基礎數據中心設備都在更新,以支持NVMe;NVMe存儲背板已經成為新的標準。
基于FPGA的NVMe產品,讓計算與存儲在硬件層面融合,達到更高的應用性能。通過FPGA,可重構邏輯的處理通過高吞吐量和低延遲的管道直接連接到存儲上。由于這些特點,數據可以流經FPGA并進行實時處理。此外,通過使用FPGA處理,CPU核可以自由地執行其他只能在處理器上運行的任務。使用MPSoC,系統可以獲得更多的功能,并將高速數據處理和設備上的控制結合起來,有可能自主運行。
BittWare基于FPGA和MPSoC的存儲產品旨在滿足實際應用的需求,并解決IT基礎架構管理人員的挑戰。BittWare通過250產品系列提供了一條生產路徑。
審核編輯:郭婷
評論
查看更多