過去幾年,全球數字化進程加速,不斷增長的5G、人工智能、遠程辦公、工業數據、政務、金融和能源上云的需求,促使云服務商增加了對數據中心基礎設施的投入。據第三方機構統計,全球云基礎設施增長迅猛,總支出從2020年1400億美元增長到了2021年的1900億美元,增長了36%。
數據中心基礎設施支出的增加包括對服務器和存儲需求的增加,存儲需求其中一大部分是企業級固態硬盤的需求。據第三方機構統計,2020年全球企業級固態硬盤市場規模約為161億美元,到2023年有望增至305億美元,期間年復合增長率約為24%。
市場需求的增加對于企業級SSD廠商而言無疑是利好,展望未來,在例如容量點、PCIe 5.0平臺適配、性能、需求、降本增效等SSD產品層面,如何應對數據中心未來的需求和挑戰,則需要企業級SSD廠商對產品規劃和設計進行一些思考,本文根據今年美國FMS閃存峰會和OCP會議的一些內容做一些思考和分享。
1. 企業級SSD容量點的演進
按照Omdia對未來企業級SSD容量點應用比例分布預測,隨著存儲的總容量需求提升及每GB價格的下降,大容量SSD部署比例將會逐年增加。按盤數,2022年4T及以上容量點占比27%,到2026年接近51.5%。2022年8T及以上容量占比較少14.4%,但未來預測8T及以上大容量SSD占比大幅增至38.7%。大容量SSD部署比例的提升,幫助了企業和數據中心降低SSD $/GB成本,進而幫助存儲部分降低總擁有成本TCO。
來源Omdia:未來容量點比例分布預測
數據中心如何部署和分配不同容量的SSD盤,一般按照:
240G-480G小容量SSD:作為服務器Boot啟動盤,當前以M.2/2.5寸 SATA SSD為主,企業級SATA SSD成熟、可靠和穩定,$/GB相對較低,成本最優。
1T:作為服務器本地存儲盤使用為主,用量較少。
2T-4T:作為服務器所在物理機(宿主機)上的本地硬盤使用,本地盤適用于對存儲I/O性能和海量存儲性價比有極高要求的業務場景,具有低時延、高隨機IOPS、高吞吐量、高性價比等優勢。
8T-16T:作為塊存儲云盤使用,云盤是云服務器提供的數據塊級別的塊存儲產品,采用多副本的分布式機制,具有低時延、高性能、持久性、高可靠等性能,可以隨時創建、擴容以及釋放。
長江存儲企業級SATA SSD SE005容量點為240G~1.92T,尺寸2.5寸,順序讀寫分別高達540/510 MB/s,隨機讀寫分別高達98/59 KIOPS,小容量點適合作為服務器啟動盤使用。
長江存儲SE005
2. PCIe 5.0 SSD和CPU平臺
按照Intel服務器至強CPU路線圖,Intel于2013年推出支持PCIe 3.0接口的Grantley平臺,2017年推出支持PCIe 3.0接口的Purley平臺,2020年推出支持PCIe 4.0接口的Whitley平臺,目前這些平臺均在企業級和數據中心中部署。支持PCIe 5.0接口的第一代Sapphire Rapids延遲到2023年Q1發布,隨后第二代支持PCIe 5.0接口的Emerald Rapids計劃于2023年發布,第三代Granite Rapids、Sierra Forest計劃于2024年發布。隨著即將到來的搭配Sapphire Rapids CPU的服務器平臺,PCIe 5.0 SSD會首發出場,登上舞臺,將服務器上的存儲帶寬提升到一個新的高度。
來源網絡:Intel服務器至強CPU路線圖
AMD在今年11/12發布了Genoa系列EPYC霄龍 Zen 4處理器,支持128條以上PCIe 5.0接口,適配PCIe 5.0 SSD,并支持通過 Compute Express Link (CXL) 進行內存擴展。同樣,PCIe 5.0 SSD的加載將服務器上的存儲帶寬提升到一個新的高度。
根據AMD最新公布的服務器CPU路線圖,基于Zen4架構的Bergamo將于2023年上半年上市,Genoa-X和Siena也將在2023年某個時候上市。至于AMD在2024年在服務器CPU領域的路線圖中最重要的部分,可能是計劃在2024年底之前的某個時間將其代號為“Turin”的第5代EPYC處理器推向市場。
來源網絡:AMD服務器CPU路線圖
PCIe 5.0接口速度2倍于PCIe 4.0接口,帶寬翻倍。相應的PCIe 5.0 SSD可實現順序讀寫性能的翻倍和隨機讀寫性能的大幅提升,例如長江存儲企業級PCIe 4.0 NVMe固態硬盤PE310產品,順序讀寫分別高達6200/4500 MB/s, 隨機讀寫分別高達1000/380 KIOPS,到下一代PCIe 5.0 SSD,順序讀寫和隨機讀性能基本實現2倍提升。
長江存儲PE310
當Sapphire Rapids和Genoa用上PCIe 5.0 SSD,硬件上數據中心的存儲性能已經不再是瓶頸,性能瓶頸或許已是系統軟件,如何用滿和用好PCIe 5.0 SSD的性能,是擺在軟件面前的一道課題。但對于企業級SSD廠商而言,使用新一代NAND,設計一款高性能、低功耗、合適尺寸、多容量點、滿足客戶各種特性需求的PCIe 5.0 SSD,仍是努力要完成的工作。
3. SSD每TB性能
通常云上用戶將數據存儲在云盤,數據中心云盤按照性能高低和容量大小售賣,售賣價格也是按照不同的性能和容量大小制定的,性能越好容量越大價格越高。如下圖,阿里ESSD云盤的性能分為不同的PL0-PL3等級,對用戶而言,舉例購買到的單盤IOPS計算公式 = min(1800+50*容量,1000K or 100K or 50K…),單盤吞吐量計算公式 = min(120+0.5*容量,4000 or 750 or 350…)。單盤IOPS和吞吐量性能隨著容量增加相應按比例提升。云盤數據存儲在后臺SSD上,因此對SSD單位容量如每TB性能有了基本的最低要求,才能滿足售賣時對用戶聲稱的性能規格。每TB性能 = 單盤性能/容量TB數。
來源阿里云:云盤性能參數表
NAND介質繼續往前發展,層數不斷增加,一方面帶來成本和客戶感知的$/GB價格不斷下降,另一方面由于新NAND Die容量增大,對于同容量SSD而言可用NAND Die的個數隨之減少。例如NAND A Die容量是64GB,隨著下一代新層數的NAND的來臨,NAND B Die容量變為128GB,同容量SSD中NAND Die個數減少為之前的1/2,因此對NAND讀寫的并發數減少為之前并發數的1/2,SSD的性能也降為之前的1/2,這就是導致SSD每TB性能下降的一個案例。
作為SSD供應商,當使用新的NAND開發下一代SSD產品之前,解決每TB性能下降變成了要面對的問題,方法有:
1) PCIe前端接口帶寬不變,使用新的NAND,設計其單Die容量仍然同前一代NAND Die容量。
2) PCIe前端接口帶寬不變,使用新的NAND,Die容量增加一倍,增加單Die內部Plane個數,相當于增加NAND讀寫并發數來提升SSD系統性能。例如長江存儲最新的X3-9070 NAND從之前的X2-9060的4個Plane增加到6個Plane。
3) PCIe接口升級,如從PCIe 4.0過渡到5.0,帶寬翻倍,使用新的NAND,雖然Die容量增加一倍,但2X大容量SSD連續讀寫性能也隨著PCIe帶寬翻倍而翻倍。
4) PCIe接口升級,如PCIe 4.0過渡到5.0,帶寬翻倍,使用新的NAND,Die容量增加一倍,提升NAND Flash IO速度來適配前端PCIe翻倍的數據帶寬。例如長江存儲最新的X3-9070 NAND支持2400 MT/s接口速度, 相較上一代NAND的1600 MT/s接口速度可極大的提升SSD順序和隨機讀寫性能。
由此可見,為了滿足數據中心存儲每TB性能需求,SSD廠商當開發下一代SSD時,要站在用戶角度思考如何保持不低于上一代SSD的每TB性能,提供必要的技術方法進行解決。
4. 需求標準化
數據中心對SSD的需求多樣化和碎片化,不僅國內各家都不一樣,國內和國外也不盡相同。同時由于其對SSD需求的某些細節機密無法對外公開,一部分SSD原廠供應商憑借和客戶的良好關系可以獲取,而其它供應商則無法獲得,導致這些供應商的設計和客戶數據中心的實際應用脫節,不符合要求?;诖?Meta、Microsoft、HPE、DELL-EMC主導和組織發布了Datacenter NVMe SSD Specification,鏈接:https://www.opencompute.org/documents/datacenter-nvme-ssd-specification-v2-0r21-pdf。 現今OCP發展到了2.0版本,成為國外幾家云數據中心事實上要支持的標準,同時為企業級SSD廠商理清了數據中心的關鍵需求。
啟動盤方面,當前以成熟的 SATA SSD為主,將來會往PCIe NVMe SSD遷移,原因:第一服務器主板和CPU會逐漸取消SATA接口;第二PCIe NVMe SSD相較SATA有更多的優勢。為了統一PCIe NVMe啟動盤的需求,OCP發布了啟動盤SSD第一份Spec規范:https://www.opencompute.org/documents/hyperscale-nvme-boot-ssd-specification-v1-0-pdf。這份規范為啟動盤SSD廠商規定了啟動盤所需要的NVMe命令集、PCIe接口配置、可靠性、壽命、性能、安全、調試和FA失效分析等需求。
5. SSD安全規范
SSD作為數據中心存儲關鍵部件,其安全問題一直以來備受重視,OCP 2.0定義了數據中心對SSD的安全規范,給SSD廠商提出明確的需求:
固件升級簽名校驗和每次啟動時使用密碼學進行對稱密鑰身份驗證,防止非法升級固件和非法篡改固件。
固件版本不能回退,只能向后更新的版本升級。
用戶數據使用XTS-AES-256 or AES-256加密,SSD盤支持Opal v2.01,防止用戶數據泄密。
SSD支持安全啟動,如果遇到安全啟動失敗,用戶將不能訪問此盤。
Telemetry和Debug日志,實施安全審查,包括固件代碼審查,防止盤上用戶數據被竊取。
SSD出廠后Debug端口被禁止,防止黑客利用Debug端口Hack SSD。
SSD vendor unique commands一般被禁止使用,只有通過一種使用非對稱密碼方案的質詢響應才能打開。
任何和SSD安全相關的問題,必須保持私密,和客戶確認前不能公開。防止外界或他人了解安全漏洞后進行Hack SSD。
SSD盤上的用戶數據和系統數據,需要在NAND物理上分開存儲。
其他……
6. 特性需求:ZNS等
相比較傳統的SSD,近年來出現的ZNS SSD具有特別的幾點優勢:
降低SSD TCO ? 零OP NAND,減少DRAM Size。
提升壽命 ? 減少寫放大。
提高性能 ? 主機控制SSD device-side垃圾回收,極大降低穩態QoS時延和提高寫入吞吐量。
數據隔離 ? 降低多租戶因不同數據訪問造成的性能和時延的影響。
ZNS SSD在零OP條件下,寫放大可以做到近似接近1,相比較7% OP傳統SSD,寫放大是其1/3。使用ZNS特性的QLC(3K PE) SSD其壽命(DWPD)幾乎可以做到等同于傳統TLC(7-10K PE) SSD的壽命,但QLC由于一個單元存儲4比特位數,相較于TLC成本可以降低20%以上,因此ZNS+QLC SSD可以獲得降本的收益。
數據中心一直在追求SSD盤的降本增效,ZNS結合TLC SSD的高性能和QLC SSD大容量特性,在數據中心可能的應用如下:
來源FMS 2022:TLC和QLC ZNS SSD應用場景設想
未來,數據中心會為了應對業務應用新需求、增加新應用、降低存儲總擁有成本TCO,使得對于企業級SSD新特性的需求,永遠不會停歇。這些新特性需求不僅僅局限于ZNS,而且包括了如CXL、SR-IOV、Stream、CMB、CSD等特性,本文暫不做展開。
7. 采用QLC SSD
目前企業級TLC SSD已經主導數據中心SSD存儲部件,QLC NAND及SSD已經推出多年,有一些少量的部署和采用,但距離普及和規模部署還有一段距離,原因大致:一是QLC SSD相較TLC SSD價格差距沒到甜蜜點;二是供應商單一;三是相應的上層軟件適配和生態沒有成熟;四是缺乏燈塔應用標桿項目,所以數據中心都在觀望。
但隨著更多的供應商提供企業級QLC SSD產品,QLC SSD價格的進一步下探,應用軟件和生態的逐漸成熟,并有新的技術如ZNS的結合以減少QLC SSD寫放大提升其壽命,以及國內外廠商部署使用QLC SSD的良好案例,像Vast Data帶來的示范效應,數據中心越來越多的部署和采用QLC SSD將會成為趨勢,畢竟夠用、好用及降本是數據中心對存儲一直不斷追求的目標。
最后,數據中心SSD的未來需求當然不止以上這些,除了一直不變的高性能、低功耗、高可靠性和降本的需求之外,隨著CPU平臺和SSD相關新技術的出現以及NAND介質的發展,面向數據中心的應用對存儲會不斷提出新的想法和新的需求,需求落地、優化和推動產品迭代,產生出新的更好的SSD產品。
長江存儲一直在持續理解和消化數據中心對SSD的需求、標準和應用,布局企業級SSD產品,基于Xtacking?架構的三維閃存技術NAND,已經推出了包括SE005、PE310等產品。借助Xtacking?架構的優勢,實現行業領先的I/O速度、更高的存儲密度并提供高品質保障的企業級SSD產品。
審核編輯黃昊宇
-
芯片
+關注
關注
456文章
50892瀏覽量
424350 -
SSD
+關注
關注
21文章
2863瀏覽量
117492 -
數據中心
+關注
關注
16文章
4792瀏覽量
72184 -
長江存儲
+關注
關注
5文章
324瀏覽量
37906
發布評論請先 登錄
相關推薦
評論