存儲服務質量不是一個單點問題。從系統的角度考慮服務質量的智能存儲將成為未來的重要的方面。Memblaze CTO在日知錄主辦的2018日知錄數據智能峰會上的分享開始就闡述了保障數據中心存儲系統服務質量的觀點,并在演講中介紹了Memblaze保障存儲系統服務質量的核心技術及研發理念進行了解讀。
Memblaze CTO路向峰
路向峰分析了Flash技術給數據中心基礎架構帶來的影響,他指出:“NAND Flash給存儲系統帶來新機會的同時,也對于傳統存儲架構帶來挑戰。需要調整軟件架構來釋放Flash的能力。需要從單個存儲部件、存儲網絡依賴關系和針對用戶業務壓力的優化三個方面考慮,提升系統的服務質量。“
在SSD內部,由于Garbage Collection和Flash Erase等后臺任務的存在,在用戶隨機寫工況下,系統的服務質量容易變差。為了定量研究這一情況,可以利用GMM概率模型對于IO寫入的服務時間建模,并采用排隊理論進行分析和仿真。根據該理論,采用寫路徑增加緩沖資源并根據負載情況調整緩沖區延遲策略可以改善和優化寫工況下的服務質量。Memblaze針對幾種不同的方案做了大量的仿真測試,并證實了上述幾種方案對寫延遲的降低效果。
原始方案與改進方案在平均延時、5x9和8x9延遲的比較
由于讀延遲直接影響著最終用戶的體驗,所以從SSD到系統對于讀的優化研究也至關重要。通常Flash的帶寬遠超存儲接口帶寬,不構成讀的性能瓶頸,但是在讀寫混合的工況下,由于讀命令受到寫命令或擦除命令的干擾,服務質量容易變差,這里的寫和擦除命令可能來自于業務壓力,也有可能是SSD內部的Garbage collection和Flash Erase等后臺任務。目前針對SSD讀延遲的優化技術主要有Flash讀命令優先;協商讀數據恢復等級及多副本優化以及存儲系統優化讀寫分時復用和空間隔離。
在具體實現上,Memblaze設計了更為復雜的算法,規避介質的缺陷等因素,并能夠針對具體的業務壓力,使SSD在響應服務平均時間和中斷服務質量間找到平衡。
從存儲系統的層面同樣有多重技術可以用于改善Flash的讀延遲,比如在采用了多副本技術或者是糾刪碼的存儲系統中,就可以通過存儲系統與設備進行協商,從多個數據獲取方式中選擇最佳延遲的方案進行讀取數據、出錯處理等操作,提升系統整體的服務質量。
在新的NVMe協議中,將提供了Predictable Latency Mode和NVM Sets的新接口能力,分別提供了時間和空間的隔離能力,分時復用和空間隔離要求頂層考慮使用Flash的行為加以限制,避免同時對同一個位置同時讀寫。
存儲系統優化讀寫分時復用和空間隔離
在演講的最后,路向峰談到了基于AI的面向服務質量的智能系統,他認為“為了能夠適應機器學習框架,需要把現有的存儲系統逐步調整成為任務處理層和策略優化層。在任務處理層實現對于存儲具體業務的處理,而在策略優化層,需要分析業務處理的性能和服務質量,并將合適的策略反饋給任務處理層。這些數據可供機器學習算法訓練模型,在此基礎上逐漸迭代和優化策略。”
提升用戶體驗是Memblaze工作的終極目標。針對不同的應用場景和工作負載, PBlaze系列NVMe SSD力求為用戶提供更加平穩的高性能和更高的可靠性。多年實踐中,Memblaze不僅掌握了大量核心技術提升SSD性能穩定性、壽命和可靠性,并且從設備到系統多個層面研究和驗證不同方案對于提升用戶體驗的效果。這些工作和成果不僅推動了閃存和NVMe技術的發展,更是數據中心生態演進和完善不可或缺的組成部分。
-
存儲
+關注
關注
13文章
4296瀏覽量
85799 -
核心技術
+關注
關注
4文章
625瀏覽量
19599
原文標題:【深度】企業級SSD實現99.999999%延遲穩定性之秘籍
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論