企業環境復雜多變,快速增長的業務需求使得企業在數據存儲規模、存儲性能和可靠性等多方面提出了越來越高的要求。SSD固態硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業的首選解決方案,并在數據庫、虛擬化、應用加速、大數據、云計算乃至人工智能等領域發揮重要作用。企業級SSD往往需要在高并發、大壓力、24小時全天候運行的嚴苛環境下運行,其可靠性是企業級用戶的重點關注之一。
可靠性指的是一個部件或系統在規定的操作條件下,在特定的時間內繼續執行其預定功能的能力。對企業級SSD而言,它是非常重要的一項指標,不僅直接決定產品出貨的良率、故障率等核心指標,而且對數據可用性、一致性的保護,也起著關鍵作用。
01
可靠性量化指標 —— MTBF
SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時間,即產品在總的使用階段累計工作時間與故障次數的比值。它反映了產品的時間質量,產品故障越少,MTBF越高,產品可靠性也就越高。
與消費級SSD產品相比,企業級SSD在可靠性方面面臨更高挑戰。根據OCP(Open Compute Project)給出的建議,部署于數據中心的企業級SSD MTBF平均故障間隔時間要在2,000,000小時,也是目前企業級SSD奉行的標準。但是,MTBF是需要實際跑測驗證的,不能憑空而來。按照傳統方法,要完成多次200萬小時的驗證顯然不可能。那么,這長達200萬小時的平均故障間隔時間,又是如何得到的呢?
答案是基于一定樣本量,在一定時間段內通過加速因子加速(如寫入量加速、運行環境溫度加速)進行統計推斷。過程模擬典型用戶場景,通過實測驗證理論值,提前驗收產品質量。嚴謹的跑測驗證將直接決定MTBF“可靠性指標”是否真的可靠。
02
MTBF 的表征時期
和大部分電子產品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個關鍵時期:
早期失效期(Infant Mortality)
產品在剛生產好并加電使用時,因良率等因素會導致其失效率較高。為保證交付到客戶手上的SSD符合企業級可靠性標準,企業級SSD廠商會對所有生產線上的產品進行一定時長的老化跑測,以最大程度暴露產品可能的早期失效,保證客戶拿到的產品不存在早期失效問題。
偶然失效期(Random Failures or Normal Life)
這一階段對應正式出貨產品,產品失效率較低,且較穩定。產品可靠性指標MTBF所描述的就是這個時期,即產品的穩定使用階段。
磨損期(Wearout Phase)
該階段因產品磨損、老化等因素,其失效率會隨時間的延長而呈指數級增加。此時SSD宣稱壽命已經結束,雖可繼續使用,但壞塊會隨著PE的增加而加速上升,SSD的有效預留空間(OP)逐漸消耗殆盡,設備失效率提高。對企業級SSD而言,進入磨損期的產品已不建議繼續使用。
03
MTBF = MTTF?
在MTBF之外,你可能還聽過另外一個可靠性描述的詞——MTTF。對于一個可維護的設備來說,MTBF = MTTF + MTTR,三者關系如下:
MTTF (Mean Time To Failure,平均失效時間):指系統兩次失效的平均時間,取所有從系統開始正常運行到發生故障之間的時間段的平均值。MTTF =∑T1/ N;
MTTR (Mean Time To Repair,平均修復時間):指系統從發生故障到維修結束之間時間段的平均值。MTTR =∑(T2+T3)/ N;
MTBF (Mean Time Between Failure,平均無故障時間):指系統兩次故障發生之間(包括故障維修)時間段的平均值。MTBF =∑(T2+T3+T1)/ N。
因為MTTR通常遠遠小于MTTF,所以MTBF近似等于MTTF。
04
MTTF理論計算公式,2,000,000小時如何而來?
最簡單的情況下,MTTF計算遵循如下公式:
其中:
Ai 為 SSD i 的加速因子;
ti 為 SSD i 的測試時間;
nf 為出現故障 SSD 的數量;
a 為置信度(confidence limit,60%);
x2 為卡方分布(chi-squared distribution)。
上述等式中的加速因子通常分為3類:
未加速因子:A=1,通常用于固件故障;
TBW(Total Bytes Written)加速因子 :通過增加數據寫入強度進行壽命加速;
溫度加速因子 :通過升高測試環境溫度進行故障出現加速。
TBW (Total Bytes Written) 加速因子
TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數據寫入量(也就是現場部署寫入量field)為10.5 PB,對應每天數據寫入量為5.76 TB。如果增加每天的數據寫入量(加速寫入量stress),相當于加快消耗SSD壽命,可以加速故障出現。TBW加速因子計算方法如下:
假設一個用戶容量為100G的SSD,其產品規格書定義SSD壽命為175TBW,典型使用場景下可使用5年(43800個小時)。其在1008小時內寫入130TB的數據,寫放大為1.2,則TBW加速因子為32,如果短時間內寫入更多數據,則TBW加速因子也會相應提升。
溫度加速因子
NAND因其固有特性,數據保持力會隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個小時),相當于在 85℃ 的老化室中放置 52 個小時。
JESD 22-A108定義了溫度隨時間對SSD的影響,執行高溫運行壽命(HTOL,High Temperature Operating Life)測試,可確定長時間高溫條件下SSD運行的可靠性。協議規定,如果沒有特殊要求,SSD需在 125 °C 的結溫壓力下測試。但企業級SSD一般會設計高溫保護邏輯,防止溫度過高造成NAND數據保持力下降和元器件的損壞,所以SSD的實際工作溫度不會達到125℃。
對于溫度加速因子,計算方法如下:
其中:
Ea 為失效模型的活化能 ,一般為0.7 eV;
k 為玻爾茲曼常數,8.617 x 10-5 eV/°K;
T? 為工作溫度 (標準取值為 55°C 或者 328°K);
T? 為測試加速溫度。
MTTF計算示例
假設樣本量為 400,測試時間為 1008 小時,加速因子Ai = A(TBW) * A(T) 為10,失敗的數量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時。
注意,MTBF是和溫度嚴格相關的。這一點在OCP Datacenter NVMe SSD Specification中也有提到:
MTBF 2,500,000小時(AFR≤0.35%),對應的SSD運行溫度為0℃~50℃;
MTBF 2,000,000小時(AFR≤0.44%),對應的SSD運行溫度為0℃~55℃。
但理論和現實總是有差距的。現實中產品意義上的MTBF測試,很難達到10倍的加速因子,TBW加速因子僅能用于測試NAND顆粒的壽命,實際測試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來加速。實際操作中,MTBF=200萬小時的測試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時以上。
05
MTBF 和 AFR 又是什么關系?
除了MTBF指標,還有其他可靠性量化表征指標,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉化。
故障率λ:SSD關鍵元器件選型時,需要確保每個元器件的故障率 λ 達標。相比故障率指標,MTBF的定義更加直接,也更適用于表現系統級的可靠性;
AFR:年化故障率,可以更好地了解在任何一年中發生硬盤故障的幾率。
MTBF 和 AFR轉化公式如下:
MTBFhours = 1/λhours
MTBFyears = 1/(λhours*24*365)
AFR = 365*24hours*λhours = 8760hours/MTBFhours
MTBF 和 AFR 的數值對應關系如下:
企業級SSD產品可靠性MTBF ≥ 2,000,000小時(@55℃),換算為年化失效率AFR ≤ 0.44%,對應FFR(Functional Failure Requirement,SSD在整個磨損壽命時間范圍內累積的功能失效率,以5年保修期為參考)≤2.2%。
Memblaze全系列企業級SSD均按照2,000,000小時MTBF @55℃ /2,500,000小時MTBF@50℃為標準,滿足55℃/50℃環境下7×24小時穩定不間斷運行要求、40℃環境下數據至少3個月斷電保持能力以及低于1E-17的UBER不可修復錯誤率。
06
MTBF的驗證
Memblaze自研測試平臺Whale系統
在數據可靠性技術領域,Memblaze自研了MemSolid 技術集,以保證企業級數據的一致性和可靠性。通過全路徑數據保護、LDPC軟判決解碼糾錯技術、元數據跨Channel備份保護、Die間動態RAID5恢復壞塊數據機制,以及重讀保護和過溫保護等技術,實現了PBlaze可持續的數據一致性保護,保障企業關鍵業務數據資產始終處于安全可靠的存儲環境中。
為確保出廠的SSD產品能夠滿足MTBF的標準,Memblaze運用十余年在固態硬盤領域的經驗積累,以及對用戶實際應用的理解,自主研發出MTBF測試平臺 —— Whale系統。
它參照JEDEC標準打造,適用于PCIe SSD的研發(DVT)、環境應力(EST,Environmental Stress Test)、數據保持力、生產(老化,ORT,Ongoing Reliability Testing)、RDT等測試。Whale系統預置了最接近客戶真實使用場景的測試案例,采用合理的加速因子對RDT階段產品進行長時間跑測,成為產品量產前的質量保障。
根據Memblaze的出貨量和實際故障率統計,PBlaze系列SSD的實際累計產品失效率(CFR,Cumulative Failure Rate)遠低于標稱的年化故障率。
經過十幾年在SSD行業的深耕打磨,Memblaze 已經形成從芯片、軟件、硬件、生產、出貨等各個環節的嚴密設計和嚴格的質量管控體系,能夠保證PBlaze系列企業級固態硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統運行開銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續以匠心精神,不斷打磨,不負所期!
責任編輯:haq
-
存儲器
+關注
關注
38文章
7484瀏覽量
163767 -
SSD
+關注
關注
21文章
2858瀏覽量
117372
原文標題:揭秘:SSD的“可靠性”到底可不可靠
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論