1.前言
大家對SSD的第一印象就是性能高、速度快,然而隨著SSD在數據中心、高性能計算、高端存儲、邊緣計算等各種企業級應用場景的逐步普及,近年來企業級SSD產品的發貨量逐年快速上升,而隨著實際在網運行數量的逐步增加,一些可靠性問題也逐漸體現,而SSD的可靠性也企業級用戶重點關注的方向。
講到SSD的可靠性,我們通常能聽到的術語有:Failure Rate(故障率或者失效率)、MTBF、AFR、Retention、Endurance、 UBER、FFR等,在實際工作中經常有些不是可靠性領域的工程師來詢問這些指標的含義,所以本文主要簡單介紹一下這些SSD可靠性指標的概念及其意義,方便大家更深入的了解和認識SSD的可靠性。?? ? ? ? ? ?
2.?故障率/MTBF/AFR
2.1?故障率
2.2?浴盆曲線模型
提到可靠性,必須要講下最經典的浴盆曲線(Bathtub Curve)可視化模型,浴盆曲線模型是指導產品或者系統進行可靠性設計、驗證、優化的最常用的模型,也是可靠性工程師甚至質量工程師都非常關注的理論。
浴盆曲線簡單來說將產品的生命周期分為三個階段:
1)早期失效期(Infant Morality Period):此階段失效率較高,大多是生產制造帶來的失效,但是這段時間比較短,而且失效率隨著時間推移會迅速降低并趨于穩定。
2)穩定期(Steady Period):或者叫隨機失效期,有時也叫正常生命期,這個階段產品的失效率是恒定的常數,通常發貨給客戶的產品都工作于這個階段。
3)壽命耗盡期(Wear-out Period):?這個階段產品由于壽命的耗盡,失效率逐漸增高。浴盆曲線在可靠性的設計和優化上有非常多的應用,本文中所討論的可靠性指標MTBF/AFR等,都是指的正常生命期也就是穩定期。
2.3?MTBF
MTBF 全稱為Mean Time Between Failure即平均失效間隔時間,其定義為給定的樣本數量,工作小時后,出現次故障,每個樣本失效時已正常工作的時間記為?, 單位為小時:
MTBF通常用于一個故障可恢復的系統,相比故障率指標,MTBF的定義更加直接,也更適用于表現系統級的可靠性,更常用于預測和表征產品和系統的可靠性,而不是用故障率來進行體現。
2.4?AFR
實際應用中我們還經常聽到AFR的概念,AFR即Annual Failure Rate,即年化的失效率,假設年度的發貨量為,故障個數為,那么可以定義:
上面等式中的表示產品(系統)的時基失效率,AFR主要用于產品或者系統在發貨后進行的故障率統計,這點和DPPM有類似之處,只不過DPPM更多用于獨立的元器件。? ? ? ? ? ? ?
3?故障率/MTBF/AFR的關系和意義
上面介紹了故障率、MTBF、AFR的定義,接下來說一說它們之間的關系及實際意義
3.1?故障率和MTBF關系
因此,實際SSD產品的可靠性設計和評估方法是:系統的MTBF可以通過系統的失效率評估得到。而系統的是可以通過各個器件的失效率計算得到,器件的失效率(即FIT值)可以從各個元器件廠家獲取。
需要強調的是系統失效率評估并非簡單的所有獨立元器件FIT值相加,而是需要根據元器件在系統中具體的使用方法和系統的適用場景計算,可以參考BellCore等專業文檔。
3.2 MTBF的驗證方法RDT
MTBF相對故障率來說,更易于在研發過程中進行驗證。MTBF的測試驗證方法也就是通常講的RDT(Reliability Demonstration Test)即可靠性驗證測試,通過RDT驗證MTBF的原理如下:
上述等式中各參數的意義:
1)SS表示樣本量;
2)AF表示溫度加速因子,通常采用高溫加速的方式進行;
3)TestHours 表示總測試時間,單位:小時;
4)A表示置信度因子,
5)CL表示置信度水平,r表示允許的失效個數,表示卡方分布;
3.3 MTBF?和 AFR的關系
根據MTBF和故障率的關系我們可以很容易得到AFR和MTBF的關系如下:
那么既然已經有MTBF為什么還要增加AFR這個指標呢,個人認為有以下兩點區別:
1)MTBF主要用于研發設計時對產品可靠性指標進行預測和測試驗證,不易于實際統計:MTBF 是在SSD產品設計時,需要制定的可靠性指標,MTBF需要在產品研發階段通過計算可以得到,同時可以通過RDT等測試方法進行驗證,因此MTBF更偏向于發貨前的研發理論設計和研發階段的驗證;
2)AFR更易于在產品實際發貨后進行統計,是對MTBF設計的實際驗證:AFR雖然可以通過MTBF得到,但AFR更重要的是易于在SSD產品實際發貨后進行統計,是一個實際的統計值,而統計MTBF則比較難在實際產品發貨后統計。通過實際統計得到的AFR和設計的AFR值比較,是最終驗證MTBF設計指標是否達成的依據,也是SSD產品可靠性在用戶使用階段最直接的體現指標之一。
3.4?小結
實際上我們在做系統可靠性設計時,需要將故障率、FIT值、MTBF、AFR聯系起來看,總結如下:
1)元器件的故障率是計算系統故障率的基本輸入參數,通過系統故障率來評估系統MTBF;
2)系統級可靠性更直接的是用MTBF進行體現,MTBF可在批量發貨前通過RDT驗證;
3)AFR可以用于批量發貨后的可靠性反饋驗證;
4)可以大概總結硬件系統的MTBF可靠性設計預測和驗證流程如下:? ??
? ? ??
4?Endurance/Retention /UBER/FFR
前面三部分講的失效率(Failure Rate)、MTBF和AFR都是通用的硬件產品可靠性指標,而不是SSD產品所特有的。實際上對于SSD產品來說,還有自己特有的特性和可靠性指標,也就是大家常見的Endurance、TBW、Data Retention、UBER、FFR這幾個概念,實際上這幾個概念的定義都來源于JESD218系列規范,我們先看看這四個概念的定義。
4.1 Endurance 和 Data?Retention
Endurance : The ability of an SSD to withstand multiple data rewrites,字面含義 SSD能夠承受反復重寫的能力,即SSD能夠承受的寫入數據量總和,有時也叫Endurance Rating。如果以TB為單位表示總寫入數據量,在規范中也被叫做TBW,Endurance/Endurance Rating/TBW都代表的相同的意思。
講到Endurance還有一個常見的規格被叫做DWPD,即Drive?Write?Per?Day, 表示的是盤片每天能夠寫入的總數據量和盤片自身容量的比值:
因此DWPD和Endurance(TBW)的關系為:
上面等式中表示該盤片的壽命是5年,這是企業SSD通常標稱的壽命。
Data Retention :The ability of the SSD to retain data over time,即SSD保存數據時間的能力,有也簡化為叫Retention¥¥那么為何SSD要有Endurance和Data Retention的概念呢?
因為SSD使用NAND Flash作為存儲數據的介質,NAND Flash 是一種數據非易失的介質,但不是永久不丟失數據的介質。NAND Flash有兩個明顯的特點:
第一,每個NAND Flash內部單元存在磨損壽命,也就是通常講的Erase-Program?次數(擦除編程次數,簡稱EP),當EP達到一定程度,NAND?Flash?上數據的誤碼率將變大,也就無法實現對數據的可靠保存,因此NAND?Flash存在磨損壽命(Endurance)的概念;
第二,存放在NAND Flash內部單元的數據,只能保存一定長度的時間,當超過該時間,數據會逐漸丟失,因此NAND Flash存在Data Retention的概念。
由于NAND Flash存在Endurance和 Data Retention概念,因此SSD產品也繼承了NAND的這兩個特性和概念。
不過,嚴格來說 Endurance和Data Retention并不是可靠性的指標,是屬于功能指標,UBER和FFR才是可靠性的指標,但是UBER和FFR是需要在Endurance和Data Retention的前提條件下來定義,并進行測試驗證。
4.2?UBER?和FFR
SSD是一種用于保存數據的部件,因此對行業規范中制定了關于SSD保存數據方面的可靠性指標,也就是常見的UBER和FFR。
UBER : Uncorrectable Bit Error Rate, or ratio, 字面意思即不可糾正的誤比特率,計算方法如下:
FFR : The allowed cumulative functional failures over the TBW rating, 即SSD在整個磨損壽命時間范圍內累積的功能失效率。
4.3?UBER/FFR的測試方法
UBER和FFR的字面含義相對來說比較容易理解,但是跟Endurance 和 Retention的關系,可以從下圖中JESD218B.01標準中UBER和FFR的測試方法進行了解:
1)需要將整個測試樣本量分為兩部分各50%;
2)第一步部分(Part:1)在常溫下進行數據讀寫測試(JESD219?模型),也叫磨損Endurance測試,要求總寫入數據量要達到SSD標稱的Endurance(或者TBW)數據量;
3)第二步部分(Part:2)在高溫下進行數據讀寫測試(JESD219模型),也叫磨損Endurance測試,總寫入數據量要達到SSD標稱的Endurance(或者TBW)數據量;
4)第二部分的Endurance測試完成后,需要進行一次對數據保存時間的測試即Retention測試;
5)最后統計UBER/FFR時需要統計上面2),3),4)步驟中所有的功能失效,錯誤IO個數,用于計算UBER/FFR。
? ? ? ? ? ?
5?總結
本文的主要目的還是對SSD可靠性涉及到的概念進行簡單梳理,幫助大家理解SSD的可靠性。由于每個指標詳細的設計、預測以及驗證方法都有比較多的內容,后續有機會再進行專題分享。?? ? ? ? ? ?
參考文獻
1.?Telcordia Technologies Special Report,?SR-332,?Reliability Prediction Procedure for?Electronic Equipment
2.?JESD218B.01 Solid-State Drive (SSD) Requirements?and Endurance Test Method?? ? ?? ? ??
評論
查看更多