GPU的壽命
最近外面總在討論GPU的壽命只有三年。
為什么GPU的壽命如此之短?
我們去看看論文中是怎么說的。
三年
最近云服務提供商CSP談到,GPU的有效使用率通常是60%-70%。
在這樣的效率下,GPU的壽命通常為1年到2年,最長3年。
如果進一步提高使用率,那么GPU的壽命會進一步降低。
橡樹嶺國家實驗室的Titan GPU
首先一份論文來自美國橡樹嶺國家實驗室:
GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability
這篇論文主要收集了GPU運行期間經常發生的兩種錯誤類型:
Double Bit Error (DBE)
DBE指的是GPU memory中發生的ECC檢測錯誤。ECC校驗可以校驗1bit,但是無法校驗2bit。
Off the Bus (OTB)
則是CPU失去了和GPU的連接,失聯了。
題外話,如果你聽到橡樹嶺實驗室比較耳熟。
那么,對,這個實驗室就是當年秘密研發原子彈的一處,曼哈頓計劃。
實驗室裝備的GPU
這里還要引入一個新的概念,MTBF。指的是mean time between failure。
兩次GPU失敗之間的均值時間。
研究人員收集數據之后發現,DBE,OTB data error都是在3年的時候達到頂峰。
也就是使用了三年的GPU會開始大規模failure。
OTB和DBE頻繁的發生在2016年成為了顯著事件,觸發了GPU的更新換代。
2016年更新換代:
如上圖所示,在更新換代之后,MTBF明顯降低了,到了2018年,又有明顯走高趨勢,此時才過了兩年。
這次替換了11,000塊GPU,占了總體GPU數量的接近59%。
問題在哪里?
經過大量的測試分析,在材料學和顯微學的研究人員的支持下,
發現問題并不在于GPU本身,而是在于電路上焊接的電阻發生了銀硫化物腐蝕。
此類腐蝕物在微電子部件的環境空氣中生長,并且只有在積累到了臨界量的腐蝕后才會發生故障。
-
gpu
+關注
關注
28文章
4729瀏覽量
128890 -
實驗室
+關注
關注
0文章
167瀏覽量
19165 -
ECC
+關注
關注
0文章
97瀏覽量
20556
原文標題:GPU的壽命
文章出處:【微信號:處理器與AI芯片,微信公眾號:處理器與AI芯片】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論