色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

談談GPU的使用壽命

上文結合論文談一談，三年壽命的GPU [上]說到，電路腐蝕導致橡樹嶺實驗室的GPU壽命只有3年，更換了11,000塊GPU。

早在2015年橡樹嶺實驗室就發表了針對GPU Error的另一篇文章：

[194] Understanding GPU Errors Large-scale HPCSystem and the Implications for System Design and Operation.

194 表示引用數。

這篇文章總結了Titan GPU運行中出現的失敗和教訓。

雖然這篇文章發表于2015年，但是文章中圖片的模糊程度像是1955年。

1 背景介紹

GPU的主要的存儲部件，都使用了SECDEC ECC校驗保護，包括：

device memory

l2/l1cache,instruction cache,data cache, share memory

但是并不是GPU中所有的部件都能被ECC校驗保護比如

logic

queue

thread block threaduler

warp scheduler

instruction dispatch unit

interconnect network

一旦一個部件發生錯誤，那么就可能影響多個線程。

文章總結了GPU經常出現的error以及其影響。

上圖中最上面兩行的Single Bit Error和Double Bit Error后面會縮寫為SBE和DBE。

Stability

首先他們發現GPU發生問題的頻率較低，考慮到共計有18,688塊GPU。

按照GPU的手冊，這個數量的GPU，至少每天會發生兩次failure，但是實際中，每兩天發生一次。

他們也注意到，上圖中的Off the bus, ECC page retirement error和DBE failure是主要導致GPU失敗的問題。

他們也注意到，一小部分的bad GPU重復的發生問題，是拉低MTBF(meantime between failure)的主要原因。

如果可以早發現，那么應當提升GPU穩定運行的時間。

Temporal Locality

研究人員發現，有顯著的一部分GPU failure發生遠早于MTFB。這意味著GPU failure有很強的temporal locality。如下圖所示，并不是均勻分布。

Stressing Testing

研究人員發現，有6塊GPU card造成了總體DBE error中的25%。有一部分GPU可能會多次發生DBE和ECC page retirement問題，應當在早期發現這些GPU卡。通過在進入生產環節之前，進行壓力測試，可以有效避免類似問題。

Temperature

他們發現off the bus和DBE error是與溫度有關，但并不是所有的問題都與溫度有關。

SBE

SBE （Single bit error）, 他們發現98%的SBE問題只發生在10張卡上。

如下圖x軸所示，10張卡占據了整體98%的SBE Error

L2 Cache

899張有問題的卡中，如上文所述，10張卡貢獻了SBE 98%的問題。

這10張卡發生SBE錯誤時，99%都發生在了L2 Cache上，如下圖中間的圖。藍色代表L2Cache發生問題。

而對于其余發生問題，造成了2% SBE問題的卡，96%的問題都發生在了device memory上。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

電路

電路

+關注

關注
172

文章
5901

瀏覽量
172133
存儲

存儲

+關注

關注
13

文章
4296

瀏覽量
85798
gpu

gpu

+關注

關注
28

文章
4729

瀏覽量
128890

原文標題：結合論文談一談，三年壽命的GPU [下]

文章出處：【微信號：處理器與AI芯片，微信公眾號：處理器與AI芯片】歡迎添加關注！文章轉載請注明出處。

等離子的使用壽命是多久？

等離子的使用壽命是多久？答：等離子電視的使用壽命大約為6

發表于 05-24 18:00

電子產品使用壽命元器件使用壽命計算

如題，如何去計算正要研發的一款產品的使用壽命，是不是應該從使用的電子元器件的使用壽命去整體權衡，有沒有什么手冊可以查詢，或者有沒有什么軟件可以輸入所使用的電子元器件，然后能計算出理論上這款產品的使用壽命？

發表于 06-06 16:26

電力電容器的保養及使用壽命

小庫說：電力系統中的問題可不容小覷，日常小問題也不能忽視，今天來說一下電力電容器的保養及使用壽命吧電力電容器保養得好，對其使用壽命的延長和電器的安全運行相當重要。如何對電力電容器進行維護保養

發表于 03-22 14:44

怎么延長電表使用壽命？

如何延長電表使用壽命是個問題？解決問題前，提醒下——請先不要像倒洗澡水一樣丟棄電表！全世界的電力公司利用智能電表和高級計量基礎設施(AMI)實現遠程抄表、遠程連接/斷開、需求/響應以及其他高效運營

發表于 07-24 08:15

溫度探頭的使用壽命

專用的，平常的環境溫度監控用這么高精度的溫度傳感器根本沒有意義，殺雞用了牛刀大材小用。因此溫度傳感器的高精度是相對于需求來講的一個概念，原則是跟溫度采集系統匹配就好。溫度探頭的使用壽命有兩個決定因素

發表于 02-21 11:30

電阻負載使用壽命和危害

　　一般來說，電阻的失效率相對性于別的元器件而言，是較為大低的，因此人們一般評定電阻的使用壽命較為少?？墒窃诟邏焊邷氐那闆r下會失效率升高，因此一些情景，人們還是必須細心評定電阻的使用壽命?！　﹄娮?/div>

發表于 07-03 17:31

如何保證工業的使用壽命更長久

??所有東西都是有使用壽命的，只是時間長短不一樣罷了。工業平板電腦也是一樣，也有著一定的使用壽命，大概在8-10年，但這是正常老化的使用壽命。因為有很多的因素會影響著工業平板電腦的使用壽命

發表于 11-04 16:37 ?746次閱讀

如何延長電池的使用壽命

延長電池的使用壽命,認為應就以下幾點引起維護人員的注意.

發表于 01-23 14:59 ?5051次閱讀

如何延長鋰離子電池的使用壽命

有幾種方法可以保持電池壽命（以充電/放電循環次數計）。換句話說，電池達到其使用壽命之前的使用壽命，而不是該循環充電的使用壽命。

發表于 03-10 17:25 ?3340次閱讀

電容器的使用壽命

很多朋友購物最關心的是商品的使用壽命。世界上沒有什么能長久，貼片電容也是如此。今天，小編將帶你了解電容器的使用壽命。　　標稱最高溫度85℃，在85℃環境溫度下，使用壽命可達1000小時

發表于 06-18 15:57 ?9917次閱讀

會縮短R型變壓器使用壽命的注意事項

任何東西都有它的使用壽命，R型變壓器也是如此。雖然R型變壓器在材料和設計上的使用壽命比普通變壓器長，但一些不正確的使用會影響變壓器的使用壽命。今天，讓我們來談談哪些因素會縮短我們電源變

發表于 12-26 12:10 ?672次閱讀

交叉導軌的使用壽命

交叉導軌的使用壽命

發表于 07-20 17:39 ?981次閱讀

固態電池使用壽命

固態電池的使用壽命是一個受到多方因素影響的復雜問題，以下是對其使用壽命的詳細分析：

發表于 09-15 11:53 ?2713次閱讀

處理器與AI芯片
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot Gem5 Arm Fullsystem仿真
Hot 大模型筆記之gem5運行模型框架LLama介紹

New 談談GPU的使用壽命
New 為什么GPU的壽命如此之短

精選推薦
更多

文章

資料

帖子

折疊屏2024的新東西、好東西、舊東西

腦極體
23小時前

442 閱讀

艾為車規氛圍燈驅動芯片AW23003QNR-Q1解析已過AEC-Q100認證

艾為之家
1天前

438 閱讀

使用Keithley源表進行DC-DC電源管理芯片效率測試

泰克科技
2天前

692 閱讀

Mate70首銷兩周超越前代！字節掀AI價格戰！本周熱點科技新聞點評

章鷹觀察
2天前

700 閱讀

基于英特爾開發板開發ROS應用

英特爾物聯網
2天前

410 閱讀

Agilent 4294A精密阻抗分析儀-40Hz至110M

發生的方式
289

5積分

22下載

19種測量電路圖集合

yezi888
36 KB

免費

1836下載

Mongoose OS物聯網固件開發框架

人走了
2.21 MB

免費

0下載

LiteWebChat_frame輕網頁聊天框架

h1654155275.5741
0.07 MB

2積分

1下載

ROCBOSS開源微社區解決方案

吳湛
9.65 MB

2積分

1下載

【敏矽微ME32G070開發板免費體驗】新建工程（MDK）

吉吉祥
1天前

233 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】按鍵點燈：使用輪詢方式和中斷方式實現

jf_64583430
1天前

206 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】07、ADC采集PWM輸出的電壓值

jf_83922529
2天前

310 閱讀

淺談加密芯片的一種破解方法和對應加密方案改進設計

jf_38636298
2天前

887 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】4、Amazon FreeRTOS初探，第一個程序

lustao
2天前

1840 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

談談GPU的使用壽命

評論

等離子的使用壽命是多久？

電子產品使用壽命元器件使用壽命計算

電子產品的使用壽命，電子元器件的使用壽命

電力電容器的保養及使用壽命

怎么延長電表使用壽命？

溫度探頭的使用壽命

電阻負載使用壽命和危害

如何延長蓄電池的使用壽命？

如何保證工業的使用壽命更長久

如何延長電池的使用壽命

如何延長鋰離子電池的使用壽命

電容器的使用壽命

會縮短R型變壓器使用壽命的注意事項

交叉導軌的使用壽命

固態電池使用壽命