服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境:
一臺(tái)存儲(chǔ)中有一組由7塊硬盤組建的RAID5陣列,存儲(chǔ)中還有另外3塊盤是raid中掉線的硬盤(硬盤掉線了,管理員只是添加一塊的新的硬盤做rebuild,并沒有將掉線的硬盤拔掉)。整個(gè)RAID5陣列的存儲(chǔ)空間劃分了一個(gè)LUN。
服務(wù)器存儲(chǔ)故障:
硬盤出現(xiàn)故障導(dǎo)致存儲(chǔ)中陣列癱瘓。
和管理員溝通,據(jù)管理員說是磁盤陣列中某些硬盤出現(xiàn)故障導(dǎo)致存儲(chǔ)不可用,初步判斷RAID中有硬盤掉線了。
服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)過程:
1、將所有硬盤編號(hào)后取出。硬件工程師檢測(cè)所有硬盤是否存在硬件故障,檢測(cè)后并沒有發(fā)現(xiàn)有硬盤存在物理故障。應(yīng)該是某些硬盤上出現(xiàn)邏輯壞道或者其他原因?qū)е翿AID崩潰。將所有硬盤以只讀方式進(jìn)行扇區(qū)級(jí)全盤鏡像,鏡像完成后按照編號(hào)將所有磁盤按照原樣還原到故障存儲(chǔ)中。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析所有硬盤底層數(shù)據(jù)。打開鏡像盤后發(fā)現(xiàn)每512字節(jié)多加了一個(gè)8字節(jié)的校驗(yàn),也就是說每扇區(qū)變成520字節(jié)。于是北亞企安數(shù)據(jù)恢復(fù)工程師編寫小程序?qū)?字節(jié)的校驗(yàn)去掉,方便后期的數(shù)據(jù)恢復(fù)工作。
3、轉(zhuǎn)換完成后開始分析RAID結(jié)構(gòu)。由于多了3塊以前的離線的舊盤,所以需要比較每塊磁盤。其中會(huì)有兩塊磁盤前面的部分?jǐn)?shù)據(jù)相同,這兩塊磁盤中會(huì)有一塊磁盤是舊的,這樣的磁盤會(huì)有3對(duì)。舊盤的數(shù)據(jù)量沒有新盤多,需要排除舊盤。
4、由于操作系統(tǒng)層面采用的是NTFS文件系統(tǒng),通過MFT就可以獲取RAID結(jié)構(gòu)。搞清楚RAID結(jié)構(gòu)后發(fā)現(xiàn)這不是一個(gè)普通的RAID5,而是一個(gè)雙循環(huán)RAID5。通過常用軟件如winhax無法重組RAID。經(jīng)過測(cè)試發(fā)現(xiàn)UFS可以重組這個(gè)RAID,重組RAID后發(fā)現(xiàn)數(shù)據(jù)不是最新的,北亞企安數(shù)據(jù)恢復(fù)工程師判斷出現(xiàn)這種情況的原因是管理員沒有及時(shí)發(fā)現(xiàn)RAID5陣列中第一塊硬盤掉線的情況,沒有及時(shí)添加新的硬盤做rebuild。一段時(shí)間后又有一塊硬盤掉線了,導(dǎo)致整個(gè)RAID不可用。所以還需要找出一塊舊的磁盤,才能生成最新的數(shù)據(jù)。
5、嘗試每次踢掉陣列中一塊硬盤,然后重組RAID,看最新的數(shù)據(jù)是否可用,直到重組RAID中最新數(shù)據(jù)可用時(shí)為止。然后導(dǎo)出數(shù)據(jù)驗(yàn)證。
6、經(jīng)過數(shù)據(jù)恢復(fù)工程師驗(yàn)證沒有發(fā)現(xiàn)問題后,交由用戶方進(jìn)行檢測(cè)。經(jīng)過用戶方的仔細(xì)檢測(cè)和核對(duì),確認(rèn)恢復(fù)數(shù)據(jù)完整有效,認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85328 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
568瀏覽量
17432 -
RAID5
+關(guān)注
關(guān)注
0文章
113瀏覽量
12720
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論