服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
一臺(tái)某品牌X3650M3服務(wù)器,服務(wù)器中有一組raid5磁盤陣列,上層采用zfs文件系統(tǒng)。
服務(wù)器未知原因崩潰,工作人員排查故障后發(fā)現(xiàn)服務(wù)器的raid5陣列中有兩塊硬盤離線導(dǎo)致該陣列不可用,服務(wù)器內(nèi)的數(shù)據(jù)丟失。
數(shù)據(jù)恢復(fù)工程師在現(xiàn)場(chǎng)對(duì)故障服務(wù)器raid5陣列中的磁盤進(jìn)行硬件故障檢測(cè),經(jīng)過(guò)檢測(cè)發(fā)現(xiàn)該raid5陣列中離線的兩塊硬盤均無(wú)硬件問(wèn)題。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障服務(wù)器raid5陣列中所有磁盤編號(hào)后取出,以只讀方式進(jìn)行扇區(qū)級(jí)的全盤鏡像,鏡像完成后按照編號(hào)將所有磁盤還原到原服務(wù)器中,隨后數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作均在鏡像文件進(jìn)行,確保原始數(shù)據(jù)不被修改和破壞。
2、基于鏡像文件對(duì)所有磁盤鏡像文件進(jìn)行分析,發(fā)現(xiàn)該raid5陣列中有兩塊熱備盤,2塊硬盤離線時(shí)只有一塊熱備盤成功激活,此時(shí)raid5陣列處于缺盤狀態(tài),數(shù)據(jù)并未同步。數(shù)據(jù)恢復(fù)工程師通過(guò)分析獲取到原raid5陣列中的硬盤分布規(guī)律、raid條帶、盤序等raid信息。
3、根據(jù)分析獲取到的RAID信息分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個(gè)條帶上的數(shù)據(jù)和其他硬盤明顯不一樣,數(shù)據(jù)恢復(fù)工程師初步判斷此硬盤是最先掉線的。使用北亞企安自主開發(fā)的RAID校驗(yàn)程序?qū)@個(gè)條帶進(jìn)行校驗(yàn),發(fā)現(xiàn)除掉剛才分析的那塊硬盤后所得出的數(shù)據(jù)是最好的,因此可以確定最先掉線的那塊硬盤。
4、根據(jù)獲取到的raid信息重組raid5陣列,在重組出的raid5陣列中分析lun的分配情況和數(shù)據(jù)塊情況。使用北亞企安自主開發(fā)的軟件導(dǎo)出lun并解析文件系統(tǒng)時(shí)提示報(bào)錯(cuò),重新調(diào)試軟件后報(bào)錯(cuò)情況依舊,可以排除由于軟件問(wèn)題所導(dǎo)致的文件系統(tǒng)解析報(bào)錯(cuò)。手動(dòng)檢查導(dǎo)出的文件后發(fā)現(xiàn)導(dǎo)致解析報(bào)錯(cuò)的原因是文件系統(tǒng)元文件損壞。經(jīng)過(guò)檢測(cè)發(fā)現(xiàn)元文件損壞原因是服務(wù)器癱瘓時(shí)zfs文件系統(tǒng)正在進(jìn)行IO操作。由于軟件無(wú)法解析文件系統(tǒng),于是數(shù)據(jù)恢復(fù)工程師手動(dòng)修復(fù)zfs文件系統(tǒng)中損壞的元文件后再使用軟件進(jìn)行解析。
5、將手動(dòng)修復(fù)好的文件系統(tǒng)再次使用軟件進(jìn)行解析,這次成功解析所有文件節(jié)點(diǎn)和文件目錄結(jié)構(gòu),然后將數(shù)據(jù)導(dǎo)出。
6、驗(yàn)證恢復(fù)出來(lái)的數(shù)據(jù)沒(méi)有發(fā)現(xiàn)問(wèn)題。交由用戶方對(duì)恢復(fù)出來(lái)的數(shù)據(jù)進(jìn)行檢查,經(jīng)過(guò)仔細(xì)檢查,用戶方確認(rèn)恢復(fù)出來(lái)的數(shù)據(jù)完整可用。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85328 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
568瀏覽量
17432 -
磁盤
+關(guān)注
關(guān)注
1文章
375瀏覽量
25201 -
RAID5
+關(guān)注
關(guān)注
0文章
113瀏覽量
12720
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論