服務器數據恢復環境:
北京某單位有一臺EMC某型號存儲,有一組由10塊STAT硬盤組建的RAID5陣列,另外2塊磁盤作為熱備盤使用。RAID5陣列上層只劃分了一個LUN,分配給SUN小機使用,上層文件系統為ZFS。
服務器故障:
存儲RAID5陣列中有2塊硬盤損壞離線,只有一塊熱備盤激活,RAID5陣列癱瘓,上層LUN無法正常使用。
服務器數據恢復過程:
1、將故障存儲中所有磁盤編號后取出,由硬件工程師對所有磁盤做硬件故障檢測,經過檢測沒有發現有硬盤存在物理故障和壞道。
北亞企安數據恢復——ZFS數據恢復
磁盤沒有發現物理故障和壞道,初步推斷是某些磁盤讀寫不穩定導致故障發生。EMC控制器的磁盤檢測策略非常嚴格,一旦檢測到某些磁盤性能不穩定,EMC控制器極有可能會判定這些磁盤為壞盤,將認定為壞盤的磁盤踢出RAID陣列。一旦RAID陣列中掉線的盤到達到該RAID級別允許掉盤的極限值,就會導致RAID陣列崩潰不可用,由于EMC存儲的LUN都是基于RAID陣列的,RAID崩潰會導致基于該RAID陣列的LUN不可用。
2、將故障存儲中所有磁盤以只讀方式做全盤鏡像備份,鏡像完成后按照編號將所有磁盤還原到原存儲中,后續的數據分析和數據恢復操作都基于鏡像文件進行,避免對原始磁盤數據造成二次破壞。鏡像完成后發現源磁盤的扇區大小為520字節,使用工具將鏡像數據做520字節To512字節的轉換。
3、基于鏡像文件分析底層RAID5陣列的相關信息。經過分析發現發現其中有2塊盤(8號盤和11號盤)完全沒有數據,從管理后臺上顯示這2塊盤是Hot Spare,8號盤替換了離線的5號盤。雖然8號盤作為熱備盤成功激活,但該RAID級別為RAID5,因為有2塊盤離線,所以該RAID5陣列還缺失一塊硬盤,所以數據沒有同步到8號盤中。繼續分析其他10塊硬盤,分析數據在硬盤中的分布規律、RAID條帶的大小、盤序等相關信息。
4、根據上面步驟分析出來的RAID信息虛擬重構原RAID。由于整個RAID陣列中一共掉線兩塊盤,需要分析這兩塊盤掉線的順序。經過分析發現有一塊盤在同一個條帶上的數據和其他盤明顯不一樣,因此初步判斷此盤可能是先掉線的。使用北亞企安自主開發的RAID校驗程序對這個條帶做校驗后確認先掉線的那塊硬盤。
5、由于LUN是基于RAID陣列的,完成原RAID陣列的重組后分析LUN在RAID陣列中的分配信息和LUN分配的數據塊MAP。根據LUN相關信息解釋LUN的數據MAP并導出LUN的所有數據。
6、使用北亞企安自主開發的ZFS文件系統解釋程序對生成的LUN做文件系統解釋,在解釋某些文件系統元文件的過程中程序報錯。開發工程師對程序做debug調試并分析程序報錯原因,經過數小時的分析與調試,發現無法解釋文件系統的的原因是存儲癱瘓導致ZFS文件系統中某些元文件損壞。人工修復這些損壞的元文件。
7、修復完成后解析ZFS文件系統,解析所有文件節點及目錄結構。
北亞企安數據恢復——ZFS數據恢復
8、由用戶方工程師對恢復出來的數據進行驗證,驗證過程中沒有發現問題,確認恢復數據完整有效。本次數據恢復工作完成。
北亞企安數據恢復——ZFS數據恢復
北亞企安數據恢復——ZFS數據恢復
審核編輯:湯梓紅
-
服務器
+關注
關注
12文章
9123瀏覽量
85324 -
數據恢復
+關注
關注
10文章
568瀏覽量
17432 -
RAID5
+關注
關注
0文章
113瀏覽量
12720
發布評論請先 登錄
相關推薦
評論