服務器數據恢復環境:
華為s系列服務器;
24塊硬盤組成一組raid5磁盤陣列,其中包含1塊熱備盤。
服務器故障&檢測:
服務器工作狀態下raid5中有一塊硬盤離線,熱備盤激活替換離線硬盤并開始進行數據同步,在同步的過程中該raid5陣列內的另一塊硬盤由于未知原因離線,上層應用崩潰,服務器內的數據丟失。
拿到故障服務器內的所有硬盤后,硬件工程師對所有硬盤進行物理故障檢測,發現除了其中的一塊硬盤外,其他硬盤均可以正常讀取無物理故障。
服務器數據恢復過程:
1、將故障服務器內所有硬盤以只讀方式做完整的鏡像備份,后續數據分析和數據恢復操作都基于鏡像文件進行,避免對原始數據造成二次破壞。
2、由于華為s系列服務器的控制器的磁盤檢測策略非常嚴格。對于沒有物理故障但性能不穩定的硬盤,控制器會將其視作壞盤踢出陣列。之前檢測到只有一塊硬盤存在物理故障,因此故障服務器中掉線的兩塊盤中另外一塊是因為讀寫不穩定被視作壞盤踢出而掉線。
3、對每一塊硬盤底層進行分析,獲取到raid陣列的條帶大小、數據走向、硬盤順序、熱備盤、數據庫的分布規律等raid相關信息。根據分析獲取到的raid陣列信息重組raid。
4、根據分析獲取到的陣列相關信息,使用北亞企安自主研發的工具重組原始raid5陣列。
5、在重組過程中發現有一塊硬盤內的數據在同步時候被破壞。由于在數據恢復過程中需要將數據被損壞的硬盤排除,于是數據恢復工程師對所有硬盤進行了底層數據結構的對比。對比發現其中一塊硬盤在相同條帶上的數據與其他硬盤明顯不同。
6、使用北亞自主研發的raid校驗程序對該硬盤進行條帶校驗,確認該硬盤數據已經在同步的時候被破壞。排除這塊硬盤后重組raid5磁盤陣列。
7、完成raid陣列重組后,分析lun在raid中的分配情況及數據塊map。只要能將map完整提取出來,就可以進行解析并提取lun數據。
8、北亞企安數據恢復工程師編寫文件系統解析程序對陣列內文件系統進行解析并導出數據庫文件。
9、由數據庫工程師對提取的數據庫文件進行校驗和修復。數據庫工程師對數據庫文件進行驗證后發現部分數據庫文件及日志文件異常,表空間內存在大量壞塊、所有控制文件被破壞,undotbs02丟失,數據庫工程師對數據庫文件進行了修復。
修復過程:
北亞企安數據恢復——oracle數據庫數據恢復
數據驗證:
經過數據庫工程師對數據庫文件的修復和驗證,最終恢復出所有的數據庫文件。服務器數據恢復工程師將修復成功的數據庫數據導入到準備好的環境中進行驗證,所有數據正常。聯系用戶親自對數據進行驗證均無異常。本次數據恢復工作完成。
審核編輯:湯梓紅
-
服務器
+關注
關注
12文章
9142瀏覽量
85383 -
數據恢復
+關注
關注
10文章
570瀏覽量
17443 -
RAID5
+關注
關注
0文章
113瀏覽量
12722
發布評論請先 登錄
相關推薦
評論