服務器數據恢復環境&故障:
兩臺SOLARIS系統(SPARC平臺)的服務器通過光纖交換機共享同一個存儲作為CLUSTER使用。正常情況下只有A服務器工作。如果A服務器發生故障宕機,可將A服務器關機,開啟B服務器接管。但由于配置不當導致共享存儲互斥出現問題。
管理員進行運維檢查時發現B服務器連接了一塊未知磁盤。由于B服務器并未啟用,處于閑置狀態,所以管理員也將這塊磁盤當作閑置的,于是在B服務器上將磁盤的某個分區做了newfs。沒想到這塊磁盤就是那個共享存儲,執行操作沒有多長時間A服務器就開始報警并宕機。
發生問題后,管理員又做了如下操作:1、重啟A服務器但發現所有的文件系統均無法掛載。2、執行fsck。多數分區數據修復成功,只有在B服務器做過newfs的文件系統修復結果不理想,根目錄下只有一個lost+found文件夾,里面有大量數字標號的文件。
故障文件系統存放了兩組ORACLE實例,文件系統為UFS,約有數百個數據文件需要恢復。
故障分析&數據恢復方案:
光纖環境下的共享沖突案例很多。本案例中,A服務器與B服務器同時對UFS這個單機文件系統進行訪問,兩臺服務器都以獨享方式對共享存儲進行管理。A服務器正常管理的文件系統其實底層上已經被B服務器做了文件系統初始化,A服務器從緩沖區寫入文件系統的數據也會破壞B服務器初始化的結果。
B服務器上做newfs實際上直接會作用于原先的文件系統之上,但本案例與單純的newfs有些不同,在A服務器宕機之前,會有一小部分數據(包括元數據)回寫回文件系統。newfs的結構如果與之前的相同,數據區是不會被破壞的。如果有一小部分元數據存在,部分數據還是可以恢復的。
UFS文件系統以塊組切割,每塊組分配若干固定的inode區。文件系統newfs時,如果結構與之前的相同,文件系統最重要的inode區會全部初始化,之前的無法保留。inode管理著所有文件的重要屬性,所以單純從文件系統角度考慮,數據恢復的難度很大。幸虧oracle數據文件的強結構性和UFS文件系統的規律性,可以通過對oracle數據文件的結構重組,將數據文件、控制文件、日志等恢復出來。oracle數據文件本身會有表名稱描述,也可以反向推斷原來的磁盤文件名。
服務器數據恢復過程:
1、將所有文件系統做只讀鏡像。
2、基于鏡像文件分析&重組oracle數據結構。
3、針對部分結構亂,無法重組的文件,北亞企安數據恢復工程師參考ufs文件系統結構特征進行輔助分析。
4、利用恢復出來的數據文件、控制文件在oracle平臺恢復數據庫。
5、恢復完所有數據庫文件后,交由用戶方檢測。經過仔細檢測,確認恢復出來的數據完整。
Tips:
fsck是很致命的操作,在fsck之前最好做好備份。光纖環境中存儲互斥不當是非常多的數據災難的原因,應謹慎部署與實施。
審核編輯 黃宇
-
光纖
+關注
關注
19文章
3913瀏覽量
73128 -
服務器
+關注
關注
12文章
9123瀏覽量
85329 -
數據恢復
+關注
關注
10文章
568瀏覽量
17432 -
共享存儲
+關注
關注
0文章
5瀏覽量
2921
發布評論請先 登錄
相關推薦
評論