服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
DELL POWEREDGE某型號(hào)服務(wù)器中有一組由6塊SCSI硬盤(pán)組建的RAID5陣列,LINUX REDHAT操作系統(tǒng),EXT3文件系統(tǒng),存放圖片文件。
服務(wù)器故障&分析:
服務(wù)器raid5陣列中有一塊硬盤(pán)離線(xiàn),管理員沒(méi)有及時(shí)發(fā)現(xiàn),直到服務(wù)器raid5陣列中的另一塊硬盤(pán)掉線(xiàn),raid5陣列癱瘓,服務(wù)器無(wú)法正常工作。管理員聯(lián)系DELL售后,DELL工程師建議將其中一塊離線(xiàn)硬盤(pán)強(qiáng)制上線(xiàn)并強(qiáng)調(diào)了該操作的風(fēng)險(xiǎn)性。和領(lǐng)導(dǎo)的商量后,管理員將其中的一塊離線(xiàn)盤(pán)強(qiáng)制上線(xiàn)。上線(xiàn)過(guò)程中發(fā)現(xiàn)服務(wù)器操作系統(tǒng)啟動(dòng)異常,管理員于是馬上關(guān)閉服務(wù)器。
此類(lèi)故障非常普遍。RAID5陣列僅支持一塊硬盤(pán)掉線(xiàn)的冗余保護(hù),如果有兩塊硬盤(pán)離線(xiàn),RAID5陣列便會(huì)崩潰。為了保護(hù)數(shù)據(jù),RAID控制器廠(chǎng)商的設(shè)計(jì)思路為:只要有硬盤(pán)下線(xiàn),RAID控制器是不會(huì)自動(dòng)讓離線(xiàn)硬盤(pán)上線(xiàn)的。由于RAID控制器的高敏感度,通常掉線(xiàn)的硬盤(pán)大概率不會(huì)存在嚴(yán)重的物理故障,甚至很多離線(xiàn)硬盤(pán)是完好的(掉線(xiàn)原因可能是信號(hào)受阻、電源波動(dòng)或控制器BUG等)。正如DELL工程師強(qiáng)調(diào)的,強(qiáng)制上線(xiàn)有較大的風(fēng)險(xiǎn)性,如果強(qiáng)制上線(xiàn)出現(xiàn)問(wèn)題,RAID控制器會(huì)自動(dòng)做出某些不可逆操作。這個(gè)時(shí)候進(jìn)入操作系統(tǒng),文件系統(tǒng)的不一致會(huì)造成系統(tǒng)進(jìn)行自我修復(fù),然后導(dǎo)致所有的硬盤(pán)數(shù)據(jù)不一致。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障服務(wù)器中所有磁盤(pán)編號(hào)后取出,以只讀方式做扇區(qū)級(jí)別的鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,備份后將所有磁盤(pán)按照編號(hào)還原到原服務(wù)器中。在備份過(guò)程中發(fā)現(xiàn)多塊硬盤(pán)存在壞道,只是RAID控制器沒(méi)有檢測(cè)到,暫時(shí)沒(méi)有下線(xiàn)。
2、基于鏡像文件分析原RAID5陣列的結(jié)構(gòu),根據(jù)分析出來(lái)的RAID結(jié)構(gòu)相關(guān)信息構(gòu)建虛擬RAID。
3、驗(yàn)證RAID結(jié)構(gòu)的正確性,北亞企安數(shù)據(jù)恢復(fù)工程師修復(fù)部分被破壞的結(jié)構(gòu)后將數(shù)據(jù)導(dǎo)出到另一存儲(chǔ)中。
4、在原服務(wù)器上搭建新的RAID并將數(shù)據(jù)遷移至新RAID中。
5、用戶(hù)通過(guò)抽樣檢測(cè),絕大部分圖片文件可以正常打開(kāi),只有有極少數(shù)文件有問(wèn)題,用戶(hù)認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85324 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
568瀏覽量
17432 -
磁盤(pán)
+關(guān)注
關(guān)注
1文章
375瀏覽量
25201 -
RAID5
+關(guān)注
關(guān)注
0文章
113瀏覽量
12720
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論