數字化時代,企業需要更加復雜的 IT 基礎架構以確保業務的正常開展。因此,IT 基礎架構一旦出現問題就有可能給企業帶來巨大的損失,甚至使企業消失。因此,現代企業中,IT 災害仍然是對生產過程最大的威脅。
什么是災難?
災難是具有挑戰性的麻煩,它能夠立即讓可用的人力、IT、財務和其他資源的能力不堪重負,并導致寶貴資產(例如文檔、知識產權對象、數據或硬件)的重大損失。
在大多數情況下,災難是導致非典型威脅的突然事件鏈,一旦災難開始,這些威脅就很難或不可能停止。根據災難的類型,企業必須制定嚴格的預警方案。
災難主要有三種類型:
1)自然災害:當聽到“災難”一詞時,大部分人可能會想到的第一件事就是自然災害。不同類型的自然災害包括洪水、地震、森林火災、異常高溫、強雪、暴雨、颶風和龍卷風以及海洋風暴。
2)技術和人為災害:技術災難是與技術基礎設施故障、人為錯誤或邪惡意志有關的任何事物,包括軟件中斷、發電故障等在內的任何問題。
3)混合災害:這些災難包括全球軟件中斷、關鍵硬件故障、停電和任何電力供應問題、惡意軟件(包括勒索軟件)、電信問題(包括網絡隔離)、軍事沖突、恐怖主義事件、大壩故障、化學事件。
要說明的是,第三類災害包括了將自然和技術因素的特征結合在一起的混合災害。例如,大壩故障可能導致洪水,導致整個地區或國家的停電和通信問題。
什么是災難恢復?
災難恢復 (DR) 是在發生全球破壞性事件后應采取的一組操作(方法),用于恢復和還原操作。主要的災難恢復活動側重于重新獲得對數據、硬件、軟件、網絡設備、連接和電源的訪問權限。災難恢復行動還可以涵蓋重建后勤、搬遷工作人員和購買辦公設備,以防資產損壞或毀壞。
若要創建災難恢復計劃,需要考慮在以下時間段內要完成的操作序列:
1)災難發生前(構建、維護和測試 DR 系統和策略)。
2)在災難期間(采取即時響應措施以避免或減輕資產損失)。
3)災后(應用災備系統恢復運營,聯系客戶、合作伙伴,分析損失和恢復效率)。
災難恢復計劃中包含的12大要素
1)業務影響分析和風險評估數據
在此步驟中,主要研究對組織造成的典型和最危險威脅和漏洞。有了這些知識,能夠計算特定災難發生的概率,衡量對生產的潛在影響,并更加輕松地實施合適的災難恢復解決方案。
2)恢復目標:定義的 RPO 和 RTO
RPO 恢復點目標:該參數定義在不對生產產生重大影響的情況下可以丟失的數據量。
RTO 恢復時間目標:即企業可以容忍的最長停機時間,因此也是完成恢復工作流的最長時間。
3)職責分配
建立一個了解每個成員在發生災難時的負責的主要工作的團隊,是高效災難恢復計劃的必備組成部分。組建一個特殊的災難恢復團隊,為每位員工分配特定角色,并培訓他們在實際災難發生之前履行自己的角色,這是在需要實際行動來保存企業資產和生產時避免混淆和缺失鏈接的方法。
4)災難恢復站點創建
任何規模或性質的災難都可能嚴重損壞企業主服務器和生產數據,使恢復運營變得不可能或非常耗時。在這種情況下,具有關鍵工作負載副本的 DR 站點是將 RTO 降至最低并在緊急情況期間和之后繼續向企業客戶端提供服務的最佳選擇。
5)故障恢復準備
故障恢復是在主數據中心再次運行時,將工作負載返回到主站點的過程,在規劃災難恢復時可能會忽略。
盡管如此,事先建立故障恢復順序,有助于使整個過程更加順暢,并避免可能發生的輕微數據丟失。此外,災難恢復站點通常不是為長時間支持基礎結構的功能而設計的。
6)關鍵文檔和資產的遠程存儲
如今,即使是小型企業也會生成和處理大量關鍵數據。丟失硬拷貝或數字文檔可能會使其恢復變得耗時、昂貴甚至不可能。
因此,準備遠程存儲(例如,用于數字文檔的 VPS 云存儲和用于硬拷貝資產的受保護物理存儲)是確保在發生災難時重要數據可訪問性的可靠選擇。
7)注明設備要求
此 DR 計劃需要審核支持企業 IT 基礎結構正常運行的節點。這包括計算機、物理服務器、網絡路由器、硬盤驅動器、基于云的服務器托管設備等。
這些知識使您能夠查看在災難發生后恢復 IT 環境的原始狀態所需的元素。此外,企業還可以查看至少支持任務關鍵型工作負載所需的設備列表,并確保在主要資源不可用時生產連續性。
8)通信通道定義
確保為員工、管理層和災難恢復團隊提供穩定可靠的內部通信系統。設置通信通道的使用順序,以處理災難發生后主服務器和內部網絡不可用的情況。
9)概述響應程序
在災難恢復計劃中,最初的幾個小時至關重要。創建有關如何執行 DR 活動、監視和執行流程、故障轉移序列、系統恢復驗證等的分步說明。盡管采取了所有預防措施,但如果生產中心仍然發生災難,對特定事件的集中和快速響應可以幫助減輕損害。
10)快速報告事件
在災難發生并中斷生產后,不僅應通知災難恢復團隊成員。您還需要通知相關人員,包括營銷團隊、第三方供應商、合作伙伴和客戶。
作為災難恢復計劃的一部分,創建大綱和腳本,向員工展示如何通知每個關鍵組其關注的問題。此外,事先創建的基本新聞稿可以幫助您避免在實際事件中浪費時間。
11)災難恢復計劃測試和調整
成功的企業會隨著時間的推移而變化和擴展,其災難恢復計劃應根據相關需求和恢復目標進行調整。完成計劃后立即對其進行測試,并在每次引入更改時執行其他測試。因此,企業可以衡量災難恢復計劃的效率并確保資產的可恢復性。
12)應用最佳災難恢復策略
災難恢復策略可以在DIY(自己動手)的基礎上實施,也可以委托給第三方供應商。前一種選擇是為了經濟而犧牲可靠性的方式,而后者可能更昂貴但更有效。
災難恢復策略的選擇完全取決于企業的功能,包括團隊規模、IT 基礎架構復雜性、預算、風險因素和所需的可靠性等。
總結
災難是突然的破壞性事件,可能使組織無法運行。自然、人為和混合災害具有不同級別的可預測性,但在組織級別上幾乎無法預防。確保組織安全的唯一方法是根據組織的特定需求創建可靠的災難恢復計劃。
-
IT
+關注
關注
2文章
866瀏覽量
63559
原文標題:IT系統災難恢復計劃的12大要素
文章出處:【微信號:D1Net11,微信公眾號:存儲D1net】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論