如何防止數據中心中斷?
每次數據中心中斷都代價高昂。隨著數字化步伐的加快,維持正常運行時間的壓力極具挑戰性。考慮到數據中心負載的增加,僅靠人類來處理由于復雜性的增加而產生的大量問題已經不可能了。如今,IT運營團隊比以往任何時候都更需要管理復雜的IT基礎設施。再加上不斷增長的數據量,使得IT團隊的任務更加難以管理當今動態的、不斷變化的IT環境。這增加了中斷的可能性。
雖然有許多技術進步,但中斷很常見,且還在增加。Uptime Institute的2022年年度中斷分析報告強調,五分之一的組織報告在過去三年中經歷了“嚴重”或“嚴重”中斷,涉及重大財務損失、聲譽損害、合規違規,在某些嚴重情況下,還會造成人員傷亡,這標志著重大中斷的發生率略有上升趨勢。根據Uptime的2022年數據中心彈性調查,80%的數據中心經理和運營商在過去三年中經歷過某種類型的中斷,比正常情況略有增加,在70%到80%之間波動。超過60%的數據中心失敗導致至少10萬美元的總損失,遠高于2019年的39%。在同一時期,損失超過100萬美元的中斷所占比例從11%上升到15%。
數據中心中斷的原因
中斷的原因各不相同。從網絡故障到硬件或軟件故障,再到斷電、網絡攻擊和人為錯誤,導致數據中心中斷的原因有很多。
下面來看看服務中斷的主要原因,并推薦最佳實踐來緩解這些問題:
網絡問題:根據Uptime的2022年數據中心彈性調查,在過去三年中,與網絡相關的問題已經成為所有IT服務中斷事件的最大單一原因——無論嚴重程度如何。由于越來越多地使用云技術、軟件定義架構和混合分布式架構帶來的復雜性,導致軟件、網絡和系統問題導致的中斷正在增加。
與電源相關的問題:與電源相關的中斷占被歸類為嚴重中斷(導致停機和經濟損失)的43%。根據Uptime調查,電源事故的最大單一原因是不間斷電源(UPS)故障。 人為錯誤:同一份Uptime調查顯示,絕大多數與人為錯誤相關的中斷都涉及忽略或不適當的程序。近40%的組織在過去三年中遭受過由人為錯誤引起的重大中斷。在這些事件中,85%是由于員工未能遵守程序或程序本身存在缺陷。
勒索軟件和DDoS:網絡攻擊也可能是導致中斷的主要原因。如今,由勒索軟件和DDoS攻擊引起的數據泄露很常見,可能會導致業務中斷。隨著勒索軟件變得越來越復雜和普遍,其在大企業的董事會中越來越重要。NTT Security Holdings的一份報告指出,勒索軟件的流行正在影響業務連續性,在過去24個月里,勒索軟件事件響應業務增長了240%。
防止中斷的最佳實踐
彈性是數據中心的一個關鍵屬性,每個企業都必須努力通過一系列舉措來防止中斷。首先,組織必須定期分析數據中心生態系統的每個重要組成部分的彈性,如電源、冷卻、連接、服務提供商。數據中心溫度與數據中心設備故障有直接關系。因此,監測溫度對于防止任何可能的故障或設備關閉變得極其重要。
UPS系統的故障也可能導致中斷。由于大多數UPS系統在電源故障之前都沒有進行真正的測試,因此對UPS系統的一致遠程監控有助于提供實時警報,并在潛在問題導致中斷之前向管理員發出警報。
軟件故障也可能導致中斷和停機。因此,有必要定期更新軟件和打補丁。為了確保定期更新補丁,人工智能可用于掃描漏洞,并在需要時進行軟件更新或補丁。AI還可用于主動識別與數據中心設備或應用程序性能或安全相關的問題。
通過結合使用主動網絡監控和使用自動化將人為錯誤的可能性降至最低,可以防止與網絡相關的中斷。網絡冗余也是可取的,這意味著如果一個網絡出現故障,可以使用不同服務提供商的替代網絡。
理想情況下,雇傭第三方服務提供商,可以對彈性進行審計,并提供獨立的、無偏見的評估,以理解和對標彈性。選擇正確的DR流程還可以幫助快速從中斷中恢復。
為了確保免受勒索軟件的攻擊,企業必須減少用戶權限,消除任何終端用戶管理員,并使用多因素身份驗證(MFA),因為這極大地限制了攻擊者橫向移動的機會。網絡分割可以減少攻擊向量,而基于策略隔離的用戶端點檢測和響應(EDR)解決方案的實現可以幫助防止惡意軟件的傳播。
研究表明,許多數據中心的中斷是完全可以預防和避免的。如果組織投資于正確的設備、技術和流程,則可以避免大多數中斷的發生。
審核編輯:陳陳
-
中斷
+關注
關注
5文章
899瀏覽量
41535 -
數據中心
+關注
關注
16文章
4792瀏覽量
72184
原文標題:如何防止數據中心中斷?
文章出處:【微信號:通信電源技術,微信公眾號:通信電源技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論