(文章來源:環球網)
硬盤作為服務器數據的載體、一旦出現故障,就會出現信息的缺失和遺漏。為了解決企業級場景下,硬盤對于精準海量記憶的苛刻要求,騰訊云一方面與全球領先的數據存儲解決方案提供商希捷合作,率先在國內引入定制化機制,保證硬盤質量的源頭管理;另一方面,利用大數據分析技術對硬盤健康狀況作多維度 “體檢”,實現了對硬盤品質和可靠性的有效管控,為騰訊云數百萬用戶的底層數據安全能力提供了強有力保障。
據了解,在當前大數據應用場景中,TB級的大容量機械式硬盤是最為廣泛的物理載體,其主流數據記錄方式普遍采用垂直磁記錄技術,在該技術下主要依靠同等體積內增加磁頭、磁碟的數量,以及增加單盤容量的方式來堆高容量。這不僅對硬盤的工藝、機械結構、伺服系統、信號處理等帶來極大的挑戰,也增加了硬盤數據管理的難題。
與此同時,大數據業務場景下往往伴隨著長時間的高工作負載,即便硬盤本身有強大的自恢復機制,但在龐大的強負載壓力下,內部的重試糾錯機制也會影響到上層的數據讀寫,影響系統的穩定性。為有效解決這樣的難題,騰訊云攜手希捷聯合開展獨家質量提升項目,率先在國內云廠商中引入定制化機制,實現了根據自身業務需求對硬盤可靠性的“量身定制”。
希捷根據騰訊云的業務需求開發了定制化內部日志,建立新產品聯合導入測試機制,幫助硬盤加速進入穩定運營期,提升產品的性能與穩定性,保障用戶體驗。經過數月的運營統計數據表明,騰訊云大數據業務中希捷12TB硬盤的可靠性表現得到了顯著提升。
據騰訊服務器供應鏈總經理劉裕勛介紹,硬盤的健康維護是一項綜合性工程,騰訊云在硬盤數據安全防護上做了大量的探索,除了和希捷在強化源頭管理的同時,為最大程度保護云端用戶的安全和穩定,騰訊云還借助最新的大數據AI技術優化硬盤的健康管理。
例如,騰訊云開發的硬盤健康度打分系統,不僅可以智能化對單盤本身的參數進行健康評估,識別出參數惡化的硬盤。在實際業務中,運維人員根據該打分情況,實時掌握重點客戶的硬盤健康狀況,對運行著重要業務的機器提前進行低分盤更換,保障業務系統和數據安全。
實際上,除了上述高負載給硬盤帶來的威脅以外,隨著硬盤本身容量的不斷上升,其自身可靠性的挑戰也在不斷加大。面對這樣的挑戰,騰訊云通過不斷優化自身業務架構,將單盤故障做到業務零感知。
例如,騰訊云對象存儲COS業務中就通過就近訪問的方式減少訪問延遲。在多副本架構下,采用一寫多讀的讀寫策略,結合容錯機制保證數據一致性。同時,基于該讀寫策略,計算框架會根據硬盤位置信息采用離數據最近的機器存儲數據,很好地規避了由于單盤故障和網絡讀寫導致的延遲和服務不可用情況,有效提升了服務的可靠性。
此外,當出現單塊硬盤故障的時候,騰訊云對象存儲COS業務會將硬盤置臟處理,同時,將請求分流至可用的硬盤上,并后端進行無感的數據恢復措施,保障數據保持持久高可用狀態。
騰訊服務器供應鏈總經理劉裕勛表示:“大容量的機械硬盤仍然是當前大數據業務的主力存儲設備。面對技術以及業務的雙重挑戰,騰訊云除了加強與全球存儲巨頭之間的合作之外,還將進一步依托領先的大數據分析技術和業務架構的持續優化,來全面降低硬盤故障對云端業務的影響,為數百萬用戶的數據安全保駕護航?!?br /> (責任編輯:fqj)
-
騰訊
+關注
關注
7文章
1652瀏覽量
49424 -
云技術
+關注
關注
1文章
189瀏覽量
18827
發布評論請先 登錄
相關推薦
評論