雙十一剛過,云服務商宕機導致大面積故障的新聞就引爆全網(wǎng),再一次引發(fā)全網(wǎng)關(guān)于云計算安全可靠的大討論。
在一個充滿著復雜性、不穩(wěn)定性和不確定性的烏卡時代,云故障頻發(fā)似乎已發(fā)展成一種“常態(tài)”,讓企業(yè)對于云計算逐漸產(chǎn)生諸多顧慮。但隨著數(shù)字經(jīng)濟和產(chǎn)業(yè)數(shù)字化的提速,上云與用云已是企業(yè)推動數(shù)字化轉(zhuǎn)型不斷深入的重要抓手,成為不可阻擋的趨勢。Gartner 預測,至 2025 年或?qū)⒂?90%的企業(yè)關(guān)閉傳統(tǒng)數(shù)據(jù)中心,企業(yè)各種行業(yè)應用開發(fā)將全面走向云化。
因此,企業(yè)在烏卡時代不能對云望而遠之,而需要邁向全面云化的同時,重視多云戰(zhàn)略的投入,并在選擇云服務時更加看重云服務的穩(wěn)定可靠。
數(shù)字化轉(zhuǎn)型不可逆
企業(yè)切莫對云望而遠之
近年來,在數(shù)字經(jīng)濟浪潮的助推下,加速上云被公認為是垂直行業(yè)的大勢所趨。
在新應用、新場景、新技術(shù)不斷涌現(xiàn)的今天,企業(yè)的數(shù)字化轉(zhuǎn)型進程已不可逆,越來越多企業(yè)借助數(shù)字化轉(zhuǎn)型在市場競爭中獲得成功。這其中,云計算扮演著關(guān)鍵的數(shù)字底座角色。憑借著彈性、靈活、高效、合規(guī)與可控等優(yōu)勢,云計算如今成為企業(yè)數(shù)字化轉(zhuǎn)型中綜合應用 AI、大數(shù)據(jù)等新技術(shù)的最佳載體,為企業(yè)業(yè)務高效發(fā)展提供持續(xù)的動力。
歸根結(jié)底,在數(shù)字經(jīng)濟的大浪潮下,云計算改變了資源使用的模式,帶來商業(yè)效率的根本性提升。雖然云服務商也會有各種故障發(fā)生的情況出現(xiàn),但云計算的諸多特性決定了其仍然是最為可靠的數(shù)字底座,上云是企業(yè)數(shù)字化轉(zhuǎn)型進程中的最佳選擇。
以金融行業(yè)為例,極為看重安全、可靠的各種金融機構(gòu)均沒有放慢擁抱云計算的步伐。最新的《金融科技發(fā)展規(guī)劃(2022—2025年)》明確鼓勵各類金融機構(gòu)基于“云”發(fā)展業(yè)務系統(tǒng)、技術(shù)測試、信息安全等,支持金融機構(gòu)“上云”部署,利用云計算資源開展業(yè)務。
例如,借助云計算的優(yōu)勢,郵儲銀行新一代分布式核心系統(tǒng)實現(xiàn)為 6 億多用戶提供日均 20 億筆的處理能力,將聯(lián)機交易處理效率提升一倍、批處理效率提升 33%,在日趨激烈的市場競爭中為用戶提供了穩(wěn)定、快速的金融服務。
可以說,金融機構(gòu)上云是垂直行業(yè)積極上云的一個縮影。事實上,隨著企業(yè)上云與用云步伐的加快,多云戰(zhàn)略已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型中的核心戰(zhàn)略。企業(yè)愈發(fā)傾向于通過多云戰(zhàn)略來分散云計算的風險,實現(xiàn)資源的合理分配以及風險防范。
多云戰(zhàn)略提速
企業(yè)需看重什么
Flexera《2022 年云狀態(tài)報告》顯示,89%的受訪企業(yè)選擇了多云戰(zhàn)略。
無疑,多云戰(zhàn)略已成為企業(yè)數(shù)字化轉(zhuǎn)型的共識。在云故障不可避免的今天,出于“避免雞蛋放在一個籃子里”的考慮,企業(yè)選擇多個云計算服務商是降低風險、實現(xiàn)資源合理分配的最佳途徑。
但每個云計算服務商都有著不同的特征,企業(yè)要想通過多云戰(zhàn)略來充分利用每個云計算服務商的獨特優(yōu)勢,實現(xiàn)跨云的無縫治理、資源利用等并不容易。Gartner 就認為多云能夠降低對單一云服務商的依賴性,也會增加運營的復雜性和成本,企業(yè)在多云戰(zhàn)略中需要優(yōu)先考慮主要云服務商和制定工作負載的歸屬策略,實現(xiàn)應用在云端的合理部署與使用。
特別是那些大規(guī)模核心業(yè)務上云的企業(yè),多云戰(zhàn)略中對于主要云服務商的選擇更為關(guān)鍵。這些企業(yè)通常希望主要云服務商既能夠支持云原生、人工智能、大數(shù)據(jù)等先進的數(shù)字化技術(shù),更希望云服務商基礎設施穩(wěn)定性、可靠性、安全性具備高水平,以確保云上部署的各種業(yè)務應用的安全與可靠。
例如,《銀行業(yè)信息系統(tǒng)災難恢復規(guī)劃》規(guī)定,AB 類業(yè)務災難恢復要求在 5 級以上,業(yè)務中斷需要低于 15 分鐘。現(xiàn)實情況中,很多金融機構(gòu)出于對監(jiān)管和用戶體驗的要求,往往對于業(yè)務中斷的要求會遠遠高于《規(guī)劃》的規(guī)定。
因此,在企業(yè)的多云戰(zhàn)略中,主要云服務商的運維與災備能力至關(guān)重要。眾所周知,云服務商的數(shù)據(jù)中心等基礎設施隨著規(guī)模不斷增大、部署應用復雜性提升和業(yè)務快速變化,數(shù)據(jù)中心設備故障、應用故障等帶來的風險也隨之增長。
云服務商一是需要具備先進的運維能力,在運維管理等層面有能力去預測、發(fā)現(xiàn)故障,降低故障可能帶來的風險;二是需要具備強大的災備能力,一旦發(fā)生故障或者災難,可以快速實現(xiàn)業(yè)務恢復,避免因故障造成業(yè)務的停頓。
以華為云為例,得益于華為從高可靠性、高可用性的運營商業(yè)務起家,可用性保障基因深入骨髓,華為云一直重視災備安全,可以提供同城 AZ(AvailabilityZone)內(nèi)、跨 AZ、異地跨 Region 的兩地三中心容災方案和 1000 公里以上的城市級容災能力。
更加重要的是,華為云 SRE 團隊在華為云高速成長的過程中不斷實踐,結(jié)合政企運維經(jīng)驗,形成了確定性運維的理念,正在對數(shù)據(jù)中心運維領(lǐng)域產(chǎn)生深遠影響。
確定性運維
為不確定的云時代帶來確定
穩(wěn)定、可靠是云時代最為核心的競爭力之一。
華為云的穩(wěn)定、可靠背后離不開其 SRE 團隊的長期努力。所謂 SRE(SiteReliabilityEngineer,站點可用性工程師)是 DevOps 模式的一種組織實現(xiàn)形式,強調(diào)研發(fā)和運維團隊的組織級協(xié)作,構(gòu)建 PRR、EB 等質(zhì)量保障的流程機制,打造全棧工程師來應對業(yè)務快速迭代和敏態(tài)發(fā)展所帶來的運維挑戰(zhàn)。
從 2017 年開始,華為云致力于實踐 SRE 的實踐。伴隨著華為云業(yè)務的高速成長,華為云 SRE 團隊在實踐中不斷成長,并結(jié)合華為政企運維經(jīng)驗,形成了確定性運維的理念,并逐步演進為包括“質(zhì)量文化”、“高可用架構(gòu)”、“動態(tài)風險治理體系”和“高度智能運維框架”的確定性運維體系,面向云服務全生命周期的質(zhì)量看護,實現(xiàn)現(xiàn)網(wǎng)可預期的高可用質(zhì)量結(jié)果。
在“高可用架構(gòu)”方面,華為云 SRE 確定三個維度:即軟件有確定性的失效率,且在控制范圍之內(nèi);確定性的恢復時長,在故障出現(xiàn)后可以快速恢復;確定性影響面,確定故障的爆炸半徑,縮小故障影響面。通過“高可用架構(gòu)”,華為云可以讓前端的云服務具備高可靠和高可用的能力,并且故障發(fā)生時,確保故障不跨 AZ 擴散。
在“動態(tài)風險治理體系”方面,華為云 SRE 將 AI 能力引入到運維之中,實現(xiàn)于運維風險冒泡和及時清除;持續(xù)提升監(jiān)控、定界與快速恢復能力;構(gòu)建混沌工程等主動運維能力;用數(shù)據(jù)智能支撐持續(xù)的自我改進。
在“高度智能運維框架”方面,華為云 SRE 依托數(shù)據(jù)中臺,結(jié)合先進的算法,實現(xiàn)智能告警、智能故障定界、自動恢復等。
此外,華為云還推出確定性運維成熟度模型,幫助業(yè)內(nèi)同行基于運維模式,對運維流程、工具、人力進行治理進行評估,從而有效地規(guī)劃和制定運維策略。
如今,在確定性運維理念的驅(qū)動下,華為云在業(yè)務高速發(fā)展中不斷提升了服務效率,并且為用戶帶來了確定性的服務質(zhì)量、更好的服務體驗。
綜合觀察,墨菲定律告訴我們:“如果某件事情可能出錯,那么它就一定會出錯”,云計算也不能免俗。云服務商過去、現(xiàn)在都有故障發(fā)生,將來也會出現(xiàn)故障。面向未來,隨著基礎服務在功能層面上走向驅(qū)動,云服務商之間的競爭焦點一定是質(zhì)量的競爭,安全、穩(wěn)定、高質(zhì)量的云服務意味著信賴,也將決定著用戶的選擇。
審核編輯 黃宇
-
華為云
+關(guān)注
關(guān)注
3文章
2445瀏覽量
17410
發(fā)布評論請先 登錄
相關(guān)推薦
評論