2023 年 11 月 12 日 17:44 開始,阿里云發(fā)生嚴重故障,導(dǎo)致阿里巴巴大量產(chǎn)品無法連接,一時間,“阿里云盤崩了”、“淘寶又崩了”、“閑魚崩了”、“釘釘崩了”等話題相繼登上熱搜。
阿里云出現(xiàn)大規(guī)模故障,也成為政企們熱議的話題,大家關(guān)心的問題在于:公有云到底還安全嗎?是否還能繼續(xù)上云?未來應(yīng)該采取哪些措施來保障穩(wěn)定可靠?
不要動搖“上云”的方向
一個不爭的事實是:阿里云出現(xiàn)嚴重故障,給上云企業(yè),特別是核心業(yè)務(wù)跑在云上的企業(yè)帶來了損失。
一個是故障波及的范圍廣,故障期間阿里云控制臺無法正常登錄,API 調(diào)用異常,導(dǎo)致阿里云全系列產(chǎn)品服務(wù)及全球區(qū)域數(shù)據(jù)中心都受到了影響;另一個是持續(xù)的時間長,故障持續(xù)了 3 個多小時才基本完全恢復(fù)。據(jù)不完全統(tǒng)計,除了阿里系幾乎全線產(chǎn)品出現(xiàn)故障外,整數(shù)云、理工小蜜蜂、餓樂送、cooleasy、IOTTEC、納思云、語雀等平臺均受到影響。
如此大的影響規(guī)模,如此嚴重的程度,在公有云歷史上都非常罕見。于是,有一些人出現(xiàn)了是否繼續(xù)上云的疑慮,甚至有人說應(yīng)該退回到過去自建的模式。
筆者首先給出結(jié)論:千萬不要動搖“上云”的方向。雖然這次阿里云出現(xiàn)的故障很嚴重,但我們?nèi)圆荒芊裾J云相比物理主機具有更高的可靠性。
這是因為傳統(tǒng)服務(wù)器硬件受到廠商品牌、機型、服務(wù)器運行時間以及部件型號故障率等諸多因素影響,更容易出現(xiàn)故障,而云服務(wù)提供商通常遵循一對多的模型,而且具有專業(yè)的基礎(chǔ)運維團隊和內(nèi)核團隊,能夠在出現(xiàn)問題時快速恢復(fù)。相比自建機房的方式,公有云不僅運維成本更低,而且運維更專業(yè)、可靠。
某電商公司 2018 年投入數(shù)百萬資金自建物理機房,起初系統(tǒng)穩(wěn)定性連 90%都達不到,2020 年雙 11 大促活動期間,因業(yè)務(wù)中斷兩小時,造成高達 100 余萬的損失。后來該公司改用移動云云主機,公司業(yè)務(wù)系統(tǒng)穩(wěn)定性提高至 99%,建設(shè)維護成本下降 60%,問題迎刃而解。
更重要的是,上云相比自建機房更是能為企業(yè)帶來無可比擬的價值。在數(shù)字化轉(zhuǎn)型的大背景下,云作為數(shù)字化轉(zhuǎn)型的重要支撐技術(shù),具有按需使用、彈性伸縮、資源共享等優(yōu)勢,可以提升企業(yè)的業(yè)務(wù)敏捷性,降低企業(yè)的成本。而且,云計算也是人工智能的基座,只有在云的基礎(chǔ)上,企業(yè)才能更好地擁抱智能時代。
從千行萬業(yè)無數(shù)企業(yè)的實踐也能看到這一點。例如,對可靠性要求最為苛刻的金融企業(yè),也在將核心業(yè)務(wù)上云。以郵儲銀行為例,其新一代分布式核心系統(tǒng)為全行 6 億多個人客戶提供了日均 20 億筆的處理能力,聯(lián)機交易處理效率提升一倍,批處理效率提升 33%。
正如長江黃河不會倒流,上云的大方向也不會因為出現(xiàn)一些坎坷而發(fā)生改變。
雞蛋不要放在一個籃子里
上云的方向沒問題,但是上云的路徑和具體策略卻需要借助阿里云故障時間進行重新審視。
比如對于核心業(yè)務(wù)上云的企業(yè),就有必要警惕云集中的風(fēng)險,實施多云戰(zhàn)略勢在必行。
Gartner 公布的 2023 年三季度新興風(fēng)險報告顯示,云集中風(fēng)險連續(xù)第二年進入“五大新興風(fēng)險”綜合榜單,其中中國市場的這種風(fēng)險尤為突出。正如 Gartner 法律風(fēng)險與合規(guī)實踐部門研究總結(jié)徐然所說,“云服務(wù)集中化風(fēng)險正在成為大多數(shù)企業(yè)的共識,許多企業(yè)和機構(gòu)現(xiàn)在面臨這樣的處境:一旦單個云服務(wù)商出現(xiàn)故障,將導(dǎo)致業(yè)務(wù)發(fā)生嚴重中斷。”
破局云集中風(fēng)險的一個有效途徑,就是實施多云戰(zhàn)略,就像不要將雞蛋放在同一個籃子里一樣。Flexera 發(fā)布的《2021 年云計算市場發(fā)展狀態(tài)報告》顯示,有 92%的企業(yè)采用了多云戰(zhàn)略,就是如此。
采用多云戰(zhàn)略的好處顯而易見,一方面,企業(yè)可以將風(fēng)險分散,防止出現(xiàn)某個云廠商出現(xiàn)故障時企業(yè)業(yè)務(wù)中斷的風(fēng)險,實現(xiàn)雙保險、多保險;另一方面,企業(yè)也能選擇各領(lǐng)域最優(yōu)的云服務(wù)廠商,形成最佳組合來滿足業(yè)務(wù)需求。
通過這次阿里云宕機事件,還有一個警示意義,那就是必須要重視災(zāi)備。事實上,災(zāi)備服務(wù)也是云相比自建機房的重要優(yōu)勢,云服務(wù)提供商通常會提供災(zāi)備服務(wù),以滿足企業(yè)數(shù)據(jù)安全和業(yè)務(wù)連續(xù)性需求。
但是需要指出的是,不同云廠商的災(zāi)備服務(wù)能力也是有差異的。例如,華為云就具有同城 AZ(AvailableZone,可用區(qū))內(nèi)、跨 AZ、異地跨區(qū)的兩地三中心容災(zāi)方案和 1000 公里以上的城市級容災(zāi)能力。河鋼集團,就采用華為云提供的兩地三中心容災(zāi)備份方案,實現(xiàn)了系統(tǒng)的平穩(wěn)可靠運行,任何時候都能實現(xiàn)業(yè)務(wù) 0 中斷。
所以,對于將核心業(yè)務(wù)放在云上的企業(yè),只有不將雞蛋放在一個籃子里(多云與多地災(zāi)備),才能最大限度保障企業(yè)核心數(shù)據(jù)的安全和業(yè)務(wù)的平穩(wěn)運行。
后記:選云,要選可靠的云
毋庸置疑,阿里云這次出現(xiàn)如此大的故障,會對其未來的市場開拓帶來負面影響。野村綜研(上海)數(shù)字化能力中心總監(jiān)陶旭駿就表示,政府和國企央企市場是云市場的非常重要的客戶群,他們對安全性和穩(wěn)定性的要求是壓倒成本和性能的,阿里云會在開拓企業(yè)市場時受到挑戰(zhàn)。
可以預(yù)計,這次事件也會對政企在選擇云服務(wù)廠商時帶來影響,大家會有一個強烈的共識:選云,要選可靠的云。因為,不管是性能,還是成本,都必須有一個前提,那就是高可靠性、高可用性。打個比方,高可靠性和高可用性是 1,其他是 0,如果沒有前者,后者也不復(fù)存在。
那么什么是可靠的云呢?我覺得,首先要看企業(yè)的基因。比如華為云,就根植華為的基因,華為從運營商業(yè)務(wù)起家,運營商對于產(chǎn)品的可靠性、穩(wěn)定性有極高的要求,如我們經(jīng)常聽到的電信級要求,要求在不間斷運行、高穩(wěn)定性、可靠性上有 5 個 9 的級別。正是這樣嚴苛的要求,讓高可靠性、高可用性刻在了華為、華為云的骨子里,滲透到了血液里。
其次要看企業(yè)在高可靠性、高可用性上的技術(shù)能力,尤其是運維安全上的內(nèi)功。事實上,在軟硬件迭代加速、企業(yè)需求瞬息萬變、不確定性加劇的大背景下,云服務(wù)的運維也在發(fā)生變革,運維既要保穩(wěn),也要敏捷。令人欣喜的是,業(yè)界的頭部廠商正在身體力行地推動運維模式的變革,從運維組織、人員能力、知識體系發(fā)展等全維度進行變革,強化穩(wěn)定可靠性。
穩(wěn)定可靠一直是各云廠商的業(yè)務(wù)重點和難點,為此進行了各種組織上和體制上的設(shè)計。例如,華為云內(nèi)部就專門有一種職業(yè),叫做 SRE(SiteReliabllitiyEngineer,站點可用工程師),還系統(tǒng)定義了包括質(zhì)量管理機制、運維平臺等 SRE 的能力體系。京東云通過京東云云泰-穩(wěn)定性主動管理平臺,為客戶提供全鏈路的云上安全保障,其基于混沌工程原理,可以做到先于用戶發(fā)現(xiàn)問題、先于感知修復(fù)問題。金山云服務(wù)器帶來完善的管理員面板功能,可以讓用戶快速了解實例情況、配置實例、掛載和擴容硬盤等,隨時掌控資源使用情況。
總而言之,針對阿里云出現(xiàn)故障這一事件,需要客觀理性看待:既不能因噎廢食,改變上云的大方向;也不能置若罔聞,需要對上云的路徑和策略進行重新審視,需要對云服務(wù)廠商進行全面審視。
只有這樣,企業(yè)的云上之旅和數(shù)字化轉(zhuǎn)型步伐才能既快又穩(wěn)。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9123瀏覽量
85329 -
云服務(wù)
+關(guān)注
關(guān)注
0文章
818瀏覽量
38908
發(fā)布評論請先 登錄
相關(guān)推薦
評論