无遮无挡免费视频,一本大道加勒比久久,一本到在线观看视频不卡

近日，阿里云盤爆發故障，停服了近5小時，隨后官方發了道歉信，也明確了賠償方案，但故障原因至今未公布。坊間傳言是因為用戶集中下載某電視劇資源所致，具體情況不明。

阿里云盤和阿里云有沒有關系呢？雖然這是兩個獨立的品牌，但阿里云盤應該算是阿里云主要的SaaS產品之一，其資源肯定也是承載在阿里云的平臺上的，所以這個故障算到阿里云頭上應該不冤。

這是繼阿里云香港區故障后，又一次引發社會輿論關注的故障事件。當然，發生故障并不可怕，IT系統發生故障太正常不過了，但一個機房出問題就全局宕機了？一個系統故障就導致服務中斷5個小時？說好的可用區隔離，跨區高可用，自動恢復自動切換，這些寫進SLA里的保障措施全部失效！這就有點不同尋常了。

從這個角度看，這兩次故障事件正在折射出阿里云一些內部的問題，甚至直接暴露出包括阿里云在內的云廠商巨頭在前些年野蠻生長、快速擴張過程中遺留下來的很多bug還有待修補。這些bug的構成非常復雜，有技術的因素，也有機制流程的因素，還有人的責任意識的因素，如果這些bug不能在短時間內得到有效解決，可以預料，這樣級別的故障可能還將發生，這對阿里云等巨頭們的品牌形象、客戶信任度都是嚴重的傷害。

更關鍵的是，當前國內云計算應用已從互聯網拓展至政務、金融、工業、醫療、交通等傳統行業，在這個過程中，云上系統的復雜度極大提升，給云廠商帶來的挑戰將會更大！

其一，云上系統深度應用微服務等云原生技術架構，應用之間存在錯綜復雜的依賴關系，服務性能瓶頸難以分析，故障影響范圍難以評估，故障根因難以定位，給平臺的運維保障工作帶來了諸多困難；

其二，云上系統的故障率會隨設備的增加而呈指數級增長，單一節點問題可能會被無限放大，日常運行過程中不可避免的伴隨異常發生，如何解決這些偶發、突發的問題，仍是一個技術難題；

其三，云上系統節點分布范圍更廣、數量更多，高度依賴網絡質量，給日常運維過程中的日志采集、變更升級等都帶來了新的挑戰。

與此同時，由于產業互聯網核心業務上云進程加速，而核心業務系統作為支撐用戶服務的關鍵，往往具備業務連續性要求高、并發請求量大、業務激增隨機性強的特點，一旦發生故障，其影響范圍更大，后果更嚴重。為什么阿里云香港區事件直接導致阿里云換帥，正是因為事件影響的范圍極廣，對阿里云的品牌形象造成了極大的損害。

那該怎么辦呢？

從阿里云近期接連的兩次故障來看，云服務商亟需加深對云上系統穩定性的認知，構建安全生產和穩定性保障雙體系，推動云上系統的穩定性持續提升。

第一、建設云上業務安全生產體系，完善流程管理機制

一是事前的主動防御，通過完備的故障分析、風險檢測、全局管控等事前風險防護治理手段，變被動為主動，盡量減少故障風險發生的概率；

二是事中的全局監控，通過深度應用大數據、人工智能等技術，對信息系統進行全局監測和預警，實現實時風險態勢感知；

三是事后的應急保障，將信息化手段與傳統方式相融合，多種應急方式，最大程度降低業務系統故障導致的損失和影響，有效保障業務系統的穩定性和連續性。

在這個過程中還有一個關鍵點在于人的責任意識的培養，所有管理機制流程到最后還是需要人來執行落地。在這方面，運營商云或許更有優勢，畢竟電信運營商刻在DNA里的就是對“保障通信生命線”的追求，電信級服務對他們來說是一種信仰，也是一種職業習慣。

第二、構筑全流程穩定性保障體系，提升技術保障能力

事前做好規劃工作，設計高度韌性系統。在軟件設計階段，重點關注系統架構和容量規劃的設計，同時配合混沌工程實驗持續保持、提升系統韌性。

事中全方位檢測，提高系統故障逃逸能力。通過對鏈路中各環節運行數據的整合及聯動，在故障發生時幫助運維人員迅速定位故障原因，最大化利用系統的觀測數據輔助進行根因分析，實現高效的故障修繕與恢復。此外，要確保“應用多活”成為保障業務連續性的關鍵抓手，而并非是一句宣傳口號。當災難（含基礎設施故障）發生時，多活系統在分鐘級內實現業務流量切換，有效保障業務系統持續穩定運行，提升系統故障逃逸能力。

事后構建故障閉環，降低故障復現率。完善故障管理機制，故障管理機制包括規范管理故障響應流程、故障升級機制、故障復盤機制，規范技術人員在應對突發故障時的操作流程，明確職責邊界，提升溝通效率，推動故障解決，提升故障處理效率。

在以上這些方面，一些正在崛起的新興云廠商可能比老牌巨頭走得更快更前，比如，移動云一直聚焦云服務穩定性領域涉及的關鍵技術，從混沌工程、全鏈路壓測建設、可觀測性平臺建設、應用多活架構等多方面提升移動云穩定性。同時加速運維系統的“平臺化”、“數據化”、“智能化”建設，持續加強移動云穩定性。在去年8月工信部召開的“云服務穩定安全運行應急演練專項活動”中，移動云榮獲“十佳優秀報告”榮譽稱號。

最后，張勇在就任阿里云總裁后又發了一封內部信，里面有一段話——

“唯有日積月累的客戶信任，才可以讓我們真正在市場中保持領先優勢，才能讓我們擁有持久的核心競爭力。任何故障的發生，對阿里是萬分之一、百萬分之一的概率，一旦發生在每個客戶身上就是百分之百。我們必須急客戶所急，想客戶所想，既主動解決客戶看得到的問題，更要把客戶尚未感知到的風險防患于未然。”

望行業共勉吧。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴