11月19日,為期兩天的2021 GOPS全球運維大會完美落幕。大會由高效運維社區(qū)(GreatOPS)和開放運維聯(lián)盟(OOPSA)、RPA時代社區(qū)聯(lián)合主辦,于上海舉行。七牛云受邀出席了此次大會,七牛云運維架構師敖文武在會中為大家分享了七牛云關于AIOps的探索與實踐經(jīng)驗。
2021 GOPS全球運維大會,主要面向運維行業(yè)的中高端技術人員,目的在于幫助運維人員系統(tǒng)學習了解相關知識體系,讓創(chuàng)新技術推動社會進步。七牛云成立至今始終堅定不移地推動開發(fā)者生態(tài)的建設。七牛云團隊運營著數(shù)十個面向開發(fā)者的社群,主張技術共享并發(fā)起各類技術傳播的活動,如架構師實踐日、Niu Talk 數(shù)據(jù)科學系列論壇等,在全球開發(fā)者社區(qū)有著深遠的影響力和領導力,對AIOps也進行了探索、實踐與思考,擁有著豐富的行業(yè)經(jīng)驗。
七牛云敖文武分別從 AI 和運維 OPS 的關系、七牛云內部AIOps探索和實踐、七牛云對AIOps的思考與總結分三個方面進行了講解與分享。敖文武指出,運維在故障處理流程中的各個環(huán)節(jié),如問題發(fā)現(xiàn)、檢測、分析、根因定位和響應處理等,其中在整個流程中根因定位分析所占時間長達 60%,嚴重依賴運維專家的知識和經(jīng)驗。而七牛云「PISA」產品,能夠進行梳理數(shù)據(jù)建模分析,構建出關鍵業(yè)務調用鏈路,并通過動態(tài)閾值計算,預測未來服務分數(shù)等算法能力。實現(xiàn)快速根因定位,有效縮短MTTR 40%,并逐步在運維內部落地,進一步優(yōu)化了根因定位分析占時長的問題。
從運維角度,為什么需要 AIOps?
整個故障處理過程中,問題定位所需要的時間占比達到 60%。
在實踐中,MTTK (Mean Time to Know) 環(huán)節(jié)嚴重依賴運維專家的知識和經(jīng)驗,且難以口口相傳,這也從一定程度上影響了實踐的效果與人才的培養(yǎng)。
所以,我們需要一種方法將專家知識和經(jīng)驗沉淀下來,實現(xiàn)更加高效的定位和決策。
七牛云內部的探索和實踐
內部在 AIOPS 上針對如何快速定位問題上做了一些探索和落地實踐:
系統(tǒng)可觀測性
依托“PISA”智能服務分析,構建系統(tǒng)可觀測性。SRE 專家經(jīng)驗知識沉淀,加速問題定位。
業(yè)務健康評分
多維度 KPI 指標占比評分計算,主動綜合預測業(yè)務健康和趨勢預測。
告警智能降噪
針對不同告警規(guī)則做指標數(shù)據(jù)分類,降低告警風暴,提升告警準確度。
動態(tài)閾值
靜態(tài)指標弊端很多,無法適應流量峰值周期,集群規(guī)模一直在變化。靜態(tài)的閾值要么是設置過低、要么是過高。所以我們采用時序檢測算法、訓練指標歷史數(shù)據(jù),有效識別周期性異常波動。
可觀測性核心要素:1、Metrics 指標性統(tǒng)計
度量應用某一類信息的正確率、成功率、流量等,這是我們常見的應用單個統(tǒng)計聚合。2、Tracing 分布式追蹤
一次請求的范圍,服務于服務,服務于組件之間的依賴追蹤。3、Logging 日志記錄
程序在執(zhí)行的過程中間發(fā)生了一些日志,會包含報錯信息、堆棧信息等詳細日志內容。
基于七牛云 Pandora 平臺,構建智能運維分析工具「PISA」。「PISA」針對企業(yè)在數(shù)字信息化過程中,業(yè)務系統(tǒng)與 IT 系統(tǒng)割裂,面對IT 人員分析問題難,解決問題耗時長,各類監(jiān)控軟件數(shù)量繁多但無法協(xié)同等問題現(xiàn)狀,需要有效連接企業(yè)的業(yè)務系統(tǒng)和 IT 系統(tǒng),通過提升整體的可觀測性、實時洞察隱患、快速根因定位、提前預知故障等手段,才能幫助企業(yè)提高系統(tǒng)穩(wěn)定和減少損失。將傳統(tǒng)的被動式運維變成主動式運營,讓數(shù)據(jù)產生更高價值。
除此之外,在平臺機器學習工具包上,還集成了大量的算法、能夠進行管理模型和快速驗證。雖然工程師直接做算法存在門檻,但卻可以參與模型的訓練,也能通過不同條件組合進行參數(shù)調整,特征優(yōu)化以追求更好的效果表達。關于我們自己的思考和總結
數(shù)據(jù)維度越全面越好。
所有數(shù)據(jù)標準化越規(guī)范統(tǒng)一越好。
第三,場景(知識)越深入越好。如果本身對運維場景理解不是特別深,不理解場景當成產品功能去做的話,只能做出一個完整的產品功能,但很大概率上無法直接落地。因為線上環(huán)境復雜多元,而且非常依賴運維專家的能力和經(jīng)驗。AIOps 能夠順利落地,一定是在 SRE 或 DevOps 最佳實踐中升華而來。
如何借助AI能力與運維場景進行一個數(shù)據(jù)維度全面、數(shù)據(jù)標準規(guī)范統(tǒng)一、場景知識深入的深度結合并順利落地實現(xiàn),是七牛云對AIOps的深刻思考與理解。
審核編輯:符乾江
-
AI
+關注
關注
87文章
31133瀏覽量
269460 -
機器學習
+關注
關注
66文章
8425瀏覽量
132770
發(fā)布評論請先 登錄
相關推薦
評論