近期,招商銀行和歐拉開源社區聯創了A-Ops智能運維項目,并在招行coremail郵件系統中完成測試。測試結果顯示,A-Ops極大地提升了網絡連接丟包、錯包、重傳以及時延增大等系統網絡問題的界定效率。
背景隨著業務系統規模的增長,對于配置和架構的管理,難度也指數級上升。對于配置管理,個體對配置的修改無法主動發現,不合規項掃描不全,為系統運行帶來隱患;對于架構管理,自身及三方軟件間的關系主要依賴管理員的經驗,變更影響難以評估,排障困難。我們希望有一套機制,能夠自動溯源配置,識別配置管理的不合規項以及非預期修改;同時自動感知架構,識別完整的架構圖,包括組件、實例、訪問關系等,在系統異常時及時發現并定界,快速消除風險。
團隊介紹參與本次聯創的團隊來自招商銀行信息技術部數據中心,招商銀行為A-Ops智能運維項目提供了真實的業務場景進行原型驗證,團隊和openEuler A-Ops SIG組成員共同完成了包括前期的需求調研、功能確認,以及之后的問題解決、聯調測試等過程。
聯創成果檢查配置差異
在coremail郵件系統集群環境中修改某些主機的配置文件,A-Ops能夠獲取實際配置和預期配置的差異,并獲取差異內容;幫助運維人員快速判斷問題邊界是否由配置引起,如果是則下發正確配置到指定主機上,快速解決配置異常導致的系統問題。
某主機配置與預期配置差異圖
實時繪制系統拓撲:
在coremail郵件系統測試系統登錄、發信、收信等流程,通過A-Ops能夠實時捕獲系統連接情況并繪制郵件系統業務流拓撲圖(已和相關人確認符合預期);運維人員能夠快速識別系統中的實例以及依賴關系等。
登錄系統的實時拓撲圖
快速問題界定:
我們在郵件系統注入了時延增大、丟包等故障,由實時拓撲圖可以看出可能的問題鏈路已經被標紅;運維人員因而能夠快速界定問題節點,并根據異常信息進一步進行問題定位解決。
注入故障后的實時拓撲圖
現在的異常檢測是基于閾值(專家經驗)的,后續會增加基于AI算法的的異常檢測功能,并支持算法擴展。后續招商銀行將和A-Ops項目組一起,在現有基礎上完善異常檢測能力、增加根因定位功能,實現自動問題根因定位;并在招行其他系統推廣運行,實現系統問題快速定位定界。
A-Ops簡介A-Ops智能運維平臺專為企業簡化云系統治理復雜度,加速企業數字化改造過程。主要特征包括:
智能觀測,能夠基于AI精準觀測基礎設施;
平臺化,能夠實現系統全棧的智能觀測與分析;
覆蓋廣泛,能夠覆蓋openEuler系任意類型的基礎設施。
A-OPS智能運維平臺包括:智能探針、架構感知、異常感知、異常森林、配置溯源等特性,并提供SaaS服務。通過對基礎設施的精準觀測,實現對軟件系統架構的實時全息感知,實現云環境下OS因素引起的業務性能問題1分鐘定界、3分鐘定位。
原文標題:招商銀行基于A-Ops智能運維構建快速定位定界能力
文章出處:【微信公眾號:openEuler】歡迎添加關注!文章轉載請注明出處。
-
AI
+關注
關注
87文章
30762瀏覽量
268905 -
數字化
+關注
關注
8文章
8713瀏覽量
61731 -
openEuler
+關注
關注
2文章
312瀏覽量
5863
原文標題:招商銀行基于A-Ops智能運維構建快速定位定界能力
文章出處:【微信號:openEulercommunity,微信公眾號:openEuler】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論