核心網,是通信網絡的大腦,承擔著網絡全局資源的調度及管理。進入5G時代,核心網肩上的擔子更重了,其承載著來自千行百業(yè)的多樣化業(yè)務需求。如何實現5G時代的核心網高效、低成本和高可靠運維,成為了運營商及業(yè)界關注的焦點。那5G時代的核心網運維有哪些挑戰(zhàn)?又有哪些新變化呢?
5G時代的核心網運維挑戰(zhàn)
運維對象規(guī)模和復雜性急劇上升——不同于以往4G時代,5G時代由于網絡應用深入到多樣化的業(yè)務場景,網絡規(guī)模急劇加大。通過切片方式來進行業(yè)務的管理,導致了業(yè)務也會更加動態(tài)和復雜,從而讓網絡管理難度大幅增加;網絡的管理對象也急劇增多,除了傳統意義上的運營商的公網,還有各行各業(yè)的行業(yè)用戶專網,如何能夠針對不同對象合理化,分域的運維,基于各個行業(yè)進行SLA保障,也是非常棘手的一個問題;同時,隨著NFV,微服務架構等技術的不斷引入,網絡實現了分層解耦,按需部署,但同時也帶來了運維復雜度的上升,故障的定位定界成為了5G時代運維極大的挑戰(zhàn);2/3/4/5G時代遺留下來多個獨立的運維入口,也讓原本就復雜的運維工作,變得更加的繁瑣,傳統煙囪式的運維團隊和流程模式也因數據之間相互隔離,流程的非自動化,無法在5G時代繼續(xù)下去。
人力要求和企業(yè)成本的挑戰(zhàn)——與4G主要面向消費者市場不同,5G將賦能千行百業(yè),與各行各業(yè)的生產效率、業(yè)務創(chuàng)新等緊密相關,這要求5G新業(yè)務能敏捷上線,業(yè)務發(fā)布將從原來的幾個月縮短到幾天,甚至是小時級,還要求運營商提供高SLA的網絡來保障企業(yè)的生產、業(yè)務等流程高效穩(wěn)定運行,否則可能會給行業(yè)帶來經濟損失,這單靠傳統的人工運維模式無法支撐業(yè)務及網絡的要求。同時,5G時代不僅網絡更復雜,業(yè)務更多樣化,伴隨著低時延應用和行業(yè)專網興起,還將有大量MEC邊緣節(jié)點廣泛分布于網絡的不同位置,這都將新增大量的上站維護工作量和運維成本,因此,如何最大程度減少Opex,是運營商在5G這個新戰(zhàn)場上不得不考慮的問題。
如何破除以上挑戰(zhàn)?
在這樣的挑戰(zhàn)背景下,業(yè)界做了很多的探索和嘗試,試圖在方案架構,運維技術,運維方式等方面進行變革,將自動化,智能化引入5G核心網運維。有人提出一個有趣的設想,我們的網絡是否可以像自動駕駛汽車一樣,在沒有人干預的情況下,自動,智能的行駛。這樣的假設讓業(yè)界產生了很強的共鳴,也展開了無數的討論,其中比較著名的就是TMF提出的自動駕駛網絡的5層演進節(jié)奏,全面詮釋了網絡在未來10年的演進方向。
將自動駕駛網絡的演進分為從level0到level5幾個級別,讓我們知道網絡自動化將會是一個長期的目標,是一個逐步實現的過程,其中AI的能力也會逐步的引入各個領域實現整個演進的轉變。
那5G時代的核心網運維如何逐步實現“自動駕駛”呢?
運維架構轉型
首先需要考慮的是運維架構層面的改變。
眾所周知,存量網絡的管理系統多且孤立分散,數據相互隔離;管理面能力沒有服務化,無法按需進行靈活的部署,導致了底層資源浪費;傳統管理面和業(yè)務網元是分離的,這不符合5G時代核心網網元實時控制,本地自治的訴求。為了解決這些問題,就需要在管理面架構上進行融合,實現跨域跨代跨平臺跨層的統一管理。就如華為提供的iMaster MAE-CN方案,非常巧妙的將傳統網管,VNFM LCM,NFVO,NSSMF,MEAO及相關運維工具子系統進行融合。一方面,這些組件并不是粗暴式的堆疊,而是以微服務的方式存在,方便客戶按需部署,另一方面,最重要的是它打通了傳統煙囪式的運維體系,讓數據可無縫互通,不僅能夠讓日常運維操作簡單許多,更重要的是增加了發(fā)掘數據更多價值的可能性。同時,這些組件都連接著一個智能的調度引擎,通過系統而靈活的調度,實現從網絡設計,部署,到運維、優(yōu)化的端到端的管理,而不僅僅是傳統意義上簡單的運維。
AI引入日常監(jiān)控場景——主動預防實現亞健康狀態(tài)精準識別
另一個非常重要的轉變就是技術的改變。這里,大部分的廠商都嘗試通用引入AI技術,自動化,智能化的處理核心網運維問題。
熟知核心網運維的工程師,一定深有體會,在建網初期,工程師要花費大量時間逐條進行上萬個KPI指標對象的閾值設置,這個閾值是根據以往的專家經驗進行設置,由于是靜態(tài)的閾值,這就給后續(xù)日常監(jiān)控埋下了可能出現誤報,漏報異常的情況的隱患,告警的可信度大打折扣。況且不同子網情況不同,子網間這些閾值的設置無法復制,工程師只能通過人工的方式,一個個子網進行設置。最棘手的是異常檢測之后的根因分析,工程師需要人工逐條KPI進行故障定位,同時在大量KPI指標中篩選出該異常KPI的關聯KPI,通過查看關聯KPI的測量值,進一步定位異常的原因。這樣全程人工主導的運維方式,效率提升真的是難上加難。
那如何通過AI技術去解放工程師日常的運維工作呢?
我們從閾值的設置入手,看看通過AI如何進行智能的KPI的異常檢測。剛才我們提到,傳統的閾值設置是基于專家經驗設定的靜態(tài)閾值,工作量大,也不準確,隔上一段時間,還需要根據現網的實際情況進行閾值的糾正調整。這里,華為提出了動態(tài)閾值的概念,如何理解呢?首先,有一個AI的訓練模型,每周對現網歷史數據進行采樣,通過AI算法持續(xù)的去訓練校準這個模型。然后,將現網的實時KPI數據導入訓練好的模型中,得到動態(tài)閾值范圍,也就是說,當網絡發(fā)生變化時,閾值范圍也會發(fā)生變化,因此,在網絡出現異常的早期階段,就會有潛在的KPI指標超過閾值范圍,系統上報異常。這樣,在某種程度上,可以幫助我們提前發(fā)現網絡隱患和故障,而不是在主要KPI已經異常后去處理故障。
動態(tài)的閾值,能夠精準的發(fā)現網絡隱性事故,但是實現運維的閉環(huán),還需要智能的對異常情況進行分析,快速找到根因。這里,華為提供了一種多指標關聯分析功能,如果某個KPI指標異常了,系統可以按照貢獻度去對相關的指標進行排序,工程師可以基于此快速的找到最大貢獻度的KPI,從而快速的定位問題的根因。
AI引入變更操作場景——構筑“三道防線”實現機器值守
除了日常監(jiān)控場景外,重大變更場景也會使用AI。
我們知道,在5G時代,產品版本發(fā)布頻率越來越高。因此,會進行大量的重大操作,如普通升級、灰度升級、配置變更、擴容等?,F網70%以上的重大事故是由于網絡變更導致的。一旦異常,對業(yè)務和用戶體驗影響很大。每年有數千次的變更,給運營商帶來了巨大的挑戰(zhàn)。同時,由于人工操作量大,網絡異常識別平均耗時5小時。導致在業(yè)務影響增加時,無法提前分析和發(fā)現異常,這樣就錯過了解決問題的時間窗口。
因此,在這種場景下,工程師希望運維方案能夠建立變更前、變更中、變更后三道防線,提前規(guī)避風險和問題。
現在,讓我們來看看這個系統是如何工作的。
首先,在變更前,系統自動進行在線健康檢查,確保待變更網絡健康。其次,變更過程中,所有變更準備和操作均按照規(guī)范自動執(zhí)行。例如,在變更前的計劃中明確每個操作的結果。這樣,每一步的操作,都可以有依據,方便變更過程中進行對比。最后,在變更值守階段,需要持續(xù)實時監(jiān)控網絡異常情況。這里,華為利用復合LSTM神經網絡遞歸生成多指標關聯分析。其將指標分為呼叫類指標組、注冊類指標組、接入類指標組等。該算法可以訓練每個組,使每個組可以生成出一個關聯性。當某個異常發(fā)生時,對應群組的關聯性就會發(fā)生改變。這樣就可以快速定位異常指標組。再通過KPI貢獻度,識別出異常KPI。接下來,我們再來看看如何快速定界異常點。其根據歷史的專家經驗,在系統中預置了很多故障場景;同時,把告警、日志、KPI等多維度因素作為一個事件,與預置場景進行匹配,這樣就能快速定界網絡異常了。這樣就可以幫助我們快速、及時地定位問題了。
AI的引入,最終實現從被動運維到主動運維轉型
以上分享了兩個引入AI的運維場景。不難發(fā)現,將AI引入到運維的場景后,傳統運維方式逐漸發(fā)生了變化。傳統的方式是一種被動的運維方式,就是當故障已經出現了,我們才通過各種各樣的系統,方法,以及人工的方式,去盡可能快速準確的進行故障定界定位,從而快速恢復。而AI的引入,讓我們對運維的模式有了新的想法。我們可以基于AI技術去進行主動運維,也就是說在故障發(fā)生之前,主動的識別網絡的風險,將網絡的亞健康問題暴露出來,在它變成故障之前就把它處理掉,而不是等亞健康問題變成故障后,才去解決問題。然后再通過AI技術,快速的定位問題,將風險快速識別。
5G讓網絡自動駕駛成為了焦點,而AI的引入加速了網絡自動駕駛的演進。未來的5到10年將是網絡自動駕駛快速孵化,演進的時代,讓我們拭目以待。
責任編輯:tzh
-
通信
+關注
關注
18文章
6043瀏覽量
136172 -
AI
+關注
關注
87文章
31158瀏覽量
269526 -
核心網
+關注
關注
17文章
349瀏覽量
18497 -
5G
+關注
關注
1355文章
48480瀏覽量
564890
發(fā)布評論請先 登錄
相關推薦
評論