電子發燒友網報道(文/吳子鵬)6月8日,廣東電信發生重大故障,導致廣東電信全省本地及漫游用戶通話異常。當天16時左右,陸續有網友在社交媒體上發文指出,使用電信卡的手機無法通話和通信。“故障發生后,自己嘗試了拔卡重啟、檢查手機硬件、充話費等不同方法,依然無法解決問題。”
隨后不久,中國電信廣東客服回應稱,“因網絡異常,影響部分移動用戶接聽電話,我們正在進行搶修,由此給您帶來的不便,我們深表歉意,感謝您的理解和支持。”而后在8日18時左右,中國電信廣東客服又補充發文表示,“經緊急搶修,自16:30起,受影響的用戶正逐步恢復,對在此期間受到影響的客戶表示真誠的歉意。”
到了19時左右,此官微又發布了一條消息稱,“截至目前,受影響的移動用戶接聽語音業務已全面恢復,給您帶來的不便我們再次深表歉意。”
圖源:中國電信廣東客服官微
對于此次故障的具體原因,中國電信官方還沒有公布。不過,針對這起歷史性的電信事故,8日晚,廣東省通信管理局召集廣東電信、廣東移動、廣東聯通、廣東廣電、廣東鐵塔相關負責人召開網絡運行安全緊急調度會。
跳出事件本身來看,電信系統到底是如何運營的呢?容災系統不起作用原因有哪些呢?
解密電信網絡系統
對于電信網絡的運轉,其上方有兩套系統,分別是上層IT軟件和底層基礎硬件。
其中IT系統又可以分為BSS、OSS、MSS和EDW。BSS(Business Support System,業務支撐系統)和OSS(Operation Support System,運營支撐系統)合稱為BOSS系統,也就是電信業務運營支撐系統。BOSS系統以客戶服務、業務運營和管理為核心,支持客戶服務和計費等關鍵事物的運轉。
在BOSS系統中,BSS實際上是具有主動式管理能力的。這種能力讓運維人員在故障發生之前就能夠提前介入處理,消除系統故障帶來的潛在風險,是運營商系統層面提升客戶滿意度的關鍵功能。不過很顯然,在此次廣東電信故障事故中,BSS系統并沒能起到主動式管理的作用,從這個層面來看,這次的事故突發性很強。
MSS(Management Supporting System,管理支撐系統)負責IT系統的規劃和窗口展現,幫助電信運營商實現業務和市場需求更好地結合,并提升企業管理和IT系統升級的效率,也對企業運營效率提升有幫助。
EDW(Enterprise Data Warehouse,企業數據倉庫)主要負責數據存儲和信息化管理。
IT系統是電信運營商業務的神經樞紐,當然其運轉還需要部署在底層的硬件設備上。在介紹底層硬件結構之前,我們先結合下圖看一下電信業務是如何運轉的。如下圖所示,無論是電話業務,還是移動手機業務,最終都需要連接到核心網。
電信業務服務架構示意圖,圖源:華為培訓
再看一下另一張圖,寬帶業務實際上也是如此,全部業務支撐最終都要回歸到核心網層面。
寬帶業務示意圖,圖源:華為培訓
所以,這就是為什么運營商很多時候被稱為“管道商”。實際上,所有的電信運營業務都像是水管一樣,網絡流量由核心網分化而來,每一項業務都是基于管道里的流量,從骨干網分流,如下圖所示。
電信網絡分流示意圖,圖源:中國電信
當然,網絡是一個相對虛化的概念,具體還是要靠設備來支撐。在整個網絡架構中,三種設備最為常見和關鍵,分別是路由器、交換機和核心交換機。如下圖所示,無論網絡在核心網、IP傳輸網還是業務網上傳輸,依靠的都是交換機來中轉。
圖源:廣州移動培訓資料
運營商在建設網絡時,一般會選擇使用多臺核心交換器來構建超級節點,超級節點基本只存在北上廣等重要節點城市部署,負責國際和省際之間的網絡傳輸,也構成了核心網傳輸的第一平面。這個平面包括超級節點及其鏈路,以及各省第一出口鏈路。當然,骨干網絡還有第二層,由普通核心節點到超級節點的鏈路和各省第二出口鏈路組成,負責跨大區域間的流量轉發,大約全國2/3的流量都在這個網絡上跑。如下圖所示,為了增加網絡接入的效率,在節點上將流量進一步分流,也就到了基站和普通交換機/路由器一端,方便用戶的接入。
網絡接入和傳輸示意圖,圖源:華為培訓
那么,很顯然一個普通的路由器和交換機是很難讓一個省的網絡全部出現問題的,很可能就是核心交換機出現了問題,影響骨干網的傳輸,導致一個省沒有網絡流量入口。
雖然二層網絡已經推出很多年,不過目前依然是電信運營商主要采用的骨干網架構。雖然二層網絡的擴展性不好,不過其跨域傳輸的性能很出色。當然,這也造成了一個問題,那就是看似互聯互通的網絡,會存在一些重要的節點,這些節點是不容有失的。
電信網絡的容災機制
電信網絡是一個關系到國計民生的領域,因此在構建的過程中,是需要具有容災機制的,面對一些突發的挑戰。
我們上面已經提到,電信網絡基本靠兩套系統在運作,一個是IT系統,另外一個是底層設備。由于用戶信息和業務高度集中,因此每一個電信業務開始部署時都有一套“plan B”,也被稱為容災措施,主要是為了應對突發的火災、洪水、颶風和其他突發因素等。
據介紹,除了在BSS系統中加入故障預判的機制以外,電信系統在硬件層面具有多層容災措施,包括單板主備容災、設備主備容災、網元主備容災、同城異域容災以及異城異地容災。通過多維度豐富的容災措施,一般在重大故障之后,電信運營商都能夠很快地恢復網絡。
上一次發生地域性大規模斷網是在鄭州大洪水期間。由于數十年難得一見的洪水,導致鄭州骨干核心機房和主備機房全部被水淹。最終,為了讓鄭州市民能夠盡快使用網絡,啟動了異城異地的容災機制。
不過,一般而言,異城異地容災已經是最高規格的電信網絡容災機制了,一旦遇到全省范圍內的突發事件,實際上也很難起到作用。
寫在最后
此次廣東電信的故障是一次歷史性的事件,也給國內的主要運營商提了醒。在當前的骨干網絡架構里,一些關鍵節點的重要性與日俱增,一旦出現問題,就會帶來大面積的影響。當然,此次廣東電信故障還沒有公布真正的原因,上述也只是從電信運營商軟硬件體系結構下推斷出來的。具體原因如何,相信廣東電信會給大家一個解釋。
-
電信
+關注
關注
2文章
730瀏覽量
61923
發布評論請先 登錄
相關推薦
評論