某企業的5G行業項目無人集卡遠程駕駛視頻回傳業務受到影響,具體表現為從終端上傳到采控平臺的監控視頻存在花屏問題,采控平臺對終端的操控受到影響,產生偶發性卡頓,視頻花屏示例如下圖所示。企業園區的視頻回傳和卡車操控業務均受到影響。
無人集卡視頻業務組網如下圖所示。
上行方向:終端攝像頭→ 視頻網關→ CPE → 基站→ 防火墻→ 承載→ UPF業務交換機→ 下沉UPF → UPF業務交換機→ 企業防火墻→ 企業服務器控制臺
針對視頻花屏一類的問題,大部分情況下都是由于網絡報文丟包和報文亂序引起的。這是因為視頻碼流的傳輸是建立在傳輸層協議的基礎上,即TCP協議和UDP協議。而視頻監控場景大多采用UDP面向不可靠連接協議。 因此排查方向為檢查網絡中的UDP報文,排查思路有以下四點:
問題定位:判斷網絡中是否存在UDP丟包率或亂序率高的問題,定位手段為使用Wireshark工具抓包分析,定位點為企業的視頻服務器。
問題定界:若有UDP丟包率或亂序率高的現象,則需要定界丟包或亂序的引入點在哪里。必要時需要進行端到端網絡抓包分析,目的是逐步縮小引入丟包或亂序點位的范圍,直至抓出問題設備。
問題優化:定位到問題設備進行分析、解決。有可能是多個設備,涉及無線、承載、核心網各專業產品,具體的分析解決過程由問題產品對應的團隊負責,目標是使整個端到端網絡的丟包率或亂序率降低。
效果驗證:網絡的丟包率或亂序率降低后,觀察花屏問題是否得到改善或解決。
TCP面向連接:當傳輸中斷,發送端是感知的,可以重新建立連接。因此采用TCP傳輸的優勢是不丟包;但劣勢是網絡不佳的情況下會導致擁塞。常見的場景:觀看視頻、FTP等。
UDP非面向連接:發送端只管發送數據,接收端是否能收到數據則不在發送端的考慮范圍內。因此UDP的優勢是數據具有實時性,傳輸速度更快;劣勢是當網絡抖動大時,數據會丟失嚴重,這就是導致視頻花屏的常見原因。常見場景:視頻監控、直播、視頻會議、音視頻通話。
問題定位
故障復現期間,在企業服務器端進行Wireshark數據抓包分析。
抓包數據流為UDP流,如下圖所示。
UDP流轉碼為RTP流,經過流統計沒有丟包,如下圖所示。
但是存在1%亂序,如下圖所示。初步分析可能為亂序問題導致的視頻花屏。
問題定界
安排端到端7個節點(CPE、基站、承載、防火墻、UPF業務交換機、下沉UPF、企業服務器)進行抓包分析,確認是哪個網元引入的亂序問題,如下圖所示。
分析點1:測試PC → CPE抓包分析
分析點2:OME網管平臺 →基站側DPS、NG口抓包分析
分析點3:測試PC →傳輸抓包分析
分析點4:測試PC →防火墻抓包分析
分析點5:測試PC → UPF業務交換機業務匯聚端口抓包分析
分析點6:測試PC → UPF網元側抓包分析
分析點7:遠端操作PC → 企業服務器側抓包分析
分析過程
在故障發生的同一時間段內,將各節點的Wireshark數據統計結果進行匯總,初步判定在UPF業務交換機和UPF網元中間引入了亂序,如下圖所示。
1.在UPF業務交換機進行數據統計,統計數據如下圖所示。
a.GTP包:為基站增加GTP包頭,通過承載等網元轉發至UPF的報文。 b.UDP包:經UPF處理并轉發至企業園區N6的報文(回到交換機的包)。
3.經過UPF業務交換機一進一出的數據統計結果,可以明顯看出數據報文在經過了UPF和UPF業務交換機后,有亂序率增加的現象,亂序率由0.01變為0.38%,所以UPF產生問題的可能性最大。
4.在UPF網元進行數據跟蹤統計,統計結果如下圖所示。
5.根據UPF網元數據統計結果,可以看出在UPF網元側的幾段報文中,確實存在亂序增加的現象。16段抓包結果的亂序率在0.08%~1.48%之間,平均亂序率為0.41%。 6.在企業服務器進行數據統計,如下圖所示。
7.根據企業服務器數據統計結果,可以看出企業服務器的幾段報文中,確實存在亂序現象,平均亂序率為0.39%。
8.為驗證初步分析的結果,需要再次在UPF業務交換機和UPF網元進行抓包對比,如下圖所示。
9.經過抓包對比,第二次抓包數據統計的結論與第一次的結論一致,即UPF業務交換機到UPF網元段亂序大量增加。由此初步分析得結論:終端上傳視頻時,數據包從UPF業務交換機出來至UPF內部,再由UPF轉發至UPF業務交換機出現問題,導致了亂序增加。
10.將故障范圍收斂為:UPF業務交換機、UPF網元或底層設備,其中UPF故障的可能性最大,后續主要分析方向為UPF。
11.根據抓包結果進行分析,執行以下3項操作,觀察是否改善:
a.關閉UPF網元所有的數據跟蹤,在UPF業務交換機上再次進行抓包,分析亂序現象是否改善。
結果:無效。
b.調整UPF業務交換機SG 2、3、6、7口(與業務服務器的業務網卡)負荷分擔策略為src-dst-ip。在交換機上抓包,分析亂序現象是否相同。
結果:無效。
c.將UPF虛機進行主備倒換,再次交換機抓包,分析亂序現象是否相同。
結果:無效。
12.根據抓包結果再次進行分析,執行以下2項操作,觀察是否改善: a.核查現場組網拓撲,檢查防火墻分發策略,是否異常。
結果:無異常。
b.UPF所有補丁都沒打,需要打上補丁后查看是否有改善。
結果:無效。
13.進一步檢查,發現UPF主備倒換沒有生效,需要重新倒換。
a.分析交換機聚合組分發是否有問題,需要保留聚合組里面唯一端口,關閉其他端口。
b.根據第一次操作抓取數據分析發現新問題點:UPF除了亂序外,還有更高比例的丟包問題,統計數據如下圖所示。 亂序比例:交換前0.04%,經過UPF后亂序率增加至0.46%,增加了近10倍。 丟包比例:交換前0.77%,經過UPF后丟包率增加至1.55%,增加了近1倍,且較亂序比例更大。需要重點解決該問題。
14.對UPF網元進行一鍵采集內部統計分析,存在上行的計費丟包。對UPF進行信令跟蹤發現,現場采用的是N40在線計費,且每次下發約200 MB配額(查看具體配額的消息:Nchf_ConvergedCharging_Update Request),如下圖所示。
15.經分析,在用戶上線后,UPF會通過SMF向OCS申請配額,當配額用完之后,UPF會重新向OCS進行配額申請。
16.根據現場抓包分析速率大約50 s左右配額會耗盡,耗盡后UPF實時向OCS申請配額。因為具有實時性,從OCS而來的新配額如果未及時送達UPF,則UPF會將緩存報文進行丟包處理,此時極大可能導致視頻花屏。
17.綜合以上分析,建議將在線計費方式改為離線計費或者不計費方式,查看花屏問題是否解決。
18.SIM計費情況說明如下:
a.在線計費(預付費):需要和OCS交互申請配額,當配額達到閾值后,會重新向OCS申請新的額度,在OCS下發新額度之前,如果配額耗盡,則UPF將會進行丟包。
b.離線計費(后付費):不需要和OCS進行交互,理論上用戶可以一直使用流量,但用戶下線后,會向計費中心上報流量統計數。
c.針對實時回傳的流媒體業務,通常會使用離線計費,因為在線計費需要實時申請配額,如果網絡出現延時或者OCS響應不及時,會導致丟包嚴重,業務中斷。
問題處理
1.將SIM卡計費方式由在線計費更改為離線計費,再次在UPF業務交換機進行抓包,抓包結果如圖14所示。
結果分析如下:
a.亂序比例:交換機0.02%,經過UPF后亂序率增加至0.12%,增加近5倍,亂序問題還存在。
b.丟包比例:交換機0.34%,經過UPF后丟包率增加至0.38%,僅增11%,較操作前下降明顯。
2.與第三方視頻廠家溝通,反饋花屏效果已大大改善,基本已經解決原來視頻花屏問題,如下圖所示。
3.根據前后數據分析,視頻花屏問題分析結論如下:
a.視頻花屏問題定位為UPF的丟包原因引入,通過更改SIM卡的計費方式,大大降低了UPF的丟包行為,花屏問題基本解決。
b.UPF亂序問題存在,但在當前環境下,亂序問題對現場視頻花屏影響很小。
審核編輯 :李倩
-
服務器
+關注
關注
12文章
9123瀏覽量
85328 -
UDP
+關注
關注
0文章
325瀏覽量
33931 -
監控視頻
+關注
關注
0文章
25瀏覽量
5809
原文標題:ZXUN xGW-無人集卡視頻存在花屏的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論