某資源池TECS上報BFD會話DOWN告警和網(wǎng)絡(luò)流量異常告警,持續(xù)時間1秒至6分鐘不等,如下圖所示。
同時,業(yè)務(wù)側(cè)反饋,該資源池ISBG業(yè)務(wù)網(wǎng)元產(chǎn)生指標(biāo)下降等異常情況,但已快速恢復(fù)。
物理節(jié)點上的虛擬機(jī)都通過業(yè)務(wù)面網(wǎng)卡和節(jié)點外部通信。當(dāng)流量異常時,業(yè)務(wù)網(wǎng)卡上會出現(xiàn)很多丟棄包。
系統(tǒng)周期性采樣網(wǎng)卡所有收發(fā)包總數(shù)和丟棄包總數(shù),當(dāng)丟棄包占比數(shù)連續(xù)多次超過門限時,則上報告警;當(dāng)連續(xù)幾個采樣周期的丟棄包占比數(shù)低于門限,則恢復(fù)告警。
虛擬網(wǎng)絡(luò)上出現(xiàn)較重負(fù)荷,造成報文丟棄率超過給定閾值。短暫的指標(biāo)下降異常情況可能和資源相關(guān),例如CPU、內(nèi)存、網(wǎng)絡(luò)資源不足,或者硬盤的IO讀寫過低導(dǎo)致延遲。
問題分析過程如下:
1.觀察到異常情況后,對告警內(nèi)容展開分析。執(zhí)行dvs show-dpifstats命令,找到對應(yīng)端口,查看overrun和drop統(tǒng)計項是否在增加。
2.觀察到計算服務(wù)器NFV-D-XXX-SRV-15業(yè)務(wù)bond子接口均上報了網(wǎng)絡(luò)流量異常告警,分析可能是端口丟包。
3.登錄服務(wù)器查看DVS日志,端口丟包量在告警時刻出現(xiàn)上漲,如下圖所示。
4.登錄云平臺查看NFV-D-XXX-SRV-15承載業(yè)務(wù),該主機(jī)承載虛機(jī)四臺,其中包含ISBG的XX-isbg-OMPIPI_2_L虛機(jī)。分析可能為DVS接收丟包影響到虛機(jī)業(yè)務(wù)。
5.分析SAR日志,確認(rèn)DVS的綁定核在故障期間出現(xiàn)被占用的情況,時間點與網(wǎng)卡丟包基本一致,認(rèn)定為DVS核占用導(dǎo)致的DVS物理網(wǎng)卡丟包,如下圖所示。
6.分析BMC黑盒子日志,該時間(+8)在日志中大量出現(xiàn)ECC內(nèi)存錯誤,內(nèi)存定位DIMM11,如下圖所示。
7.ECC錯包出現(xiàn)的時間點與DVS網(wǎng)卡丟包時間點(DVS轉(zhuǎn)發(fā)核被占用的時間點)基本重合,認(rèn)定內(nèi)存ECC錯誤與DVS的丟包強相關(guān)。
8.根據(jù)日志顯示報錯信息,ECC內(nèi)存錯誤觸發(fā)的內(nèi)存槽位為DIMM11。
1.登錄管理頁面,選擇“云平臺管理-計算-實例”,選中該臺主機(jī)上虛擬機(jī),完成主機(jī)上虛擬機(jī)的熱遷移,如下圖所示。
2.完成遷移后,選擇“云平臺管理-計算-主機(jī)”,選中這臺主機(jī),設(shè)置維護(hù)模式,如下圖所示。
3.下電服務(wù)器完成內(nèi)存更換,完成后上電,取消“設(shè)置維護(hù)模式”。
4.遷移回虛擬機(jī),測試正常。
5.內(nèi)存ECC錯誤為此次異常故障根因。內(nèi)存ECC錯誤影響DVS轉(zhuǎn)發(fā)分析:
l在內(nèi)存ECC錯誤故障期間,現(xiàn)有的BIOS配置會為每一個內(nèi)存ECC錯誤產(chǎn)生一個SMI中斷。
如果產(chǎn)生ECC風(fēng)暴,那么影響CPU處理性能。
SMI中斷在內(nèi)核感知為NMI,不受內(nèi)核控制,從硬件描述看內(nèi)核是無法屏蔽此類中斷的。內(nèi)存ECC默認(rèn)不告警。
SMI中斷導(dǎo)致CPU進(jìn)入SMM模式,該模式對于OS是透明的。
因此SMI中斷是硬件和固件(BIOS)共同處理的,其對于CPU處理流程的打斷,對OS而言是不可感知的,不會出現(xiàn)在OS的統(tǒng)計項里面。
只有當(dāng)BIOS處理SMI后,并以SCI中斷通知OS時,OS才能感知到SCI中斷。但是BIOS是否觸發(fā)SCI中斷也不是OS所能控制的。
總之,SMI中斷對于DVS處理核的影響是硬件和固件的行為。
審核編輯:劉清
-
SAR
+關(guān)注
關(guān)注
3文章
418瀏覽量
45995 -
BIOS
+關(guān)注
關(guān)注
5文章
469瀏覽量
45752 -
ECC
+關(guān)注
關(guān)注
0文章
97瀏覽量
20585 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
919瀏覽量
28269 -
SCI
+關(guān)注
關(guān)注
1文章
56瀏覽量
20135
原文標(biāo)題:TECS資源池上報BFD會話DOWN和網(wǎng)絡(luò)流量異常告警的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論