色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

服務器“異?!钡膸讉€可能性預警請重視!

恒創主機服務器 ? 來源:恒創主機服務器 ? 作者:恒創主機服務器 ? 2023-04-06 17:05 ? 次閱讀

提到服務器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務器宕機,并不總是被及時感知。服務器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。

想要獲知服務器宕機怎么辦?可以通過服務器宕機實時檢測

1)發現宕機。

2)提前告警。

3)告知宕機的詳細原因,如硬件故障,內核bug,網絡異常等等。

4)自動報修生成工單。

我們知道,進行全網物理機宕機準確探測與實時發現,可以給宕機分析提供第一現場,獲取第一現場的日志。也可以盡早將宕機數據推送給業務或運營感知并處理,如自動報修,業務遷移等,從而盡可能將業務影響降到最低。

更重要的是,準確的宕機發現數據可以為宕機預測提供準確的標注數據,為后期宕機預測提供數據基礎,并且這些數據提供給運營部門進行整體分析,提升處理效率。

那么,如何可以準確發現宕機,減少誤報呢?我們可以有以下操作,比如:

心跳源檢測異常

顧名思義,通過心跳源,初步發現異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務端與NC建立長連接,每數秒緩存一次心跳,每幾分鐘打包上報一次,但當NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。

update消息,在有心跳發生變化情況下都會有,心跳異常和心跳恢復正常時都會發起,是主要的心跳來源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發起,刪除該條消息,避免延遲太長。

insert消息,在新增加機器, 或者重裝后重新上位的機器發起,該消息對宕機發現價值不大,配合uptime使用。

心跳源檢測任務邏輯,主要是監聽并緩存uptime消息,同時避免時間窗內多次消息沖突,導致信息被覆蓋。

異常排除

排除非物理機器,將系統中暫時不關注的VM等產生的異常信息排除掉。

排除非業務狀態的機器,如裝機狀態中的,包括生產中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態,只監控正常狀態的機器。

排除非正在工作的機器,如非working狀態機器。

網絡干擾排除

宕機分析中,較多誤報是由于網絡問題干擾,無法準確判斷出物理機是否宕機,有可能是網絡問題。

排除上聯網絡設備異常導致的誤報,包括機房斷網演練,小面積網絡故障,上聯網絡故障,如通過探測丟包情況,使用一些邏輯初步判斷網絡問題。

服務器本身未丟包的誤報,除了需要過濾出網絡問題,還要通過丟包數據分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機。

icmp及tcp丟包分析,icmp采集頻率為固定數秒,tcp采集頻率固定數秒,包括多個不同大小包(16,32,64,128,256等)的丟包情況,根據分析時間窗內兩項數據的丟包情況

特殊情況干擾排除

個別機房有時候會出現大面積風暴式的無故心跳異常,同時網絡ping包異常,但上聯網絡設備ping包正常,這種誤報,一般根據具體case具體進行針對性的分析。如根據監控每個機房的上報頻率,排除干擾。

進一步識別誤報

至此,大部分干擾已經過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,ping異常,都合乎宕機判斷的邏輯,會導致誤判成宕機,如導致網卡被打爆,或者重試率高,這種是業務原因導致網絡異常,但業務認為不是異常,需要排除掉。再例如服務器并沒有掛掉,但是IO延時和資源占用率各項指標都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機時間點探測uptime確定是否發生重啟。

進一步通過分析日志是否連續,判斷是否發生重啟。

日志重啟特征值匹配,確認是否發生重啟。

如果還不能確定,使用uptime的時間窗技術進行重啟。

仍不能確定的待處理,進入長尾處理名單。

長尾再次處理

未確認的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機,死到連網絡都不通的場景。會觀察一段時間,一個固定時間窗內仍未恢復或重啟的話,就暫時報宕機。后期會把這種死機單獨找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準確率和覆蓋率來看:

準確率:目前發現的宕機中有很高準確度,可以區分出真正宕機或者未宕機。而判斷為宕機的數據中,也存在少量的,由于缺少相關信息導致誤報,該部分將進一步優化,逐漸降低誤報,在新的措施之后,該比例會接近0。

覆蓋率:當前統計的覆蓋率已經能很好的支撐日常宕機處理,該數據在有足夠的特征后,會進一步提升。

目前,宕機感知是宕機分析的基礎,通過服務器宕機實時檢測,會把相應的宕機原因分布整理出來,明確具體的原因,達成服務器極致可靠性。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7085

    瀏覽量

    89215
  • 服務器
    +關注

    關注

    12

    文章

    9237

    瀏覽量

    85667
  • TCP
    TCP
    +關注

    關注

    8

    文章

    1374

    瀏覽量

    79147
收藏 人收藏

    評論

    相關推薦

    SMTP服務器配置教程

    1. 了解SMTP服務器 SMTP服務器是用于發送電子郵件的服務器。它使用SMTP協議來處理郵件的發送。配置SMTP服務器需要了解以下幾個
    的頭像 發表于 10-30 16:16 ?1223次閱讀

    AI如何對產品設計帶來更多的可能性

    AI(人工智能)對產品設計帶來了廣泛而深遠的可能性,這些可能性主要體現在以下幾個方面 1.創新設計的激發 創意生成:AI能夠學習和模仿人類設計師的創作過程,通過深度學習等技術生成全新的、獨特
    的頭像 發表于 10-15 11:29 ?264次閱讀

    gpu服務器與cpu服務器的區別對比,終于知道怎么選了!

    gpu服務器與cpu服務器的區別主要體現在架構設計、性能特點、能耗效率、應用場景、市場定位等方面,在以上幾個方面均存在顯著差異。CPU服務器更適合數據庫管理和企業應用,而GPU
    的頭像 發表于 08-01 11:41 ?524次閱讀

    ai服務器和通用服務器的區別在哪

    AI服務器和通用服務器的區別主要體現在以下幾個方面: 硬件配置 AI服務器和通用服務器在硬件配置上有很大的區別。AI
    的頭像 發表于 07-02 09:46 ?1095次閱讀

    服務器數據恢復—EVA存儲異常斷電后出現故障的數據恢復方案

    數據庫。 服務器存儲故障&檢測: 存儲異常斷電重啟后,存儲中一臺虛擬機無法啟動。工作人員推測故障原因是異常斷電導致電源模塊出現故障,清空cache后重新啟動存儲發現該虛擬機仍無法正常啟動。
    的頭像 發表于 05-28 10:29 ?368次閱讀

    服務器數據恢復—異常斷電導致RAID管理信息丟失的數據恢復案例

    使用。 服務器故障: 機房供電幾次意外中斷,服務器出現故障前最后一次異常斷電重啟后RAID報錯,提示無法找到存儲設備,進入RAID管理模塊做任何操作都死機,重啟服務器后問題依舊
    的頭像 發表于 04-30 15:34 ?372次閱讀

    服務器數據恢復—異常斷電導致服務器raid卡硬件損壞的數據恢復案例

    由于機房多次斷電導致一臺服務器中raid陣列信息丟失。該陣列中存放的是文檔,上層安裝的是Windows server操作系統,沒有配置ups。 因為服務器異常斷電重啟后,raid陣列可以正常
    的頭像 發表于 03-20 17:38 ?788次閱讀

    如何解決連接國外大帶寬服務器可能遇到的問題

     相信很多小白用戶會對如何解決連接國外大帶寬服務器可能遇到的問題感興趣,RAK部落小編就為您整理發布如何解決連接國外大帶寬服務器可能遇到的問題。
    的頭像 發表于 03-19 12:00 ?512次閱讀

    服務器數據恢復—分享幾個服務器數據恢復的案例

    服務器數據恢復案例之服務器raid6中3個磁盤離線導致陣列崩潰的數據恢復案例;服務器數據恢復案例之服務器RAID5兩個磁盤指示燈顯示紅色導致服務器
    的頭像 發表于 03-04 13:21 ?1191次閱讀

    擁有美國洛杉磯RAKsmart云服務器:探索無限可能

    隨著信息技術的飛速發展,云服務器已成為企業和個人用戶不可或缺的重要工具。美國洛杉磯的RAKsmart云服務器,憑借其卓越的性能、穩定的網絡環境和高級的安全,為用戶提供了無盡的便利和可能性
    的頭像 發表于 02-29 11:05 ?320次閱讀

    服務器數據恢復-異常斷電導致服務器故障的數據恢復案例

    服務器數據恢復環境: dell某型號服務器中有一組通過raid卡組建的raid10,該raid陣列中一共有4塊磁盤。上層部署XenServer虛擬化平臺,作為網站服務器使用。 服務器
    的頭像 發表于 02-28 15:15 ?873次閱讀
    <b class='flag-5'>服務器</b>數據恢復-<b class='flag-5'>異常</b>斷電導致<b class='flag-5'>服務器</b>故障的數據恢復案例

    linux服務器和windows服務器

    應用和企業環境中使用,那么Win dows服務器可能更適合你的需求。 綜上所述,Linux服務器和Windows服務器各有優劣,選擇適合自己需求的
    發表于 02-22 15:46

    服務器數據恢復】斷電導致服務器RAID信息丟失的數據恢復案例

    故障之前出現過幾次意外斷電的情況,服務器斷電重啟后沒有發現異常,直到最后一次斷電重啟后RAID報錯:“無法找到存儲設備”,進入RAID管理模塊后進行任何操作都會死機,服務器管理員多次重啟服務器
    的頭像 發表于 02-18 13:53 ?688次閱讀

    獨立服務器和云服務器的區別

    獨立服務器和云服務器的區別是很多用戶在選擇服務器時要做的課程,那么獨立服務器和云服務器的區別有哪些呢?
    的頭像 發表于 01-17 10:58 ?882次閱讀

    DNS服務器可能不可用什么意思

    與該域名相關聯的IP地址。DNS服務器將IP地址返回給計算機,然后計算機使用該IP地址與目標服務器建立連接。 DNS服務器不可用的原因 硬件故障:DNS服務器也是一臺物理設備,它們
    的頭像 發表于 01-17 09:24 ?9990次閱讀
    主站蜘蛛池模板: 91偷偷久久做嫩草电影院| 国产乱妇乱子在线播视频播放网站| 国产深夜福利视频在线| 亚婷婷洲AV久久蜜臀无码| 国产人妻人伦精品熟女麻豆| 亚洲中文 字幕 国产 综合| 久久99热狠狠色AV蜜臀| 99久久麻豆AV色婷婷综合| 三级黄.色| 精品欧美一区二区三区四区| 51xx午夜影视福利| 特级黑人三人共一女| 久久99re6国产在线播放| beeg xxx日本老师| 性做久久久久久久久浪潮| 久久综合一个色综合网| 虫族bl文全肉高h| 夜色视频社区| 日本人69xxx| 久久国产36精品色熟妇| 成人毛片免费播放| 亚洲无AV在线中文字幕| 人妻美妇疯狂迎合| 茎身铃口调教| 成年人视频在线观看免费| 亚洲精品123区在线观看| 欧美MV日韩MV国产网站| 国模孕妇模特季玥之粉红| chinese耄耋70老太性| 亚洲精品一区国产欧美| 日本高清加勒比| 久久中文字幕无码A片不卡 | 艳妇臀荡乳欲伦岳TXT下载| 欧美大片免费| 精品国产品国语在线不卡| X8X8拨牐拨牐X8免费视频8午夜| 亚洲国产成人精品无码区5566 | 天天久久影视色香综合网| 美女逼逼毛茸茸| 精品 在线 视频 亚洲| 穿白丝袜边走边尿白丝袜|