自動(dòng)配額管理系統(tǒng)出現(xiàn)故障,屬于典型的運(yùn)維問(wèn)題。
據(jù)彭博社報(bào)道,美國(guó)太平洋時(shí)間12月14日凌晨3點(diǎn)47分左右,谷歌突然遭遇全球大面積故障,導(dǎo)致旗下的YouTube、Gmail、Google Drive、Google Search等服務(wù)出現(xiàn)異常,用戶無(wú)法正常使用,全球多個(gè)國(guó)家及地區(qū)用戶均受到影響。直到當(dāng)?shù)貢r(shí)間早上8點(diǎn)左右,谷歌的大多數(shù)服務(wù)才恢復(fù)正常。
這已經(jīng)是谷歌5個(gè)月內(nèi)第三次“掉鏈子”了。今年8月20日,谷歌旗下多項(xiàng)服務(wù)出現(xiàn)異常,涉及美國(guó)、印度、日本等多個(gè)地區(qū),官方搶修5小時(shí)后才恢復(fù)正常;今年9月25日,谷歌系統(tǒng)癱瘓多半集中在美國(guó)東岸Gmail、YouTube、Google云端在系統(tǒng)死機(jī)時(shí),不斷有用戶持續(xù)嘗試進(jìn)入,但都無(wú)法順利使用。
到底是哪里出了問(wèn)題?
對(duì)于12月14日這次全球大面積癱瘓,谷歌的工程師們連夜奮戰(zhàn),反應(yīng)不可謂不迅速。但相比較危機(jī)之后的迅速反應(yīng),用戶更希望谷歌能夠提前做出預(yù)判,避免問(wèn)題發(fā)生。
12月15日,谷歌官方出具的一份調(diào)查報(bào)告顯示,導(dǎo)致宕機(jī)的原因是“internal storage quota issue”,即內(nèi)部存儲(chǔ)配額問(wèn)題。具體來(lái)說(shuō)就是:“我們的自動(dòng)配額管理系統(tǒng)出現(xiàn)了問(wèn)題,降低了谷歌中央身份管理系統(tǒng)的容量,導(dǎo)致其在全球范圍內(nèi)返回錯(cuò)誤。因此,我們無(wú)法驗(yàn)證用戶請(qǐng)求是否經(jīng)過(guò)認(rèn)證,并向用戶提供錯(cuò)誤?!?/p>
自動(dòng)配額管理?這概念根本不理解啊,小編趕緊去咨詢了華為存儲(chǔ)的專(zhuān)家,經(jīng)過(guò)專(zhuān)家解釋?zhuān)【幗K于明白了。原來(lái)數(shù)據(jù)要寫(xiě)入到存儲(chǔ)中,需要將數(shù)據(jù)存放在一個(gè)池中,每個(gè)要存進(jìn)來(lái)的數(shù)據(jù)都要在對(duì)應(yīng)的空間內(nèi)存放,業(yè)務(wù)能寫(xiě)多少數(shù)據(jù)到池中,則需要“配額”來(lái)管理。
這就類(lèi)似于倉(cāng)庫(kù)管理一樣,貨物來(lái)了要想入庫(kù),必須先讓倉(cāng)庫(kù)管理員給指定位置。而自動(dòng)配額管理出了問(wèn)題,就相當(dāng)于來(lái)了一卡車(chē)貨,倉(cāng)庫(kù)管理員只給了幾平米的空間,倉(cāng)庫(kù)管理員又沒(méi)有及時(shí)調(diào)整地方,貨物根本無(wú)法入庫(kù),不報(bào)錯(cuò)才怪。
華為存儲(chǔ)的專(zhuān)家認(rèn)為,自動(dòng)配額管理系統(tǒng)出現(xiàn)故障,屬于典型的運(yùn)維問(wèn)題;配額的出發(fā)點(diǎn)是希望限制應(yīng)用對(duì)存儲(chǔ)資源的無(wú)節(jié)制使用,但凡事總有例外,如果有突發(fā)情況,自動(dòng)配額管理系統(tǒng)不能及時(shí)調(diào)整配額或者給出了錯(cuò)誤的配額,就會(huì)導(dǎo)致谷歌這樣的問(wèn)題出現(xiàn)。
搞清楚了問(wèn)題根源,以后如何徹底避免類(lèi)似問(wèn)題出現(xiàn)呢?專(zhuān)家建議,運(yùn)維工作不僅僅在存儲(chǔ)池即將寫(xiě)滿的時(shí)候報(bào)警,如果能做到提前預(yù)測(cè),在存儲(chǔ)池即將寫(xiě)滿的幾個(gè)月之前就能發(fā)出預(yù)警,提前擴(kuò)容來(lái)避免自動(dòng)配額管理系統(tǒng)“罷工”。
存儲(chǔ)的智能運(yùn)維該怎么做?
調(diào)查顯示,隨著全球數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng),企業(yè)數(shù)據(jù)中心的故障中,與存儲(chǔ)設(shè)備有關(guān)的故障占到70%以上。尤其在新技術(shù)和新應(yīng)用層出不窮的今天,運(yùn)維工作日趨復(fù)雜。傳統(tǒng)運(yùn)維高度依賴(lài)人的經(jīng)驗(yàn),如何借助AI等技術(shù)的應(yīng)用,實(shí)現(xiàn)智能運(yùn)維已經(jīng)成為行業(yè)發(fā)展的大勢(shì)所趨。
谷歌自動(dòng)配額管理系統(tǒng)出現(xiàn)問(wèn)題無(wú)疑給智能運(yùn)維提出了更高要求,企業(yè)必須選擇更先進(jìn)的存儲(chǔ)容量預(yù)測(cè)和管理解決方案,以應(yīng)對(duì)在智能運(yùn)維上可能遇到的風(fēng)險(xiǎn)。為此,華為存儲(chǔ)也在逐步構(gòu)建起面向智能運(yùn)維的AI能力,圍繞客戶關(guān)心的設(shè)備異常、容量預(yù)警等關(guān)鍵場(chǎng)景,逐步發(fā)布多個(gè)重量級(jí)AI特性,為客戶業(yè)務(wù)的正常運(yùn)行保駕護(hù)航。
DME(Data Management Engine,數(shù)據(jù)管理引擎DME)是華為數(shù)據(jù)基礎(chǔ)設(shè)施智能運(yùn)維平臺(tái),該平臺(tái)通過(guò)與存儲(chǔ)設(shè)備內(nèi)置的設(shè)備AI以及云端AI(eService)實(shí)現(xiàn)三層AI協(xié)同,并通過(guò)融合統(tǒng)一的管理界面、自動(dòng)化的閉環(huán)機(jī)制以及開(kāi)放的API、旨在使能數(shù)據(jù)存儲(chǔ)的“規(guī)劃、建設(shè)、運(yùn)維、優(yōu)化”全生命周期場(chǎng)景的管理與運(yùn)維自動(dòng)化,幫助客戶簡(jiǎn)化存儲(chǔ)管理,提升數(shù)據(jù)中心的運(yùn)營(yíng)效率。
在容量預(yù)測(cè)方面,如果客戶能夠提前預(yù)知存儲(chǔ)設(shè)備或存儲(chǔ)池,甚至是更細(xì)粒度對(duì)象的容量變化趨勢(shì),那么容量配額不足導(dǎo)致服務(wù)宕機(jī)的發(fā)生可能性則會(huì)大大降低。華為提供的云上+本地聯(lián)動(dòng)運(yùn)維能力,基于時(shí)序預(yù)測(cè)等關(guān)鍵技術(shù),能夠向客戶提供未來(lái)最長(zhǎng)365天的容量趨勢(shì)預(yù)測(cè),并能夠提前預(yù)警80%配額,提醒用戶提前擴(kuò)容。
在風(fēng)險(xiǎn)盤(pán)預(yù)測(cè)方面,華為硬盤(pán)異常檢測(cè)模型服務(wù)依托華為自身在硬件領(lǐng)域的技術(shù)及經(jīng)驗(yàn)積累,基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等硬盤(pán)關(guān)鍵數(shù)據(jù)信息構(gòu)建機(jī)器學(xué)習(xí)模型,每日采集數(shù)據(jù)中心硬盤(pán)數(shù)據(jù)(硬盤(pán)ID、SN、硬盤(pán)非安全斷電次數(shù)、通電時(shí)長(zhǎng)),從歷史數(shù)據(jù)中識(shí)別硬盤(pán)不同屬性的突變模式對(duì)當(dāng)前狀態(tài)進(jìn)行預(yù)測(cè)。
結(jié)合用戶反饋數(shù)據(jù),定期執(zhí)行模型自優(yōu)化,持續(xù)提升預(yù)測(cè)精度,可以為數(shù)據(jù)中心硬盤(pán)提供主動(dòng)運(yùn)維。截至目前,華為硬盤(pán)異常檢測(cè)模型服務(wù)已經(jīng)覆蓋200多家企業(yè)數(shù)據(jù)中心,可幫助客戶提前14天識(shí)別硬盤(pán)故障或風(fēng)險(xiǎn),其中查全率達(dá)80%,誤報(bào)率低于0.1%。
在存儲(chǔ)性能異常預(yù)測(cè)管理方面,華為可以圍繞存儲(chǔ)性能相關(guān)問(wèn)題提供全面分析處理方案。其中,基于時(shí)間序列預(yù)測(cè)等關(guān)鍵技術(shù)的性能預(yù)測(cè)特性以及基于閾值觸發(fā)的性能潮汐預(yù)警,能夠讓客戶預(yù)知設(shè)備關(guān)鍵性能指標(biāo)變化趨勢(shì),如時(shí)延、IOPS、塊帶寬等,從而提早發(fā)現(xiàn)設(shè)備性能瓶頸點(diǎn),輔助客戶盡早規(guī)避可能發(fā)生的異常。
基于機(jī)器學(xué)習(xí)的關(guān)鍵性能KPI異常檢測(cè)及根因定界特性,無(wú)監(jiān)督自學(xué)習(xí)的異常檢測(cè)模型能夠?qū)崟r(shí)檢測(cè)設(shè)備時(shí)延是否異常,現(xiàn)網(wǎng)數(shù)據(jù)驗(yàn)證,異常檢測(cè)準(zhǔn)確率近90%;存儲(chǔ)設(shè)備內(nèi)置基于多集成樹(shù)算法融合模型,外加皮爾遜相關(guān)性關(guān)聯(lián)分析算法,實(shí)現(xiàn)異常根因的定界分析,基于現(xiàn)網(wǎng)數(shù)據(jù)的驗(yàn)證結(jié)果,根因定界Top3命中準(zhǔn)確率近83%,提升客戶發(fā)現(xiàn)性能問(wèn)題、定位問(wèn)題邊界的效率。
未來(lái),華為存儲(chǔ)將基于領(lǐng)先的三層AI架構(gòu),通過(guò)與客戶的聯(lián)合創(chuàng)新,逐步推動(dòng)產(chǎn)業(yè)邁向數(shù)據(jù)基礎(chǔ)設(shè)施的“自動(dòng)駕駛”時(shí)代,實(shí)現(xiàn)異常場(chǎng)景的快速自愈等L3級(jí)特性,不斷降低客戶運(yùn)維門(mén)檻和運(yùn)維成本,實(shí)時(shí)保障客戶業(yè)務(wù)不受干擾。
數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)入AIOps時(shí)代
AIOps的概念最早出現(xiàn)在Gartner的報(bào)告上,即將人工智能應(yīng)用于運(yùn)維領(lǐng)域,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)進(jìn)一步解決自動(dòng)化運(yùn)維沒(méi)辦法解決的問(wèn)題。簡(jiǎn)單地說(shuō),過(guò)去需要花費(fèi)數(shù)個(gè)小時(shí)、數(shù)天甚至數(shù)周才能完成的故障診斷和修復(fù)工作,AIOps可能只需要花幾秒鐘,而且判斷更加精準(zhǔn)。
Gartner相關(guān)報(bào)告預(yù)測(cè),AIOps的全球部署率將從2017年的10%增加到2020年的50%。到了2022年,部署AIOps平臺(tái)的大型企業(yè)數(shù)量將2017年的不足5%,迅速提升到40%左右。如今,AIOps主要應(yīng)用于電信、互聯(lián)網(wǎng)、金融等多個(gè)涉及的IT運(yùn)維領(lǐng)域,涉及網(wǎng)絡(luò)、存儲(chǔ)等多個(gè)層面。
尤其在數(shù)據(jù)基礎(chǔ)設(shè)施層面,AIOps的應(yīng)用不僅可以提升其自動(dòng)化運(yùn)維、故障處理和數(shù)據(jù)管理等能力,還可以進(jìn)一步推動(dòng)數(shù)據(jù)基礎(chǔ)設(shè)施的智能管理,從而幫助存儲(chǔ)管理員從繁瑣、復(fù)雜的工作中解放出來(lái)。
華為DME作為融合AIOps理念的產(chǎn)品,正在開(kāi)啟數(shù)據(jù)基礎(chǔ)設(shè)施運(yùn)維自動(dòng)化時(shí)代。以某全國(guó)性商業(yè)銀行為例,該銀行基于華為DME數(shù)據(jù)管理引擎,在融合管理、業(yè)務(wù)變更以及統(tǒng)一運(yùn)維等場(chǎng)景引入安全可控的自動(dòng)化以及智能能力,顯著提升了運(yùn)維效率及業(yè)務(wù)敏捷水平。
其中,在業(yè)務(wù)變更方面,傳統(tǒng)方式下,銀行為了確保零失誤,往往采用堆人堆時(shí)間的方式,每一個(gè)具體任務(wù)都由運(yùn)維工程師出具一個(gè)設(shè)計(jì)腳本,單任務(wù)腳本往往需要45分鐘,而通過(guò)華為DME的應(yīng)用,單任務(wù)腳本準(zhǔn)備時(shí)間從45分鐘降低到10分鐘。在變更執(zhí)行階段,通過(guò)自動(dòng)化能力的引入,變更前預(yù)審時(shí)間從20分鐘直接減少到半分鐘;不僅如此,DME還能夠?qū)崿F(xiàn)所有任務(wù)的并發(fā)執(zhí)行,大大減少人力投入,變更任務(wù)越重,效率提升越明顯。
而在性能分析方面,通過(guò)華為DME的引入,相較之前的逐段分析,通過(guò)端到端的拓?fù)涑尸F(xiàn)以及快速關(guān)聯(lián)分析,性能問(wèn)題的定位時(shí)間從小時(shí)級(jí)銳減到分鐘級(jí)。
從谷歌的此次全球宕機(jī)事件,我們可以看出,在數(shù)據(jù)基礎(chǔ)設(shè)施的運(yùn)維層面,擁有強(qiáng)大的AIOps能力,才能在短時(shí)間內(nèi)完成故障診斷和自動(dòng)修復(fù),對(duì)于保障業(yè)務(wù)連續(xù)性意義重大。正因?yàn)槿绱?,華為也在通過(guò)DME與自身存儲(chǔ)產(chǎn)品的融合,致力于為企業(yè)實(shí)現(xiàn)AIOps提供軟硬搭配的全方位解決方案,為企業(yè)的數(shù)字化轉(zhuǎn)型提供有力支撐。
責(zé)任編輯:xj
-
谷歌
+關(guān)注
關(guān)注
27文章
6164瀏覽量
105309 -
智能化
+關(guān)注
關(guān)注
15文章
4869瀏覽量
55343 -
運(yùn)維
+關(guān)注
關(guān)注
1文章
256瀏覽量
7564
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論