摘要:?上文我們提到,云上運(yùn)維向更自動(dòng)、更敏捷、更彈性的趨勢演進(jìn),但本質(zhì)始終是賦能業(yè)務(wù)永續(xù)運(yùn)行,助力企業(yè)戰(zhàn)略目標(biāo)和業(yè)務(wù)發(fā)展的實(shí)現(xiàn)。今天,我們來聊一聊如何在阿里云上建立主動(dòng)的云上運(yùn)維體系。為何強(qiáng)調(diào)“主動(dòng)”,古人云,善戰(zhàn)者無赫赫之功,不打無準(zhǔn)備之仗才最有可能利于不敗之地,這便是我們強(qiáng)調(diào)“主動(dòng)”運(yùn)維的意義。
上文我們提到,云上運(yùn)維向更自動(dòng)、更敏捷、更彈性的趨勢演進(jìn),但本質(zhì)始終是賦能業(yè)務(wù)永續(xù)運(yùn)行,助力企業(yè)戰(zhàn)略目標(biāo)和業(yè)務(wù)發(fā)展的實(shí)現(xiàn)。今天,我們來聊一聊如何在阿里云上建立主動(dòng)的云上運(yùn)維體系。
為何強(qiáng)調(diào)“主動(dòng)”?做過或者接觸過運(yùn)維的朋友們或許對“背鍋”和“救火”這兩個(gè)詞都不陌生——我們知道,故障幾乎無法完全避免,當(dāng)故障發(fā)生時(shí),如果系統(tǒng)和業(yè)務(wù)受到了嚴(yán)重影響,可能有些人要為此無奈“背鍋”,也可能有些人挺身而出成為“救火”英雄,挽狂瀾于既倒,讓系統(tǒng)和業(yè)務(wù)轉(zhuǎn)危為安。但如果總是在故障發(fā)生時(shí)才靠運(yùn)維人員來解決問題,那么無論結(jié)果如何,都未免太被動(dòng)了。古人云,善戰(zhàn)者無赫赫之功,不打無準(zhǔn)備之仗才最有可能利于不敗之地,這便是我們強(qiáng)調(diào)“主動(dòng)”運(yùn)維的意義。
阿里云作為領(lǐng)先和值得信賴的云計(jì)算服務(wù)提供商,提供和保障計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源以及底層基礎(chǔ)設(shè)施的可用性、穩(wěn)定性、安全性。企業(yè)用戶根據(jù)自身戰(zhàn)略發(fā)展和業(yè)務(wù)需求設(shè)計(jì)IT架構(gòu),在阿里云上選擇合適的產(chǎn)品、服務(wù)來搭建部署業(yè)務(wù)系統(tǒng),并管理其中的數(shù)據(jù)。在此基礎(chǔ)上,通過阿里云提供的OpenAPI、監(jiān)控、編排等多樣化手段實(shí)現(xiàn)快速配置資源,搭建高可用架構(gòu),自動(dòng)化批量部署,彈性應(yīng)對負(fù)載變化,閉環(huán)管理異常故障等IT主動(dòng)運(yùn)維能力。
也就是說,用戶在阿里云之上所搭建的系統(tǒng)和所承載的業(yè)務(wù),其系統(tǒng)可用性和業(yè)務(wù)連續(xù)性是由阿里云和用戶共同保障的——阿里云搭建強(qiáng)健的基礎(chǔ)設(shè)施環(huán)境和開展大規(guī)模主動(dòng)運(yùn)維,為用戶提供可信賴的ECS云服務(wù),作為支撐用戶系統(tǒng)和業(yè)務(wù)的穩(wěn)定性基石;而利用阿里云ECS豐富的運(yùn)維能力,用戶可以從架構(gòu)設(shè)計(jì)開始便做充分的準(zhǔn)備,并將主動(dòng)運(yùn)維的思想貫穿于規(guī)劃部署、容量管理、測試發(fā)布、日常運(yùn)維等多個(gè)基礎(chǔ)運(yùn)維環(huán)節(jié),并與應(yīng)用開發(fā)和運(yùn)維緊密協(xié)作,形成主動(dòng)運(yùn)維體系,最終實(shí)現(xiàn)業(yè)務(wù)永續(xù)運(yùn)行的目的。
下面,我們來了解下阿里云提供給用戶的穩(wěn)定性基石——彈性計(jì)算服務(wù)ECS云服務(wù)器
ECS云服務(wù)器的優(yōu)勢
彈性計(jì)算服務(wù)Elastic Compute Service(ECS)是阿里云提供的一種基礎(chǔ)云計(jì)算服務(wù)。使用ECS云服務(wù)器就像使用水、電、煤氣等資源一樣便捷、高效。您無需提前采購硬件設(shè)備,而是根據(jù)業(yè)務(wù)需要,隨時(shí)創(chuàng)建所需數(shù)量的ECS云服務(wù)器實(shí)例。在使用過程中,隨著業(yè)務(wù)的擴(kuò)展,您可以隨時(shí)擴(kuò)展節(jié)點(diǎn)、變更規(guī)格、擴(kuò)容磁盤、增加帶寬。如果不再需要云服務(wù)器時(shí),也能隨時(shí)釋放資源,節(jié)省費(fèi)用。
與傳統(tǒng)IDC對比,ECS具備以下優(yōu)勢:
ECS云服務(wù)器傳統(tǒng)IDC服務(wù)器基礎(chǔ)設(shè)施- 自主研發(fā)的直流電服務(wù)器,綠色機(jī)房設(shè)計(jì),PUE 低;
- 骨干機(jī)房,出口帶寬大,獨(dú)享帶寬;
- BGP多線機(jī)房,全國訪問流暢均衡- 傳統(tǒng)交流電服務(wù)器設(shè)計(jì),
- PUE 高;
- 機(jī)房質(zhì)量參差不齊,用戶選擇困難,以共享帶寬為主;
- 以單線和雙線為主安全可靠- 有效阻止 MAC 欺騙和 ARP 攻擊;
- 有效防護(hù) DDoS 攻擊,可進(jìn)行流量清洗和黑洞;
- 端口入侵掃描、掛馬掃描、漏洞掃描等附加服務(wù)- 很難阻止 MAC 欺騙和 ARP 攻擊;
- 清洗和黑洞設(shè)備需要另外購買,價(jià)格昂貴;
- 普遍存在漏洞掛馬和端口掃描等問題備份容災(zāi)- 多份數(shù)據(jù)副本,單份損壞可在短時(shí)間內(nèi)快速恢復(fù);
- 用戶自定義快照;
- 快速自動(dòng)故障恢復(fù)- 用戶自行搭建,使用傳統(tǒng)存儲(chǔ)設(shè)備,價(jià)格高昂;
- 數(shù)據(jù)損壞需用戶自己修復(fù);
- 沒有提供快照功能,無法做到自動(dòng)故障恢復(fù)靈活擴(kuò)展- 開通云服務(wù)器非常靈活,可以在線升級配置;
- 帶寬升降自由;
- 橫向伸縮,輕松擴(kuò)展應(yīng)用- 服務(wù)器交付周期長,離線升級配置;
- 帶寬一次性購買,無法自由升降;
- 硬件節(jié)點(diǎn)部署慢,價(jià)格昂貴
ECS云服務(wù)器不同于物理服務(wù)器,它是由計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)組件聚合而成的IaaS層解決方案。ECS云服務(wù)器由以下幾部分組成:
實(shí)例
一個(gè)云服務(wù)器 ECS 實(shí)例等同于一臺(tái)虛擬機(jī),包含 CPU、內(nèi)存、操作系統(tǒng)、網(wǎng)絡(luò)、磁盤等最基礎(chǔ)的計(jì)算組件。您可以方便的定制、更改實(shí)例的配置。您對該虛擬機(jī)擁有完全的控制權(quán),和您本地服務(wù)器的區(qū)別在于,您只需要登錄到阿里云,即可使用云服務(wù)器,進(jìn)行獨(dú)立的管理、頂級配置等操作。
磁盤(塊存儲(chǔ))
阿里云為您的云服務(wù)器ECS提供了豐富的塊存儲(chǔ)產(chǎn)品類型,包括基于分布式存儲(chǔ)架構(gòu)的彈性塊存儲(chǔ)產(chǎn)品,以及基于物理機(jī)本地硬盤的本地存儲(chǔ)產(chǎn)品。其中:
彈性塊存儲(chǔ),也稱為云盤,是阿里云為云服務(wù)器ECS提供的數(shù)據(jù)塊級別的隨機(jī)存儲(chǔ),具有低時(shí)延、持久性、高可靠等性能,采用三副本的分布式機(jī)制,為ECS實(shí)例提供99.9999999%的數(shù)據(jù)可靠性保證。可以隨時(shí)創(chuàng)建或釋放,也可以隨時(shí)擴(kuò)容。
本地存儲(chǔ),也稱為本地盤,是指掛載在ECS云服務(wù)器所在物理機(jī)(宿主機(jī))上的本地硬盤,是一種臨時(shí)塊存儲(chǔ)。是專為對存儲(chǔ)I/O性能有極高要求的業(yè)務(wù)場景而設(shè)計(jì)的存儲(chǔ)產(chǎn)品。該類存儲(chǔ)為實(shí)例提供塊級別的數(shù)據(jù)訪問能力,具有低時(shí)延、高隨機(jī)IOPS、高吞吐量的I/O能力。
網(wǎng)絡(luò),VPC,安全組
專有網(wǎng)絡(luò)(Virtual Private Cloud,簡稱為VPC)是您基于阿里云構(gòu)建的一個(gè)隔離的網(wǎng)絡(luò)環(huán)境,專有網(wǎng)絡(luò)之間邏輯上徹底隔離。您可以自定義這個(gè)專有網(wǎng)絡(luò)的拓?fù)浜?IP 地址,適用于對網(wǎng)絡(luò)安全性要求較高和有一定網(wǎng)絡(luò)管理能力的用戶。
快照
快照,是某一個(gè)時(shí)間點(diǎn)上某一個(gè)磁盤的數(shù)據(jù)備份。快照服務(wù)可以滿足您以下需求:
您希望使用某塊磁盤上的數(shù)據(jù)作為其他磁盤的基礎(chǔ)數(shù)據(jù)。您可以使用快照創(chuàng)建磁盤。
當(dāng)磁盤上的數(shù)據(jù)出現(xiàn)問題時(shí),您希望能夠恢復(fù)到您所期望的數(shù)據(jù)狀態(tài)。您可以 使用快照回滾磁盤。比如:盡管云盤(普通云盤、高效云盤和SSD云盤)是一種安全的存儲(chǔ)方式,可以保證您所存儲(chǔ)的任何內(nèi)容都不會(huì)丟失,但是,如果存儲(chǔ)在磁盤上的數(shù)據(jù)本身就是錯(cuò)誤的數(shù)據(jù),比如由于應(yīng)用錯(cuò)誤導(dǎo)致的數(shù)據(jù)錯(cuò)誤,或者黑客利用您的應(yīng)用漏洞進(jìn)行惡意讀寫,此時(shí),您就可以使用快照服務(wù)將磁盤上的數(shù)據(jù)恢復(fù)到您期望的狀態(tài)。
如果您希望新購的實(shí)例與已有的實(shí)例有完全相同的環(huán)境,您可以使用系統(tǒng)盤快照創(chuàng)建自定義鏡像,再使用自定義鏡像創(chuàng)建實(shí)例。
鏡像
鏡像(Image)是云服務(wù)器ECS實(shí)例運(yùn)行環(huán)境的模板,模板中包括了特定的操作系統(tǒng)信息,有時(shí)也額外包括了一些預(yù)裝的應(yīng)用程序。鏡像文件相當(dāng)于副本文件,該副本文件包含了一個(gè)或多個(gè)磁盤中的所有數(shù)據(jù),對于云服務(wù)器ECS而言,這些磁盤可以是單個(gè)系統(tǒng)盤,也可以是系統(tǒng)盤加數(shù)據(jù)盤的組合。
ECS云服務(wù)器對于可用性的承諾
如何來評價(jià)ECS云服務(wù)器是否稱得上“穩(wěn)定性基石”呢,我們需要一個(gè)可以測量的標(biāo)準(zhǔn),最合適的莫過于ECS云服務(wù)器的服務(wù)可用性等級協(xié)議SLA(Service Level Agreement)了。
首先,我們需要了解一些與SLA有關(guān)的定義:
服務(wù)周期:一個(gè)服務(wù)周期為一個(gè)自然月。
單實(shí)例服務(wù)周期總分鐘數(shù):按照單實(shí)例服務(wù)周期內(nèi)的總天數(shù)╳24(小時(shí))╳60(分鐘)計(jì)算。
實(shí)例不可用:當(dāng)一臺(tái)設(shè)置了出入允許規(guī)則的ECS實(shí)例以TCP或者UDP協(xié)議與任一IP地址的雙向(出/入)都無法聯(lián)通,且該狀態(tài)持續(xù)一分鐘以上,視為該分鐘內(nèi)ECS實(shí)例不可用。
單實(shí)例服務(wù)不可用分鐘數(shù): 在一個(gè)服務(wù)周期內(nèi)單ECS實(shí)例不可用分鐘數(shù)之和。
單地域多可用區(qū)服務(wù)不可用:如用戶ECS實(shí)例在同一地域部署于至少2個(gè)可用區(qū)(以下簡稱:單地域多可用區(qū)),若該地域任一可用區(qū)發(fā)生該用戶的全部 ECS 實(shí)例不可用,且該用戶在該地域其他可用區(qū)的ECS實(shí)例亦同時(shí)發(fā)生實(shí)例不可用(以下簡稱:同地域其他可用區(qū)不可用ECS實(shí)例),則此同地域其他可用區(qū)不可用ECS實(shí)例被視為單地域多可用區(qū)服務(wù)不可用。
單實(shí)例單地域多可用區(qū)服務(wù)不可用分鐘數(shù):在一個(gè)服務(wù)周期內(nèi),單ECS實(shí)例的單地域多可用區(qū)服務(wù)不可用的分鐘數(shù)之和。
ECS的服務(wù)可用性將根據(jù)服務(wù)周期,按如下兩種維度分別統(tǒng)計(jì)每臺(tái)ECS實(shí)例的可用性:
單實(shí)例維度:?
服務(wù)可用性=(單實(shí)例服務(wù)周期總分鐘數(shù) -單實(shí)例服務(wù)不可用分鐘數(shù))/單實(shí)例服務(wù)周期總分鐘數(shù)×100%單地域多可用區(qū)維度:
服務(wù)可用性=(單實(shí)例服務(wù)周期總分鐘數(shù) -單實(shí)例單地域多可用區(qū)服務(wù)不可用分鐘數(shù))/單實(shí)例服務(wù)周期總分鐘數(shù)×100%
阿里云鄭重承諾服務(wù)可用性:
對于單實(shí)例維度,阿里云承諾一個(gè)服務(wù)周期內(nèi)ECS的服務(wù)可用性不低于99.95%;
對于單地域多可用區(qū)維度,阿里云承諾一個(gè)服務(wù)周期內(nèi)ECS的服務(wù)可用性不低于99.99%。
ECS云服務(wù)器的SLA標(biāo)準(zhǔn)就如同高可用性的標(biāo)尺,用戶可以根據(jù)業(yè)務(wù)需要和成本考量,來設(shè)定合理的可用性目標(biāo),并選擇合適的架構(gòu)。
運(yùn)維邊界綜述
綜上所述,在IaaS服務(wù)層面,基于阿里云ECS云服務(wù)器的云上運(yùn)維邊界可以總結(jié)為:
阿里云用戶數(shù)據(jù)中心- 選址,設(shè)計(jì),建設(shè);
風(fēng)火水電等基礎(chǔ)工程管理;
- 互聯(lián)網(wǎng)、專線接入;
- 日常運(yùn)營、故障處理、擴(kuò)容根據(jù)業(yè)務(wù)需求選擇適合的地域和可用區(qū)實(shí)例- 宿主服務(wù)器上架初始化,更新替換;
- 宿主服務(wù)器操作系統(tǒng)安裝,配置,補(bǔ)丁管理;
- 虛擬化配置,管理;
- 系統(tǒng)監(jiān)控,服務(wù)可用性保障;
- 提供多種操作系統(tǒng)版本和預(yù)裝特定應(yīng)用程序的鏡像模板- 根據(jù)業(yè)務(wù)需求設(shè)計(jì)系統(tǒng)架構(gòu),并選擇實(shí)例規(guī)格和配置;
- 管理云上資源,靈活使用負(fù)載均衡和彈性伸縮等服務(wù)快速相應(yīng)業(yè)務(wù)變化;
- 根據(jù)實(shí)例監(jiān)控、健康檢查和系統(tǒng)事件觸發(fā)運(yùn)維動(dòng)作硬盤(塊存儲(chǔ))- 存儲(chǔ)上架初始化,更新替換;存儲(chǔ)、磁盤配置,數(shù)據(jù)多副本設(shè)計(jì)提供可靠性保障;
- 系統(tǒng)監(jiān)控,服務(wù)可用性保障;
- 提供磁盤快照和自定義快照策略的功能
- 根據(jù)容量、性能等要求選擇磁盤類型和規(guī)格;
- 使用磁盤快照進(jìn)行數(shù)據(jù)備份網(wǎng)絡(luò),VPC,安全組- 網(wǎng)絡(luò)設(shè)備上架、布線、初始化,更新替換;
- 網(wǎng)絡(luò)SDN、虛擬化配置;
- 系統(tǒng)監(jiān)控,服務(wù)可用性保障;
- 安全防護(hù)配置并管理VPC和安全組
在阿里云ECS所提供的穩(wěn)定性基石之上,用戶就可以利用ECS的運(yùn)維能力來構(gòu)建適合自己的主動(dòng)運(yùn)維體系。從個(gè)人用戶到中小企業(yè)再到大型企業(yè),用戶的訴求可以抽象總結(jié)為對開放、彈性、透明的不斷追求。下一期,我們繼續(xù)展開聊聊ECS提供給用戶的主動(dòng)運(yùn)維能力。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評論
查看更多