互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,企業(yè)對(duì)于云上業(yè)務(wù)系統(tǒng)的穩(wěn)定性、可靠性和可擴(kuò)展性要求越來越高。云上往往都是重要的業(yè)務(wù)系統(tǒng),一旦發(fā)生故障,如何快速恢復(fù)和降低影響面是企業(yè)最為關(guān)心的。因此,越來越多的企業(yè)開始關(guān)注云上多活高可用架構(gòu),以實(shí)現(xiàn)業(yè)務(wù)的無縫切換和持續(xù)穩(wěn)定運(yùn)行。2023年云棲大會(huì)現(xiàn)場(chǎng)阿里云高級(jí)專家丁杰現(xiàn)場(chǎng)分享了《云上多活高可用架構(gòu)的趨勢(shì)和實(shí)踐》的主題演講,詳細(xì)介紹了阿里云在多活高可用架構(gòu)的實(shí)踐現(xiàn)狀與未來趨勢(shì)的分析展示。
多活高可用,發(fā)揮云的核心價(jià)值
隨著企業(yè)業(yè)務(wù)的不斷拓展,對(duì)于云的連續(xù)性的要求也越來越高。而云計(jì)算的核心價(jià)值在于其彈性和穩(wěn)定性。彈性意味著云計(jì)算資源可以根據(jù)業(yè)務(wù)需求進(jìn)行快速伸縮,以滿足業(yè)務(wù)的高峰期需求。穩(wěn)定性則確保了云服務(wù)在面對(duì)各種挑戰(zhàn)時(shí),如硬件故障或網(wǎng)絡(luò)中斷,仍能提供持續(xù)的服務(wù)。多活高可用是云的核心彈性和穩(wěn)定性的重要體現(xiàn)。
例如,大家所熟悉的“熱搜崩了”就是指某些高流量的社交媒體或新聞網(wǎng)站由于訪問壓力過大而導(dǎo)致服務(wù)暫時(shí)無法正常提供。這種情況可能會(huì)因?yàn)楦鞣N原因發(fā)生,比如流量瞬間增大、服務(wù)器故障、網(wǎng)絡(luò)問題或者惡意攻擊等。為了解決此類問題,提高服務(wù)背后的應(yīng)用彈性,能快速實(shí)現(xiàn)業(yè)務(wù)單元的快速擴(kuò)容,這是一種常見的解決方案也是云上的彈性架構(gòu)的最佳實(shí)踐之一。
另外比如一個(gè)在線購(gòu)物網(wǎng)站為了保證用戶可以隨時(shí)下單購(gòu)買商品,需要確保網(wǎng)站始終處于可用狀態(tài)。為了實(shí)現(xiàn)這一點(diǎn),我們可以將下單鏈路部署到多個(gè)地域/機(jī)房/可用區(qū)上,通過應(yīng)用多活或者徹底單元化進(jìn)行流量管控、應(yīng)用部署和數(shù)據(jù)的同步策略。當(dāng)一個(gè)地域出現(xiàn)故障時(shí),其他地域可以立即接管用戶的請(qǐng)求,確保網(wǎng)站的正常運(yùn)行。可以把這種地域宏觀層面的容錯(cuò)場(chǎng)景看作一種多活高可用。
云的“彈性”,首先是資源層面的彈性,阿里云通過大規(guī)模服務(wù)器并池、智能調(diào)配和資源規(guī)劃,通過橫向的快速生產(chǎn)和縱向的升降配能力,實(shí)現(xiàn)了強(qiáng)大的供給側(cè)彈性能力。也主要是面向單Region維度的。
跨Region,除了公共云上的地域概念,還包括物理的數(shù)據(jù)中心和自建IDC,也是把包含了公共云的混合云類架構(gòu)囊括進(jìn)來了,做到云上云下互相備份和利用公共云的彈性。
在跨Region的用法上,業(yè)務(wù)的彈性是通過快速建立異地云站點(diǎn)(作業(yè)中心),突破單云單地域的資源限制,提升業(yè)務(wù)抗風(fēng)險(xiǎn)能力和業(yè)務(wù)容量吞吐,充分利用混合云、多地域的云資源優(yōu)勢(shì)。一些企業(yè)案例的共同點(diǎn)都是結(jié)合業(yè)務(wù)把相應(yīng)的單元通過公共云實(shí)現(xiàn)彈性,云的可用區(qū)和客戶的可用區(qū)也進(jìn)行深度的融合。
在跨Region+業(yè)務(wù)彈性兩個(gè)前提下,通過多活容災(zāi)服務(wù)構(gòu)建跨Region級(jí)的流量調(diào)度能力、業(yè)務(wù)容量體系和故障應(yīng)對(duì)體系,突破單地域基礎(chǔ)設(shè)施穩(wěn)定性強(qiáng)依賴,在不顯著降低資源利用率的情況下(核心鏈路對(duì)等雙活同時(shí)最好容量管理和流量防護(hù)),極大增強(qiáng)業(yè)務(wù)整體穩(wěn)定性和連續(xù)性。
如何在云上構(gòu)建業(yè)務(wù)的彈性和多活
多活高可用是當(dāng)前云計(jì)算和IT領(lǐng)域中的一個(gè)重要趨勢(shì)。丁杰在演講中提到“資源彈性不等于業(yè)務(wù)彈性,云平臺(tái)穩(wěn)定性不等于業(yè)務(wù)穩(wěn)定性,應(yīng)用多活將成為云原生容災(zāi)領(lǐng)域的重要趨勢(shì)。”
阿里云作為全球領(lǐng)先的云計(jì)算服務(wù)提供商,致力于為企業(yè)提供穩(wěn)定、可靠、高效的云服務(wù),提供了一系列產(chǎn)品和服務(wù)來支持多活高可用架構(gòu)的部署和運(yùn)行。
首先,阿里云提供了應(yīng)用高可用服務(wù)AHAS,該產(chǎn)品基于阿里云內(nèi)部高可用架構(gòu)最佳實(shí)踐而打造,主要提供多活容災(zāi)、容災(zāi)演練等能力,基于該產(chǎn)品的多活容災(zāi)MSHA(Multi-Site High Availability)能力,結(jié)合服務(wù)能幫助用戶體系化、標(biāo)準(zhǔn)化低侵入地建設(shè)云上高可用架構(gòu),全面提升業(yè)務(wù)穩(wěn)定性。
它是通過三層抽象的適配+管控+切換+演練來支持的,MSHA提供接入層、服務(wù)層、數(shù)據(jù)層的自研組件,適配客戶側(cè)的技術(shù)棧,集成到客戶應(yīng)用架構(gòu)之中。MSHA本身也是支持容災(zāi)多活架構(gòu)的演進(jìn)的,從同城雙活、異地應(yīng)用雙活到單元化等。管控方面,MSHA管控面提供給用戶對(duì)多活‘架構(gòu)’的構(gòu)建和維護(hù),故障場(chǎng)景的整體協(xié)同。切換方面,結(jié)合流量和數(shù)據(jù)規(guī)則定義、容災(zāi)場(chǎng)景下的快速切流等能力,下發(fā)管控規(guī)則到MSHA組件執(zhí)行流量管控動(dòng)作。
容災(zāi)多活最重要的是關(guān)鍵時(shí)刻的切換能力,切換很多時(shí)候業(yè)務(wù)需要的是能更快速甚至是自動(dòng)化,縮減RTO,減少損失。所以類似于機(jī)房故障自動(dòng)切零、集群故障自動(dòng)切換是最為緊要的兩個(gè)場(chǎng)景,整體來說我們會(huì)基于可觀測(cè)->事件中心->決策&執(zhí)行的大體邏輯來實(shí)現(xiàn),可觀測(cè)聚合后形成事件,然后在問題定界上判斷半徑,專家經(jīng)驗(yàn)更多的在切流成功與否、禁寫和一致性風(fēng)險(xiǎn)上提供經(jīng)驗(yàn)庫(kù),最終系統(tǒng)完成主備/流量的切換或者擴(kuò)容。
多活模式與架構(gòu)產(chǎn)品
完全在公有云上建設(shè)跨可用區(qū)或Region的應(yīng)用雙活方式與公共云+線下專有云/IDC的混合云多活模式均是多活架構(gòu)設(shè)計(jì)中的常見實(shí)踐策略。
云多活模式均是多活架構(gòu)設(shè)計(jì)中的常見實(shí)踐策略。
左邊是基于公共云的兩地三活(同城跨可用區(qū)+異地跨Region),其業(yè)務(wù)多活單元不等同于單元化,是指根據(jù)業(yè)務(wù)特點(diǎn)在邏輯上分成?個(gè)邏輯數(shù)據(jù)中?(LDC),命名為單元,核?業(yè)務(wù)在各數(shù)據(jù)中?(LDC)實(shí)現(xiàn)?流轉(zhuǎn)。業(yè)務(wù)單元之間,應(yīng)用多活數(shù)據(jù)主備。關(guān)于單元間的流量,同城一般是對(duì)稱的,異地會(huì)按照特定規(guī)則的區(qū)分調(diào)度業(yè)務(wù)流量,比如某些延時(shí)不敏感的調(diào)度到異地的單元,或者是特定條件的用戶群調(diào)度到異地,異地一般流量很小來保持單元的“熱度”,然后在故障場(chǎng)景再通過切流和快速擴(kuò)容應(yīng)對(duì)。這種架構(gòu)相對(duì)單元化來說改造成本低,兼顧成本和穩(wěn)定性。
右邊是第二種架構(gòu)模式實(shí)踐,是阿里公共云+阿里專有云/自建IDC的模式。其本質(zhì)是希望通過混合云架構(gòu)解決穩(wěn)定性和成本問題+通過公共云的部分享受彈性的綜合優(yōu)勢(shì),充分利用混合異構(gòu)的優(yōu)勢(shì)。一般簡(jiǎn)稱為往云上彈和往云上逃(故障逃逸)。
這種模式的優(yōu)勢(shì)是充分利用了線下資源和即有資產(chǎn),通過云上來逃逸和彈性擴(kuò)容,業(yè)務(wù)上細(xì)分云上和云下的流量,這也是我們今天分享的業(yè)務(wù)彈性和混合云的典型思路。
關(guān)于建站工具
除了上文提及的多活產(chǎn)品,業(yè)務(wù)維度的單元快速建站和拉起也很關(guān)鍵。通過云遷移中心CMH,可以通過架構(gòu)感知、自動(dòng)編排、資源創(chuàng)建和全站還原4大能力,在業(yè)務(wù)架構(gòu)篩選、自定義建站模版、一站式資源創(chuàng)建和復(fù)制配置、快速數(shù)據(jù)準(zhǔn)備等具體的方案能力上提供支撐。
多活高可用整體架構(gòu)的建設(shè)和保鮮提升的能力體系。
對(duì)于多活架構(gòu)的持續(xù)演練使其保鮮極為關(guān)鍵,這樣當(dāng)故障真的來臨時(shí)才敢切換也知道切換的效果和影響面。
結(jié)合我們方案交付和工具建設(shè)的經(jīng)驗(yàn),整理了多活架構(gòu)管理模型,以指導(dǎo)我們進(jìn)行多活架構(gòu)的度量、交付、提升的全周期管理。我們?cè)诙嗷罴軜?gòu)上按照架構(gòu)、能力、保鮮和規(guī)范4大維度,進(jìn)而繼續(xù)拆分2-3層,通過上百個(gè)因子來進(jìn)行業(yè)務(wù)應(yīng)用架構(gòu)的多活能力度量和建設(shè)指導(dǎo)。比如高可用架構(gòu)中的流量防護(hù)架構(gòu)、業(yè)務(wù)容量規(guī)劃架構(gòu),這些架構(gòu)是確保規(guī)劃后的單元能力在承載故障切換之后過大的流量而不被沖垮,相應(yīng)規(guī)劃的容量是確保預(yù)設(shè)的核心鏈路的吞吐的,故障場(chǎng)景下通過較低的冗余成本來支撐住核心業(yè)務(wù)的容災(zāi),整體是ROI比較高的做法。同樣的,類似故障隔離能力中的服務(wù)內(nèi)聚、資源隔離和依賴解耦能力,這些能力是在設(shè)計(jì)階段的,我們更多的是通過合適的演練方式去檢驗(yàn)驗(yàn)收。
整體的多活架構(gòu)體系能力,在理論模型三個(gè)維度基礎(chǔ)架構(gòu)能力、架構(gòu)健康度和管理規(guī)范度的牽引之下,在CMH云遷移中心納管的應(yīng)用上云、云化之后的架構(gòu)量化支撐之上,基于AHAS產(chǎn)品的多活能力MSHA,在多活的建設(shè)場(chǎng)景圍繞多活容災(zāi)標(biāo)準(zhǔn)交付動(dòng)作進(jìn)行多活架構(gòu)的建設(shè),然后演練保鮮期圍繞高可用演練標(biāo)準(zhǔn)交付和演練驗(yàn)證方案庫(kù)進(jìn)行驗(yàn)證演練提升,整體構(gòu)成了多活高可用整體架構(gòu)的建設(shè)和保鮮提升的能力體系。
多活高可用架構(gòu)助力企業(yè)創(chuàng)新發(fā)展
從冷備到同城雙活,再到異地雙活和異地多活,多活高可用整體架構(gòu)的建設(shè)和保鮮,技術(shù)的發(fā)展反映了對(duì)業(yè)務(wù)連續(xù)性和穩(wěn)定性的不斷追求。對(duì)于提升企業(yè)的服務(wù)質(zhì)量和用戶體驗(yàn)具有重大的意義,是構(gòu)建現(xiàn)代數(shù)據(jù)中心、云計(jì)算等高科技設(shè)施不可或缺的一部分。
阿里云應(yīng)用高可用服務(wù)AHAS提供了豐富的多活工具,可以成為企業(yè)實(shí)現(xiàn)業(yè)務(wù)無縫切換和持續(xù)穩(wěn)定運(yùn)行的重要手段。在未來的發(fā)展中,完整的多活高可用架構(gòu)交付體系將繼續(xù)為企業(yè)提供穩(wěn)定、可靠、高效的產(chǎn)品和服務(wù),助力企業(yè)實(shí)現(xiàn)業(yè)務(wù)的持續(xù)發(fā)展和創(chuàng)新。
審核編輯 黃宇
-
架構(gòu)
+關(guān)注
關(guān)注
1文章
513瀏覽量
25468
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論