1 軟件定義“抗造”
我們知道軟件定義存儲(chǔ)SDS有很多優(yōu)勢(shì),比如:
軟硬件分離,無(wú)硬件廠商鎖定。
高擴(kuò)展性,在線按需擴(kuò)容,無(wú)需中斷業(yè)務(wù)。
標(biāo)準(zhǔn)控制API接口,秒級(jí)操作,無(wú)縫對(duì)接其他系統(tǒng)。
標(biāo)準(zhǔn)數(shù)據(jù)訪問(wèn)接口,支持塊、文件、對(duì)象存儲(chǔ)等。
性能和容量可配置,滿足當(dāng)前和未來(lái)場(chǎng)景的需求。
除此之外,SDS還可以靈活定義可靠性、可用性,因此SDS特別抗造。
我們先了解可靠性和可用性的含義,再對(duì)故障進(jìn)行分類(lèi),最后對(duì)比各種抗造技術(shù),方便大家在做SDS選型和架構(gòu)設(shè)計(jì)時(shí)進(jìn)行“軟件定義”。
2可靠性與可用性
可靠性(durability):表示數(shù)據(jù)是否丟失。比如硬盤(pán)發(fā)生介質(zhì)故障,導(dǎo)致硬盤(pán)里面的數(shù)據(jù)丟失。
可用性(availability):表示數(shù)據(jù)是否可以訪問(wèn)。比如因?yàn)榉?wù)器掉電原因,導(dǎo)致暫時(shí)不能訪問(wèn)服務(wù)器硬盤(pán)中的數(shù)據(jù)。
3故障分類(lèi)
總體分類(lèi)為:硬件、軟件、天災(zāi)、人禍。具體分類(lèi)如下表所示。
其中硬盤(pán)發(fā)生故障非常頻繁,下面云備份服務(wù)商blackblaze的硬盤(pán)年平均故障率統(tǒng)計(jì),一共統(tǒng)計(jì)了82516塊硬盤(pán)在2013年~2017年間的故障率。
在實(shí)際經(jīng)驗(yàn)中,我們也會(huì)經(jīng)常碰到服務(wù)器、機(jī)柜、交換機(jī)、站點(diǎn)的故障。那么多故障,我們需要不同的技術(shù)來(lái)應(yīng)對(duì),下面我們來(lái)看不同技術(shù)的優(yōu)缺點(diǎn)。
4抗造技術(shù)
4.1 單機(jī)RAID
一般服務(wù)器上都會(huì)自帶RAID卡,支持RAID1、10、5、6等。RAID技術(shù)通過(guò)數(shù)據(jù)冗余保證在1~N塊硬盤(pán)故障時(shí),數(shù)據(jù)不丟失,并且同時(shí)可以訪問(wèn)到數(shù)據(jù)。
比如RAID5支持同時(shí)壞1塊硬盤(pán),RAID6支持同時(shí)壞2塊硬盤(pán)。
但是RAID的缺點(diǎn)是:
●僅支持單機(jī)。假如服務(wù)器宕機(jī),RAID技術(shù)也無(wú)力回天。
●數(shù)據(jù)恢復(fù)速度慢,受限于單個(gè)硬盤(pán)的寫(xiě)速度,導(dǎo)致RAID組要恢復(fù)健康狀態(tài)需要10個(gè)小時(shí)以上,特別在越來(lái)越大的硬盤(pán)容量的情況下。在數(shù)據(jù)恢復(fù)過(guò)程中,容易發(fā)生二次故障,導(dǎo)致數(shù)據(jù)丟失。
● RAID組所包含的硬盤(pán)數(shù)量太少,不能并行發(fā)揮所有硬盤(pán)的性能。
●需要單獨(dú)的Spare熱備盤(pán),平時(shí)會(huì)造成資源浪費(fèi)。
4.2 多機(jī)網(wǎng)絡(luò)多副本
因?yàn)閱螜C(jī)RAID的缺點(diǎn),隨著萬(wàn)兆以太網(wǎng)的普及,多機(jī)網(wǎng)絡(luò)多副本技術(shù)隨之產(chǎn)生,廣泛被各種分布式存儲(chǔ)軟件使用。
多機(jī)網(wǎng)絡(luò)多副本的優(yōu)點(diǎn)是恢復(fù)速度快,并行發(fā)揮所有硬盤(pán)的性能,另外當(dāng)單臺(tái)服務(wù)器宕機(jī)了,不影響數(shù)據(jù)的可用性和可靠性,其他服務(wù)器繼續(xù)提供服務(wù)。缺點(diǎn)是存儲(chǔ)容量利用率低,可用容量和裸容量比例是1:3。
4.3 多機(jī)網(wǎng)絡(luò)EC糾刪碼
為了解決多副本的存儲(chǔ)容量利用率低的問(wèn)題,大家開(kāi)發(fā)了網(wǎng)絡(luò)EC糾刪碼,也被廣泛應(yīng)用在分布式存儲(chǔ)上,比如HDFS的EC糾刪碼。
它優(yōu)點(diǎn)是可用容量和裸容量比例是1:1.3~1.5,大文件寫(xiě)吞吐量高,缺點(diǎn)是寫(xiě)操作延遲高。
4.4 機(jī)架柜列故障域隔離
SDS還可以定義數(shù)據(jù)分布策略,這樣可以防止機(jī)架柜列掉電造成的影響。
假如多副本分布在不同的機(jī)架上,則任一機(jī)架掉電,不影響數(shù)據(jù)可靠性和可用性。
假如多副本分布在不同的柜列上,則任一柜列掉電,不影響數(shù)據(jù)可靠性和可用性。
4.5 網(wǎng)絡(luò)冗余
SDS通過(guò)網(wǎng)口鏈路聚合和交換機(jī)堆疊技術(shù),提供網(wǎng)絡(luò)冗余度,避免單個(gè)網(wǎng)口和交換機(jī)的故障造成數(shù)據(jù)不可訪問(wèn)的影響,提高數(shù)據(jù)可用性。
4.6 多站點(diǎn)多副本
為了滿足存儲(chǔ)系統(tǒng)兩地三中心、多站點(diǎn)多活的需求,目前部分SDS產(chǎn)品的對(duì)象存儲(chǔ)服務(wù)支持多站點(diǎn)多副本技術(shù),數(shù)據(jù)三個(gè)副本同時(shí)存儲(chǔ)在三個(gè)站點(diǎn)上,可以多站點(diǎn)同時(shí)訪問(wèn),支持多活技術(shù)。當(dāng)任意一個(gè)站點(diǎn)發(fā)生故障時(shí),不影響其他站點(diǎn)的數(shù)據(jù)訪問(wèn)和寫(xiě)入。
4.7 多站點(diǎn)EC糾刪碼
多站點(diǎn)EC糾刪碼技術(shù)可以提高存儲(chǔ)容量利用率,支持在1個(gè)站點(diǎn)故障的情況下,數(shù)據(jù)能夠正常訪問(wèn)和讀寫(xiě),適用于冷數(shù)據(jù)和歸檔場(chǎng)景。
4.8 Cloud Sync(云備份)
不是所有場(chǎng)景都有條件建設(shè)多站點(diǎn),因此SDS的Cloud Sync(云備份)功能應(yīng)運(yùn)而生,可以把數(shù)據(jù)異步復(fù)制到公有云和異地私有云上,避免額外建設(shè),降低成本。當(dāng)本地存儲(chǔ)集群發(fā)生故障時(shí),數(shù)據(jù)可以快速恢復(fù)和訪問(wèn)。
具體應(yīng)用場(chǎng)景如下所示:
4.9 智能故障自愈
SDS可以采用先進(jìn)的數(shù)據(jù)分布算法,在出現(xiàn)硬盤(pán)故障和服務(wù)器故障時(shí)可以進(jìn)行數(shù)據(jù)遷移和重平衡,故障硬盤(pán)會(huì)被踢出存儲(chǔ)集群,不再工作。數(shù)據(jù)遷移完成后,SDS存儲(chǔ)集群恢復(fù)正常,無(wú)須人工干預(yù)。因當(dāng)出現(xiàn)硬盤(pán)故障時(shí),可以不用處理,后期再批量更換硬盤(pán),減少運(yùn)維成本。
4.10 對(duì)象存儲(chǔ)超時(shí)刪除
對(duì)于特定場(chǎng)景,數(shù)據(jù)保存一定周期之后需要?jiǎng)h除,以便釋放空間,SDS的對(duì)象存儲(chǔ)服務(wù)具有超時(shí)刪除功能。下圖是10天后刪除數(shù)據(jù)的設(shè)置。
4.11 監(jiān)控告警平臺(tái)
通過(guò)監(jiān)控告警平臺(tái),可以把不同級(jí)別的告警信息通過(guò)郵件和短信發(fā)送給管理員,讓管理員快速知曉存儲(chǔ)集群的健康狀態(tài),并采取適當(dāng)?shù)男袆?dòng)。
5 技術(shù)對(duì)比
下表對(duì)比了不同技術(shù)的抗造指標(biāo),我們要根據(jù)實(shí)際場(chǎng)景進(jìn)行選擇和組合,權(quán)衡數(shù)據(jù)可靠性和成本。
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9295瀏覽量
85873 -
SDS
+關(guān)注
關(guān)注
0文章
48瀏覽量
15788 -
軟件定義
+關(guān)注
關(guān)注
0文章
84瀏覽量
13721
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論