本文來自“2023年中國分布式存儲市場研究報告”。分布式存儲指基于分布式架構,通過軟硬件協同,依托高效網絡連接多個節點來實現存儲功能的IT產品和服務。
在傳統存儲面臨拓展性有限、結構化/非結構化數據兼容性不佳、I/O性能與成本不經濟、可靠性不高和面向新應用(如容器)支持能力有待提升、用戶體驗不佳等問題的背景下,分布式存儲一定程度上與傳統存儲實現了較好配合。
相比傳統的集中式存儲,分布式存儲在以下領域表現突出:
云原生:指“生在云上、長在云上”的政企業務場景,典型的有容器和微服務等
高性能計算(HPC):支撐每秒百億億次浮點計算(EFLOPS)場景的分布式存儲
融媒體:指文件大且I/O延遲要求低的元宇宙、虛擬數字人和虛擬現實等場景
從規模看,近三年中國分布式存儲市場規模均保持30%以上的高速增長,2022年市場規模達104.2億元
從結構看,2022年,文件存儲占比最高,一體機、分布式混閃、虛擬化融合在各自領域占比較高。
從場景看,HPC在2022年中國分布式存儲主要場景市場中居于重要地位
從區域看,2022年華北、華東地區占據半壁江山,京津冀、長三角市場領跑
2022年中國分布式存儲市場中,領導者有華為、中科曙光、浪潮、新華三;挑戰者有XSKY、 SmartX、 NetApp、 Dell&EMC、焱融科技;跟隨者有同有、杉巖和中國電子云;可期待者有深信服和聯想。
中科曙光在分布式存儲教育科研和氣象市場份額居首位,SmartX在分布式塊存儲金融市場居首位。
一、分布式存儲是什么
傳統存儲面臨拓展性有限、結構化/非結構化數據兼容性不佳、數據讀寫任務(I/O)性能與成本不經濟、可靠性不高和面向新應用(如容器)支持能力有待提升等問題,用戶體驗不佳。在此背景下,分布式存儲近年來迅速發展,一定程度上與傳統存儲實現了較好配合,滿足了多個場景用戶的個性化需求。
分布式架構:與集中式架構不同,分布式架構沒有負責所有業務的中心節點,而是由多個可相互通信、協調的普通節點構成集群,對外提供服務。
軟硬件協同:硬件主要由存儲控制系統(CPU、緩存)、硬盤/閃存盤和網絡等構成,軟件則是與硬件適配的存儲操作系統,以及存儲服務軟件、管理軟件、狀態監控軟件等應用軟件。
高效網絡:并不是傳統的TCP/IP網絡,而是采用存算分離的設計思路,不通過CPU,直接由內存傳輸到智能網卡完成I/O的遠程直接地址訪問網絡(RDMA)。
二、分布式存儲的分類
根據場景特點和需求,2022年中國分布式存儲產品共有四種主要的分類方式:
按存儲對象,可分為分布式塊存儲、分布式文件存儲、分布式對象存儲、分布式統一存儲;
按產品形態,可分為一體機、純硬件和純軟件;
按存儲介質,可分為分布式全閃存、分布式混閃;
按部署方式,可分為虛擬化融合方式、容器融合方式和分離方式。
(一)按存儲對象分類
分布式塊存儲:指將各存儲節點的硬盤、閃存盤等存儲硬件資源通過劃分邏輯卷(LVM)、創建獨立冗余存儲陣列(Raid)、邏輯分區等方式,由物理存儲資源轉化為面向需求的邏輯塊,提高使用效率。
分布式文件存儲:指基于文件系統對各存儲節點的數據進行存儲,形成目錄、子目錄、文件,常見的分布式文件存儲應用有Ceph、HDFS、GFS、 FastDFS、GridFS、mogileFS、TFS等。
分布式對象存儲:指各存儲節點由標識符、數據和元數據的對象數據構成。其中標識符在該存儲系統中唯一,用于區分不同存儲區域;元數據將提取數據特征,便于快速檢索。分布式對象存儲相比塊存儲和文件存儲,數據查找和提取的效率大大提升,適用于文本、音頻、視頻等非結構化數據。
分布式統一存儲:指各存儲節點同時支持塊、文件和對象三大類型數據,滿足虛擬化、云平臺和容器平臺等新興存儲需求,為用戶提供服務典型應用和計算平臺的統一存儲資源池。
(二)按產品形態分類
一體機:從設備層面將各節點存儲資源進行融合優化,同時軟硬件為同一廠商生產、一體交付,適配度高,可有效緩解單個節點或設備短板導致整體系統功能受影響等問題。擴展能力較強,且可在線增加節點,對前段業務完全透明。不足之處是價格偏高。
純硬件:指交付形態為磁盤陣列、閃存盤集群等硬件資源的分布式存儲產品,適配的軟件分為自研和開源二次開發兩種路線。純硬件交付模式成本高,但可靠性較高,適用于重要敏感數據存儲場景。
純軟件:指交付形態為定制化應用軟件、平臺授權碼等的分布式存儲產品,一般應用于優化存儲硬件的場景,如老舊數據中心改擴建等。純軟件交付定制化空間大、成本低、交付周期短,但擴容及存儲硬件兼容性問題一定程度上也會影響運行效率。
(三)按存儲介質分類
分布式全閃存:指各存儲節點完全由固態硬盤(SSD)構成,主流的適配接口為NVNe,每秒讀寫次數(IOPS)可躍升至百萬級別,相比傳統的機械硬盤(HDD)提升了近千倍。缺點是價格高昂,且受限于系統總線協議和其他部件,分布式全閃存性能較難完全發揮。
分布式混閃:指各存儲節點由SSD、HDD等構成。盡管性能不及分布式全閃存,但可針對場景需求進行個性化定制,從而最大程度上均衡成本和性能,是目前主流的分布式存儲產品。
(四)按部署方式分類
虛擬化融合:指在分布式存儲(塊存儲為主)的架構基礎上,利用服務器虛擬化的隔離機制,實現存儲和服務器虛擬化在同一硬件節點上的部署。這種架構的優勢在于整體架構更為簡單,并且節省了硬件成本,缺點是計算和存儲需要同時擴展,不適用于計算和存儲應用不均衡的場景。
容器融合:面對容器化持久化存儲日益增長的需求和Kubernetes特有的管理架構,專門針對此類場景的分布式存儲產品也開始涌現。容器融合的分布式存儲產品對 K8s集群內的存儲資源進行整合與管理,不僅可以通過與容器融合部署降低成本,簡化系統架構,還可以無縫融入 K8s 原生的開發和運維體系,更加符合 K8s 運維團隊的使用習慣。
分離:指各存儲節點資源與應用分離,雖然架構更加復雜并需要更多的硬件節點,但方案更為靈活,并適用更多場景,尤其適合大容量的數據存儲,以及從裸金屬、虛擬化到容器的不同計算節點的混合資源池。
三、分布式存儲的優勢
高可靠性:分布式存儲的數據采取存放在多個存儲節點中的全冗余部署,通過多時間點快照、周期增量復制兩大核心技術,可實現在一定時間間隔內,對各版本數據的保存,并且同時進行恢復,可幫助分析和研究,避免類似災難的再次發生。
高效作業:面對可劃分為若干個并行運行的子任務的存儲任務,分布式存儲可將這些子任務分散到不同的存儲節點上,使其同時運行作業,從而提高效率。另外,分布式存儲系統具有任務負載平衡功能,如果某個存儲節點的負載過重,則可把其中一些作業遷移到其他節點去執行,從而減輕該節點的負載,實現整體效率的提升。
高可擴展性:分布式存儲橫向連接了多個存儲節點,可按存儲容量和性能的需要,靈活橫向拓展(Scale-out)新節點。新存儲節點和原系統連接到同一個網絡,同時業務的連續性基本不受影響,可基本實現分布式存儲系統的總容量和性能無感線性擴展。新存儲節點的資源將由分布式存儲操作系統管理,進行分配或取消,原有數據可通過復制、鏡像、同步等方式,實現在新節點的遷移。
四、分布式存儲的典型應用場景
2022年,中國分布式存儲充分發揮上述優勢,與傳統的集中式存儲相比,在云原生、高性能計算(HPC)、融媒體、智能備份和分布式數據庫等領域表現突出。
云原生:指“生在云上、長在云上”的政企業務場景,典型的有容器和微服務等;
高性能計算(HPC):支撐氣象、基因測序等每秒百億億次浮點計算(EFLOPS)場景的分布式存儲,通常以PB,乃至EB計量;
融媒體:指文件大且I/O延遲要求低的元宇宙、虛擬數字人和虛擬現實等場景;
智能備份:指視頻監控、醫療影像和智能制造等場景;
分布式數據庫:指具備分布式事務處理能力、可平滑擴展、分布于計算機網絡且邏輯上統一的數據庫,分布式存儲是分布式數據庫的核心技術之一。
編輯:黃飛
?
評論
查看更多