近些年來,隨著企業數字化轉型持續推進,在數據的分析利用方面,其廣度和深度都在不斷向外延伸。在分析廣度方面,主要體現在所分析數據的類型以及分析場景更加多樣化、多元化;在分析深度方面,主要體現在更關注多源異構數據的融合分析以及基于數據科學技術進行數據價值的深度挖掘。
與此同時,為了滿足多樣化的數據分析需求,企業數據平臺架構也在持續演進。單一數據湖和數據倉庫已不能順應數據分析的發展趨勢,越來越多企業開始基于“湖(Hadoop技術體系)”+“倉(MPP技術體系)”的混合架構打造自己的企業級數據平臺。這種混合架構融合了“湖”和“倉”各自的技術優勢,可以在一定程度上支撐企業多樣化的數據分析場景,但是在數據平臺的易用性、可維護性、數據處理效率以及存儲成本方面都存在一定的不足。
星環科技政府與公共事業部系統架構的負責人徐流明介紹說,“湖(Hadoop技術體系)”+“倉(MPP技術體系)”的混合架構是在數據平臺架構演進過程中技術向業務妥協的一個產物。Hadoop技術體系在設計之初主要是為了解決海量數據的離線批處理問題,在高并發數據集市、即席查詢、事務一致性等方面存在先天不足;而MPP技術體系是從關系型數據庫演進而來,對事務一致性、OLAP分析性能都有比較好的支撐,但是在分析場景方面存在比較大的局限性,主要以結構化數據分析為主,無法支撐半/非結構化數據存儲、實時計算、機器學習等場景。同時,在前些年,業內又沒有比較成熟的技術體系能夠同時滿足“湖”+“倉”的所有場景,所以才催生了“Hadoop+MPP”的混合架構。
然而,隨著多模型數據庫技術的興起,“湖”“倉”之間的技術壁壘有望被打破,湖倉一體的概念也應運而生。所謂湖倉一體,就是融合數據湖和數據倉庫的一種新型開放式數據平臺架構,將數據湖和數據倉庫的優勢充分結合,構建在數據湖低成本的數據存儲架構之上,又繼承了數據倉庫的數據處理、分析和管理功能。
從技術角度看,“湖倉一體”架構是以多模型數據平臺技術為依托,打破傳統Hadoop+MPP混合部署模式,實現湖倉技術架構統一。未來,湖倉一體作為新一代大數據技術架構,將逐漸取代單一數據湖和數據倉庫架構。
以需求為牽引,湖倉一體時代來臨
任何技術的更新迭代都是以需求為牽引的,數據平臺的建設也不例外。近年來,數據分析需求的演進趨勢體現在四個方面:
第一,數據類型多元化。由原來的以結構化數據為主,轉變為結構化、非結構化、半結構化和實時消息數據共存的情況。
第二,分析場景多樣化。由原來的以統計分析為主,轉變為統計分析、標簽分析、全文檢索、 預測分析、甚至是基于圖數據的推理分析等共存。
第三,分析時效實時化。由以離線分析為主,轉變為實時分析、交互分析、自助分析等。
第四,數據管控統一化。由原來的弱管控模式轉變為了強管控,體現在統一數據標準、統一數據存儲、統一數據治理以及統一數據視圖。
在需求演進的趨勢下,企業級數據平臺架構也進行不斷迭代,主要經歷了四個階段:
數據庫階段。在上個世紀80年代,數據分析主要是基于業務數據庫,做一些單系統的簡單分析。
數據倉庫階段。到了90年代,數倉的概念開始興起,各個企業開始構建自己的數據倉庫平臺,把業務系統數據都抽取到數倉之中,進行一些多維的、關聯性的、融合性的BI分析,以輔助決策。
數據湖階段。到了2010年前后,隨著大數據技術的興起,數據湖的概念隨之而來。數據湖不僅支持結構化數據的處理,同時還支持半結構化、非結構化數據的存儲和查詢。同時,在數據應用場景上,也更加的多元化,出現了實時分析、全文檢索、機器學習等一些新型的分析場景。
在這一階段,大家的關注點在于用不同的技術棧來支撐不同的數據分析場景,對數據平臺架構的易用性、可維護性卻沒有過多的關注,導致很多企業建設的數據平臺架構非常之復雜,為后期平臺迭代以及運維都造成了很大困擾。
湖倉一體階段。近兩年來,湖倉一體的概念興起,企業開始逐步關注數據平臺架構問題,更強調通過統一的架構,依托一個一站式的多模型數據平臺來解決數據湖、數據倉庫多樣化的數據分析場景。
技術向業務妥協,“湖+倉”混合架構面臨多重挑戰
在湖倉一體的概念出現之前,其實業內湖+倉的混合架構已經存在了多年,而且有些企業把這種湖+倉的架構也稱為湖倉一體,實際上湖倉一體并不等于簡單的數據湖+數據倉庫。
湖+倉混合架構有幾個比較典型的特點:
數據湖和數據倉庫是兩套相對獨立的體系,混合部署在一個數據平臺上。數據湖是基于Hadoop技術來實現,主要用于支撐多源異構的數據存儲,執行批處理、流處理等工作負載。數據倉庫主要基于MPP或者一些關系型數據庫來實現,主要支撐結構化數據在OLAP場景下的BI分析和查詢需求。湖和倉是互相獨立的,通過ETL實現數據的交換。
這種架構可以在一定程度上解決企業多場景的數據分析需求,但是也有一些明顯的弊端。
第一,混合部署架構較為復雜,導致架構設計和項目實施交付成本較高,且后期平臺運維難度較大。
第二,數據冗余非常明顯,增加存儲的成本。Hadoop和MPP都屬于分布式系統,分布式系統為了保障數據的高可靠性,一般都是通過冗余備份的方式實現的。兩種技術本身都已經做了數據的冗余備份,采用混合架構又避免不了有部分的數據既存在Hadoop平臺,又存在MPP平臺,進一步增加了數據冗余的比例,增加存儲的成本。
第三,數據處理的鏈路過長,影響查詢的時效性。通常數據處理要先入湖,進行批處理后再入倉,在數倉中進行主題建模分析,最終為上層提供查詢服務,整個加工鏈路相對比較長,而且中間有湖入倉還要進行一次ETL,影響查詢的時效性。
第四,數據的一致性問題,增加了數據校驗成本。無論是由湖入倉還是由倉入湖,實際上在混合架構下都是在兩種數據平臺間的數據遷移,在遷移的過程當中難免會出現數據一致性問題,增加額外的數據校驗成本。
湖+倉的混合架構是技術向業務妥協的一個產物,并不是真正意義上的湖倉一體平臺。在前些年,業內沒有比較成熟的技術體系能夠同時滿足“湖”+“倉”的所有場景,所以才催生了“Hadoop+MPP”的混合架構。
打破“湖”“倉”技術壁壘,湖倉一體是未來演進趨勢,其特點有幾個方面:
多模存儲:湖倉一體平臺具備統一數據存儲管理能力,支持結構化、半結構化、非結構化的數據統一存儲,同時支持多種數據存儲模型;
架構統一:湖倉一體具備4層統一架構。在資源管理層可以實現統一的資源調度框架,支持計算和存儲單元彈性伸縮;在存儲層具備統一數據存儲能力,實現多源異構數據統一管理;在計算層支持統一計算引擎,可以實現跨模態數據的融合分析;在接口層支持統一數據接口,能夠為上層應用提供統一易用的查詢接口。湖倉一體架構統一,可以避免混合架構帶來的開發難、運維難、存儲成本高、數據處理效率底等問題。
性能卓越:湖倉一體平臺性能更卓越。因為在統一架構下,數據湖和數據倉庫都是采用一體化設計,減少了數據加工的鏈路,增加了資源的復用性,時效性更好。
全面賦能:通過湖倉一體平臺,可以同時滿足“湖”“倉”的數據分析需求,支持多樣化的業務場景,能夠為企業級各類業務系統、各種分析場景提供全面賦能。
“湖倉一體”架構以多模型數據平臺技術為依托,打破Hadoop+MPP混合部署模式,實現湖倉技術架構統一,屬于真正的湖倉一體平臺。
自主可控,星環科技“湖倉一體”的解決之道
星環科技推出的湖倉一體解決方案,總體分為五層架構:
第一層是基礎設施層,可以兼容信創自主可控的硬件生態,兼容主流X86及ARM架構服務器,支持CentOS、Redhat、麒麟V10、統信UOS等主流操作系統,同時支持ARM與X86架構混合部署。
第二層是統一資源管理層,星環科技推出基于云原生技術的容器化操作系統TCOS,提供統一的資源調度框架,通過容器化編排,能夠統一調度計算、存儲、網絡等各類基礎資源。
第三層是統一存儲管理層,星環科技研發了統一的分布式數據管理系統TDDMS,為不同存儲引擎提供公共的存儲管理服務,保障數據一致性,實現數據統一管理運維和高可用。目前分布式數據管理系統接入了9款存儲引擎,支持10種數據模型的存儲。用戶不需要為不同模型建立單獨的存儲系統,而是通過統一的存儲管理,降低了運維管理成本,也避免了數據孤島。同時分布式數據管理系統的插件特性,也方便后續業務的靈活擴展,可以根據需要接入其他存儲引擎。
第四層是統一計算引擎層,基于分布式計算引擎Transwarp Nucleon可以根據不同的存儲引擎自動匹配高性能算法,不僅可以支持批處理、流處理等不同類型計算任務,還支持跨模態數據的融合分析,方便用戶在一個SQL中使用不同模型的數據,降低開發難度,提升開發效率。
第五層是統一數據操作層,主要提供標準的SQL語法支持,可以實現統一接口處理不同的業務和不同數據模型,只需要簡單的SQL語句即可完成各種復合跨模型數據查詢,無需訪問不同接口即可操作不同的數據模型。對于場景切換、數據庫切換而造成接口、開發語言切換的問題就不存在了,開發和遷移成本大大降低。
貫穿這五層架構,星環科技湖倉一體平臺還提供了全生命周期的數據管控能力,可以實現多模態數據以及元數據的統一管控,同時還支持統一的多租戶管理,可確保在湖倉一體平臺上的租戶從資源層、數據層、應用層等都能實現完整隔離。
八大特點引領,星環科技湖倉一體平臺賦能用戶
那么星環科技的湖倉一體平臺有什么特點呢?
云原生。基于云原生的架構,提供容器化的底座,可以根據業務負載自動彈性擴縮容,提高整體資源利用率。湖倉一體平臺各組件采用微服務架構設計,按照功能模塊進行切分,在橫向擴展以及版本更新方面都具有更高的靈活性。
多模態異構存儲。星環科技提供一個多模型的數據管理平臺,能夠提升場景的查詢效率,針對同一份數據可以采用多種數據模型存放,解決不同場景的效率問題。
1湖N倉多租戶體系。面向集團型企業,可以提供1湖加N倉的多租戶體系。在集團本部構建一個中心租戶,在中心租戶中建設集團級數據湖,梳理統一的數據資產目錄,形成數據資產視圖,同時面向集團層面業務分析需求,建設集團級數據倉庫。針對集團下屬的業務部門、分子公司,或者一些數據創新團隊,可按需建立自有的租戶,在租戶內有獨立的資源環境,有獨立的一套數據開發平臺和工具,可以通過共享統一數據湖的數據,建設面向自己業務和主題的數據倉庫和數據集市,滿足個性化的數據分析需求。
自主可控。自主可控主要體現在兩個方面,對內,星環科技一直在堅持技術創新,實現全面自主可控。對外,星環科技也在積極的和信創的上下游去做兼容適配,擁抱整個信創生態。
總體而言,星環科技湖倉一體平臺的優勢包括多模存儲、技術創新、批流協同、統一SQL、彈性伸縮、信創自主、全棧工具、降本增效等8大優勢。
目前,星環科技湖倉一體解決方案已經在金融、政府、交通、郵政、醫療、能源等行業以及部分大型國有企業落地應用,典型客戶包括中化集團、中國郵政集團、廣州農商行等。
審核編輯:彭靜
-
數據分析
+關注
關注
2文章
1446瀏覽量
34051 -
大數據
+關注
關注
64文章
8884瀏覽量
137409 -
星環科技
+關注
關注
0文章
36瀏覽量
2632
發布評論請先 登錄
相關推薦
評論