當前,大部分企業不再建設從源數據采集到分析應用的煙囪式系統,更傾向于數據集中采集、存儲,并應用分層建設。這種方式一方面有利于應用系統的快速部署,另一方面也保證了數據的集中管理與運營,體現數據的資產、資源屬性。
數據中臺的出現彌補了數據開發和應用開發之間由于開發速度不匹配而出現的響應力不足等缺陷問題。
數據中臺是國內學者提出的概念,起始于阿里的“大中臺、小前臺”概念。阿里的中臺是從管理的角度出發,以中臺事業部集中數據搜索,技術及產品,數據共享等多個部門的功能。其他組織或企業建設數據中臺不一定需要成立中臺事業部,但是數據集中治理與提升數據價值轉換效率的思路是一致的。
— 01 —數據中臺通用體系架構 不同的企業對數據有不同的需求。企業數據應用不斷更新迭代,企業的中臺系統也需要不斷變化。 從數據處理與數據治理兩個維度出發,可以設計一個解耦的數據中臺體系架構。該數據中臺體系架構具有一定的柔性,可按照企業應用需求進行組合,或者對單個模塊進行擴充,能滿足大多數企業數據中臺建設的需求。
數據中臺體系架構示例 數據中臺的通用體系架構如圖 2 所示。該中臺體系架構以減少功能冗余和提高功能復用為原則,把數據中臺解耦為 6 個可以分別獨立建設、演進的功能子系統。 數據結構與數據處理子系統是數據中臺體系架構的核心,數據治理是提升數據價值的重要手段。該數據中臺體系架構的通用性表現在以下幾點。
該數據中臺體系架構綜合考慮了數據中臺的各種要素,參考這個架構進行建設可以有效提升數據資產價值,提供數據及服務的共享。
參考這個數據中臺體系架構,企業可以一次規劃、分步實施。首先建設處理子系統及數據存儲子系統,然后根據業務發展需求,逐步補充數據采集、數據安全及數據治理子系統。
該數據中臺由 6 個解耦的子系統組成。企業在立項建設時可以靈活組合,每個子系統單獨招標建設,也可以把多個子系統合并招標建設。數據中臺通用體系架構包含數據存儲框架、數據采集框架、數據處理框架、數據治理框架、數據安全框架及數據運營框架等 6 大部分。
1、數據存儲框架
數據中臺的核心是數據,數據通過采集系統獲取,然后數據經過處理框架加工,并接受數據治理框架的管理,同時也要接受數據安全管理框架的管理,最后開放的價值數據將通過數據運營框架對外提供數據服務。 數據中臺的數據架構應該獨立規劃,并采用合理的技術架構對不同類型的數據進行存儲。
數據存儲框架中,無論數據采用對象存儲、塊存儲還是數據庫存儲技術,各種中臺數據可按照上圖所示分類管理。
源數據主要由采集框架進行管理,數據治理框架按照數據特征把數據簡單分為結構化和非結構化數據兩大類,而規范化分域數據則是數據治理框架對全量數據的規范化分域整理。寬表數據是數據關聯的結果,利用寬表數據可以對人、事、地、物、組等對象進行完整的數據畫像,同時寬表數據也可以作為上層模型數據的中間層數據。
元數據和標簽數據都是對數據的描述,其中元數據用來對數據的客觀屬性進行表示,標簽數據更傾向于管理者對數據的主觀表述及等級劃分,比如質量等級標簽、安全標簽、屬性標簽等。主數據需要在各系統間頻繁更新、交換,且需要獨立的存儲空間進行維護管理。
2、數據采集框架數據中臺的采集框架應對納入數據中臺的各種源數據進行統一采集管理。數據采集框架中應提供多種數據采集方式,如文件傳輸協議采集、數據庫采集、接口應用程序接入采集、流式采集及網絡爬蟲采集。
同時采集框架應按照數據采集規范對源數據進行預處理,從而去除明顯不需要的數據及多余數據,并對采集過程進行管理。雖然數據中臺的體系架構沒有統一模板,但各企業數據采集框架基本一致。
3、數據處理框架數據處理是每個數據應用的基本環節之一,經典的數據抽取、轉換和加載(ETL)處理流程在數據采集預處理、數據整合、數據建模等多個地方均要使用。單獨建設數據處理框架有利于數據處理工具組件的集中開發與管理,也有利于數據中臺數據處理任務的協調與調度。
數據處理框架專門負責數據處理相關的任務,包括批處理、流處理、人工智能分析、數據清洗、數據交換及查詢,此外數據處理的相關工具組件可在處理框架中配置。任務調度模塊在數據處理框架中處于居中指揮的作用,并對運行的數據處理任務進行監控及異常處理等操作。
4、數據治理框架廣義的數據治理不僅包含提升數據價值的內容,如數據管理、數據目錄、數據質量等,也包含數據安全管理及數據共享服務。
數據安全管理與數據價值提升是一個矛盾體,如果由一個廠商或開發團隊進行數據安全管理及數據價值提升相關軟件的開發,則開發者的操作難免有所偏向,而且矛盾不容易公開,少了沖突也就少了優質的解決方案。
另外,數據共享與數據治理的其他內容也存在相同的問題。因此,本文建議數據中臺的數據治理框架中不包含數據安全與共享的相關內容。 數據治理框架包含數據目錄、數據管理、模型管理和數據質量 4 個模塊:
數據地圖、數據資產目錄、知識圖譜及數據血緣的主要作用是展示數據的屬性及相互關系,因此都納入數據目錄模塊。
數據模型能提高數據中臺對外部應用需求的反應能力,固化的中間模型數據需要專門管理。模型管理包括模型目錄、模型血緣及模型地圖等。
數據管理又可以細分為元數據管理、主數據管理、標簽數據管理及源數據管理。
數據質量管理模塊按照制定的數據標準及數據稽核規則對數據中臺中的數據進行質量管理。
5、數據安全框架數據已經成為數據資產,數據安全框架是數據中臺必不可少的組成部分。數據安全疊加在數據中臺其他功能框架之上,數據采集、處理、交換、共享等每個環節均必須實施安全控制策略。安全框架可以分為日志管理、用戶認證、權限管理及加解密等幾個功能模塊。 此外,安全全門戶也可以對外提供安全能力封裝,展示數據中臺的安全態勢及安全視圖。
6、數據運營框架數據中臺的核心功能是綜合眾多數據應用的數據處理及數據治理功能,集中建設、集中管理、減少冗余、增加復用。數據中臺的最終目的還是為其他應用或開發者提供數據服務,而對外數據服務功能將直接面向不確定的外部對象。
因此單獨建設數據運營,一方面有利于針對外部用戶提供針對性功能;另一方面,數據運營模塊作為用戶與數據中臺核心數據服務之間的中間層,可以有效隔離外部用戶直接控制、接觸核心數據及應用,可保護數據中臺的安全性及內部功能的穩定性。
綜合以上因素,數據運營應配置運營門戶、能力開放、數據開放及運營監控等功能:
運營門戶:對數據中臺管理者提供管理門戶,對開發者提供開發者門戶。對內部應用提供內部應用門戶,對外部應用提供外部應用門戶。運營門戶針對不同的用戶提供不同的通道并開放不同的數據中臺能力。
能力開放:把數據中臺的數據處理能力、數據分析能力等經過適當的封裝后對用戶提供服務,可以是微服務,也可以是 API 接口,或者直接提供二次開發能力。
數據開放:通過數據目錄,數據/模型展示(可視化、數據視圖等)為其他數據應用系統提供數據服務。
運營監控:對數據中臺的總體運營情況進行監控管理,包括硬件環境、軟件環境,并且確定監控指標,按需求提供運營日報,處理告警信息。
— 02 —數據中臺典型架構
數據中臺的目標是讓數據持續用起來,通過數據中臺提供的工具、方法和運行機制,把數據變為一種服務能力,讓數據更方便地被業務所使用。下圖所示為數據中臺總體架構圖,數據中臺是在底層存儲計算平臺與上層的數據應用之間的一整套體系。
數據中臺總體架構圖 數據中臺屏蔽掉底層存儲平臺的計算技術復雜性,降低對技術人才的需求,讓數據的使用成本更低。通過數據中臺的數據匯聚、數據開發模塊建立企業數據資產。通過資產管理與治理、數據服務把數據資產變為數據服務能力,服務于企業業務。數據安全體系、數據運營體系保障數據中臺可以長期健康、持續運轉。
1. 數據匯聚數據匯聚是數據中臺數據接入的入口。數據中臺本身幾乎不產生數據,所有數據來自于業務系統、日志、文件、網絡等,這些數據分散在不同的網絡環境和存儲平臺中,難以利用,很難產生業務價值。
數據匯聚是數據中臺必須提供的核心工具,把各種異構網絡、異構數據源的數據能夠方便地采集到數據中臺進行集中存儲,為后續的加工建模做準備。數據匯聚方式一般有數據庫同步、埋點、網絡爬蟲、消息隊列等;從匯聚的時效性來分,有離線批量匯聚和實時采集。
2. 數據開發通過數據匯聚模塊匯聚到中臺的數據,沒有經過什么處理,基本是按照數據的原始狀態堆砌在一起的,這樣業務還是很難使用。數據開發是一整套數據加工以及加工過程管控的工具,有經驗的數據開發、算法建模人員利用數據加工模塊提供的功能,可以快速把數據加工成對業務有價值的形式,提供給業務使用。
數據開發模塊主要是面向開發、分析人員,提供離線、實時、算法開發工具以及任務的管理、代碼發布、運維、監控、告警等一些列集成工具,方便使用,提升效率。
3. 數據資產體系有了數據匯聚、數據開發模塊,中臺已經具備傳統數倉平臺的基本能力,可以做數據的匯聚以及各種數據開發,就可以建立企業的數據資產體系。之前說數據資產體系是中臺的血肉,開發、管理、使用的都是數據。大數據時代,數據量大,增長快,業務對數據的依賴也會越來越高,必須考慮數據的一致性和可復用性,垂直煙囪式的數據和數據服務的建設方式注定不能長久存在。
不同的企業因業務不同導致數據不同,數據建設的內容也是不同的,但是建設方法可以相似,數據要統一建設,筆者建議數據按照貼源數據、統一數倉、標簽數據、應用數據的標準統一建設。
4. 數據資產管理通過數據資產體系建立起來的數據資產還是一套偏技術的數據體系,業務人員比較難理解。資產管理是以企業全員更好理解的方式,把企業的數據資產展現給企業全員(當然要考慮權限和安全管控),數據資產管理包括對數據資產目錄、元數據、數據質量、數據血緣、數據生命周期等進行管理和展示,以一種更直觀的方式展現企業的數據資產,提升企業的數據意識。
5. 數據服務體系前面利用數據匯聚、數據開發建設企業數據資產,利用數據管理展現企業的數據資產,但是并沒有發揮數據的價值。數據服務體系就是把數據變為一種服務能力,通過數據服務讓數據參與到業務,激活整個數據中臺,數據服務體系是數據中臺存在的價值所在。
企業的數據服務是千變萬化的,中臺產品可以帶有一些標準服務,但是很難滿足企業的服務訴求,大部分服務還是需要通過中臺的能力快速定制。數據中臺的服務模塊并沒有自帶很多服務,而是提供快速的服務生成能力以及服務的管控、鑒權、計量等功能。
6. 運營體系和安全體系通過前面的數據匯聚、數據開發、數據資產、資產管理、數據服務,已經完成了整個數據中臺的搭建和建設,也已經在業務中發揮一定的價值。
運營體系和安全體系是數據中臺得以健康、持續運轉的基礎,如果沒有它們,數據中臺很可能像個一般項目一樣,一期搭建起平臺、建設部分數據、嘗試一兩個應用場景之后而止步,無法正常地持續運營,不能持續發揮數據應用價值。這也就完全達不到建設數據中臺的目標。
— 03 —12張企業數據中臺架構圖
一、技術中臺架構圖
中臺概念出現之前,在信息化模式上,前端為支撐業務的應用端,后端為各個應用系統,為前端用戶,如:客戶、供應商、伙伴、社會,提供服務,但隨著市場、用戶需求、業務的多變性,底層僵硬的應用無法及時提供支撐。 企業需要一個強大的中間層為高頻多變的業務提供支撐,為不同的受眾用戶提供多端訪問渠道,基于此類需求“中臺”概念出現,接著開始對企業客戶、中間件廠商、數據平臺廠商、甚至傳統應用軟件廠商都有較大的概念沖擊。 恰逢此時,微服務技術和架構、容器化的生態、Devops概念和工具處于大發展的階段,最后基于“大中臺、小前臺”的信息化建設模式開始流行。
二、銀行數據架構體系
數據架構層面通過數據分類、分層部署等手段,從非功能性視角將數據合理布局。通過整體架構管控和設計,支持業務操作類和管理分析類應用(系統),滿足業務發展及IT轉型對數據的需求,架構的擴展性和適應性能夠提升數據分析應用的及時性、靈活性和準確性。 那實際情況下各個銀行的數據架構體系會有所不同,根據各行的業務發展、客戶數據量、交易數據量、功能需求等會有不同的演變路徑以及發展方向。 一般國有銀行、股份制銀行等全國性的銀行業務較復雜,數據量也較多,數據架構也因此進化較快。常見的數據架構分區如下圖所示:
三、零售行業中臺架構
這是一張混合了技術和業務的中臺邏輯架構示意圖,前臺應用部分我們將零售和消費品行業需要對接消費者的若干應用系統一一列舉了出來,但是在中臺架構下它們已經和傳統的“應用系統”有了很大的差別,變得非常“輕量”。
四、業務中臺架構
前臺跟著界面走,天生就穩定不了,總是有五花八門的數據請求,這是必然的事情。
后臺應該主要負責數據存儲,把不同形式和規模的數據以合適的方式整理好,大數據倒騰起來動靜太大,要求有一定的穩定性。
如果前臺的請求都要求后臺直接做,那后臺管的事就太多了。
五、后臺架構
后臺是被許多前臺共享的,如果直接向前臺提供靈活數據服務,還可能導致各個前臺之間的耦合程度變高,維護成本立即陡增。 同樣的,把這些數據處理放在前臺也不合適,一方面不太安全,另一方面,前臺團隊也是忙著讓界面如何更好看使用更流暢,沒太多工夫琢磨數據的事情。這樣一個后臺架構就能夠相對平衡這一矛盾。
六、實時數據中臺
下面是實現實時數據中臺的一種邏輯架構,方便你去理解,其實最關鍵的是實時模型那一層
七、企業級中臺發展過程
我用下面這張圖來概括中臺發展的三個階段,最終我們發現,對于那些已經有 ERP 系統的企業來講,中臺的建設本質就是利用微服務架構構建開放業務平臺來替換閉源單體架構的 ERP 系統的過程。
八、阿里中臺架構
中臺是一種架構理念和方法。任何一種架構的方法,其本質不外乎,利用分、合、打散、重組等技術手段,對系統進行有序化重構,以達到減少系統“熵”的過程,使系統得以不斷進化。
九、阿里核心架構圖
通過阿里云平臺將技術中臺進行部署,對集團內共享業務單元提供支撐,并最終對前臺各業務線提供服務化能力輸出。
十、全渠道零售中臺
如果僅僅是把所有的東西打包在一個“大后臺”并不能真正解決IT的痛點,因為畢竟它是一個IT系統。IT系統要考慮的東西除了業務功能,更重要和更有價值的地方在于:
十一、全渠道集成架構
2007~2012年是“集成模式”概念被拋出率最高的年代,它有一個名字叫“SOA”,SOA就是那個時代的“全渠道中臺”
十二、網易嚴選數據中臺體系
數據中臺的核心職責是高效地賦能數據前臺為業務提供價值。要想理解數據中臺先要理解數據前臺,上文說到的搜索、推薦、BI 報表、數據大屏等都屬于數據前臺。
— 04 —
6種行業數據中臺解決方案
▲地產行業解決方案
▲證券行業解決方案
▲零售行業解決方案
▲制造行業解決方案
▲傳媒行業解決方案
▲檢務行業解決方案
寫在最后的話 建設數據中臺,實現企業或機構數據資產的高效管理和數據價值最大化,為機構帶來了數據平臺化的運營機制,有望解決應用開發與數據開發速度不匹配的問題。利用數據中臺,可以將機構的核心技術或團隊凝聚在一起,建設機構內強大的數據開發、運營等團隊,提升機構的團隊的硬實力和軟實力。
雖然一個良好的架構對一個信息系統的后期擴容及運維有重要作用,但總體架構設計只是數據中臺建設的第一步,每一個功能模塊還有很大的細化空間,如不同類型數據的存儲技術選型、數據安全合規審計技術、數據模型設計等。在具體項目中,數據共享與安全保護的平衡點、新技術的引用等,都需要進一步細化研究。
審核編輯 :李倩
-
數據
+關注
關注
8文章
7006瀏覽量
88947 -
數據處理
+關注
關注
0文章
595瀏覽量
28557
原文標題:6000字長文,終于將數據中臺架構體系講明白了
文章出處:【微信號:IndustryIOT,微信公眾號:工業互聯網前線】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論