1.基礎概念
我們首先來了解一下一些基本的概念。到底什么什么是數據治理?
從DAMA理論知識體系的角度來說,數據治理的定義如下:數據治理是在管理數據資產過程中行使權力和管控,包括計劃、 監控和實施。
與食品生產線類似,數據治理的過程實際上就是將成本較低的原材料(原始數據),經過一系列的提純、加工、模具定型(數據模型)等工序,最終轉化為我們可食用(可使用)的,價值較高的商品(數據產品)。在這個過程中,設定相應的流程和制度并加以監管是治理過程的必要條件,由此才能保證治理過程規范、完整和安全,滿足產品上架(數據產品進行共享和開放應用)的市場要求。
而與通常意義的數據治理相比,公共數據治理是更廣義上的數據治理,通常與政府治理緊密結合,其目標是通過數據資產的開發利用創造社會價值,從而提升執政能力。隨著政府治理現代化水平提升,政府對公共數據治理的要求就越高。
2.背景介紹
國家大數據戰略中明確提出構建以數據為關鍵要素的數字經濟,運用大數據提升國家治理現代化水平,運用大數據促進保障和改善民生的要求。并且目前數據中心已納入新型基礎設施建設要求中。
基于大數據中心的公共數據治理組織通常分為三種模式:
分散運營模式進行運作,即數據管理職能分布在不同的業務部門和技術部門,通常這種模式下,有過多人員參與治理和制定決策,在實施協作決策時反而更加困難,難以長期維持,通常在該模式下定義數據所有權也比較困難。
第二種是集中運營模式,所有工作都由數據管理組織掌控,為數據管理和數據治理建立了正式的管理職位且擁有最終決策人,由于在這過程中會出現重大的組織結構變革,參與數據管理的角色可能會存在丟失業務領域的專業知識的風險。
最后一種分散和集中模式相結合的混合運營模式,其中一個變體就是聯邦運營模式,它為數據管理提供具有分散執行的集中策略,由一個集中的數據管理中心與分散的業務部門團隊合作。目前來看對大部分地方政府來說,更適合混合運營模式。
任何一種公共數據治理模式都包含大量數據治理活動,但我們在實踐過程中發現各類問題,包括:如何做到將數據應編盡編?在歸集過程中如何保證更新及時性?不同部門業務數據在共享時如何明確統一的定義?如何提高數據質量?等,這些問題在后續的文章中會逐步展開介紹。
由業務處理難點延伸,當前數據治理還包括數據分散、數據存儲管理不集中,各委辦局業務技術平臺不互通導致信息割裂無法順利共享等問題,因此就會導致原始數據的質量不高,附加值低的現象。
3.治理方案
從公共數據治理的目標出發,最基礎的就是提升“存、管、找、用”四項基本能力,由于篇幅優先,簡單從調研梳理、數據感知、數據管理、共享交換和應用幾個方面介紹一下公共數據治理的實施思路。
3.1 調研梳理
調研梳理通常權責清單和應用系統作為切入,基于已有數據資產實現“應編盡編,按需歸集”。
應編盡編,即對委辦局所有可提供的業務數據進行梳理和規整,并根據委辦局內部業務要求,定義好每個數據模型下的數據標準,例如字段長、字段類型、字典代碼等基本信息,作為各部門的數據資產家底。
按需歸集,調研各部門數據資產的同事,需要了解實際業務開展需要哪些其他委辦局的數據進行業務協同。通過對相同數據需求的數源分析與認責,實現“一數一源、一次歸集、多次共享”的目標,降低公共數據共享門檻。
通常在梳理政府公共數據中,會分兩個方面進行。一是自上而下,即如上所說的從業務的角度出發,分析委辦局的業務構成,這里不再贅述。二是自下而上的梳理,即從技術的角度出發,直接探尋數據本質,分析部門業務數據庫中的數據模型,基礎元數據主要包含資源標識號、資源名稱、資源類型、提供單位、所屬系統、更新周期等內容。
3.2 數據感知
在梳理數據以后,需要從業務角度和技術角度“理解”所歸集的數據,即數據感知。
從業務角度來看,元數據來源于業務數據產生的源數據模型中,即最開始的業務部門對于某個數據表中的字段定義。隨著對元數據分析的深入推進,我們會接觸到關于技術層面的數據結構定義、數據標準定義、數據字典定義等元數據。
從技術角度看,在數據治理的過程中,從源數據層到數據清洗到數據存儲再到數據應用,期間都會產生元數據。
通過元數據采集,我們可以借助元數據采集和管理工具建立應用元數據和技術元數據之間的關聯,從而對元數據進行分析和聚類,最終形成完整的元數據體系,如資產目錄、數據標準、數據模型等。
“以用識數”——根據使用反饋來給數據打標簽;
“以數識數”——根據定義的規則給數據打標簽;
在這個過程中我們通常選擇高效的圖數據庫實現元數據關系展現,每個數據和它的元數據都是圖中的一個點,數據和元數據之間的關系是線,元數據和元數據之間關系也是線,這樣構建的一張可擴展的復雜的圖,既描述了數據和元數據之間的關系,也描述了元數據和元數據之間的關系,快速得到分析和查詢結果。
3.3 數據管理
1、資源目錄管理
建立統一的元數據倉庫是實現數據管理的必要條件,并且離不開高質量的資源目錄。英文通常用“Catalog”、“Category”、“Directory”代表目錄,但各自的含義并不一樣,我們在公共數據治理中一般采用“Catalog”作為目錄實體的定義,為數據資源提供了歸類和索引,讓抽象的數據變得“有跡可循”。即我們常說的“存管協同”概念。
而數據治理中的資源目錄通過與元數據管理相結合,在使數據有跡可循的基礎上,增加了數據的排列組合功能。社會、互聯網、政府內部各級部門等數據產生源頭收集來的數據,經過采集清洗后,可以納入信息資源目錄中,同樣的業務數據經過資源盤點和整合,可以為不同的業務場景提供數據支撐。
在治理項目實施過程中,我們通常將資源目錄分為三個層次——資源目錄、資產目錄和服務目錄。
資源目錄,數據可順利采集,保證編目的目錄的名稱、信息項名稱與采集上來的庫表名稱、字段名稱相對應,且能夠提供基礎的數據共享服務,在這一階段的主要工作就是明確目錄內容的定義,保證數據更新頻率和周期能夠滿足數據共享和使用的基本需求。
資產目錄是基本資源目錄進行標準化處理之后的成果,在這一階段我們借助各委辦局對各自業務的明確定義和公共數據標準,為先前編目的資源添加準確的業務描述和業務標簽。根據各個資源在上一階段的數據共享和使用情況,我們可以對各目錄的共享方式進行準確的描述和定義,提高其可使用程度。
服務目錄來源于各部門通過數據共享交換后留下的權責清單記錄,這一階段更向業務層面貼合。結合實際已共享的應用場景,可以對每個目錄進行使用場景進行統計分析,找到各類使用場景中的異同,從而在反饋數據的基礎上進行總結提煉,逐步明確具體的使用場景,并將這些場景劃入數據共享的允許范圍內,當有委辦局對該資源目錄有相同的使用場景進行申請時,通過資源目錄管理平臺的處理機制,可以迅速通過申請,提高共享效率。
2、數據質量管理
數據質量管理是對數據生命周期的每個階段里可能引發的數據質量問題進行識別、度量、監控、預警等一系列管理活動。通常數據質量管理應遵循完整性、有效性、準確性、唯一性、一致性和合理性這幾個原則。我們在數據質量管理中可以按照發現問題、分析問題、提出方案、解決問題等幾步來進行。
(1)設置數據質量規則。即針對不同的數據對象,配置相應的數據質量指標,不限于:數據唯一性、數據準確性、數據完整性、數據一致性、數據關聯性、數據及時性等。
(2)分析數據質量問題產生的原因??赡苁羌夹g層面數據模型設計的質量問題,也可能是業務層面系統相互獨立導致數據無法對接或者是業務端進行數據錄入時未按照規范進行錄入。
(3)選擇解決辦法。技術上可以通過ETL工具按照數據標準規范進行數據清洗和標準;業務上可以對業務系統進行升級改造和數據補錄。
(4)質量檢測,監督檢查。設置數據檢查任務對存量數據進行檢查,形成數據質量問題清單并出具數據質量問題報告。通過定期對系統開展全面的數據質量狀況評估,從問題率、解決率、解決時效等方面建立評價指標進行整改評估,根據整改優化結果。
3.4 數據共享交換
數據是在流通、應用中創造價值的,這就涉及“數據共享”和“數據交換”。
數據共享由“供”和“需”兩部分組成。之前在數據梳理中也提到過,我們會對委辦局自有的和需求的數據進行梳理,當基礎資源目錄形成后,隨著業務事項需求的推動,在交換體系中會形成以委辦局為主體的需求清單、責任清單和負面清單。
需求清單為A委辦局對其他委辦局的數據需求;責任清單為其他委辦局對A委辦局下的數據需求;負面清單則為A委辦局審批責任清單中的內容時,暫時無法提供或不予共享的數據資源清單。
通過對數據資源的供需管理,可以為上層管理部門把握目前數據湖中的數據共享趨勢提供數據參考。各委辦局權屬下的資源按照被共享次數進行分析,逐步梳理出該委辦局下的典型業務場景,并由業務驅動需求,將數據湖中分散的數據進行業務歸類,形成數據專題庫。再進行數據反哺,將各級單位產生的原始數據,通過數據湖中的分析、交換、歸類,以專題庫的形式再次共享出去,為各業務系統提供質量較高的數據參考。
4.數據應用
通過調研梳理、數據采集和感知、數據資產管理和數據共享交換,此時的公共數據在數據可用性、數據可信度、數據管理成本和數據安全性上都有了較大改善。
同時,在治理過程中以城市數據中心為樞紐,形成了承上啟下的新型公共數據管理模式,在原有的海量數據的基礎之上對數據進行提煉和賦能。向上,可向國家級部門提供城市數據,同時提出需求,豐富國家數據歸集和治理場景;向下,可推動內部數據共享,結合業務場景建設專題庫,促進城市有效管理和運行,同時為下級部門提供數據,滿足數據為基層賦能、數據價值提升的要求。
此外,治理后的公共數據不僅可以滿足政府內部的數據流通共享,還可以將部分數據對社會開放,形成以需求為導向的數據管理模式,從而促進數據開發應用服務,借助社會層面的應用獲取更多管理、建設信息,形成數據流通閉環,為社會生活創造更大的價值。
關于作者:
姚絲雨,數據治理工程師,擁有較豐富的政府行業項目管理、數據治理和實施經驗,參與上海市大數據中心數據運營、浦東新區政務大數據數據管理、數據質量提升和數據治理服務項目,參與浦東新區大數據中心數據治理和數據運營管理工作。
責任編輯:gt
-
數據中心
+關注
關注
16文章
4764瀏覽量
72100 -
大數據
+關注
關注
64文章
8884瀏覽量
137407
發布評論請先 登錄
相關推薦
評論