在如今火爆的數智化時代,企業都在利用大數據創新業務、獲得價值;然而,數據能否更好地賦能業務,取決于企業數據質量的好壞。好的數據質量,經過數據分析、挖掘、機器學習等手段,可以更好地輔助業務決策、幫助企業降本增效;差的數據質量,從數據中獲得的價值有限,甚至會誤導做出錯誤的業務決策,從而給企業帶來災難性的后果。
那么,一個企業的數據質量如何,如何評估?常見的數據質量問題都有哪些?這些問題是什么原因造成的?
數據質量評估維度
在評價企業數據質量的好壞時,首先需要定義評估的維度,通常較為重要的數據質量維度有以下6個:
- 數據唯一性: 是指數據唯一,不存在重復記錄。即:不會出現一物多碼,一碼多物的情況。例如:主鍵唯一性,同一個ID不會重復記錄。
- 數據完整性: 是指數據在創建、處理流轉過程中無缺失和遺漏,包括實體完整、屬性完整、記錄完整和字段值完整。例如:員工的工號不可為空。
- 數據準確性: 是指真實、準確地記錄原始數據,無虛假數據及信息。數據要準確反映其所建模的"真實世界"的實體。例如:在業務系統上填寫信息時,手誤輸錯了新車類型信息,造成了數據庫里存在的信息與真實世界不一樣。
- 數據一致性: 是指數據是否遵循了統一的規范、是否符合邏輯。例如:同一車型所對應的名稱在不同系統中保持一致。
- 數據及時性: 是指及時記錄和傳遞相關數據,從而滿足業務對信息獲取的時間要求。主要指數據提取要及時、傳送要及時、轉換要及時、加載和展現要及時。
- 數據有效性: 指數據的值、格式和展現形式符合數據定義和數據業務定義的要求。例如:手機號要符合全球手機號碼編碼規則。
數據質量問題分析原因
從數據的整個生命周期來看,任何一環節都有可能產生數據問題。在數據的采集階段,數據的真實性、準確性、完整性、一致性等會影響數據質量。在數據的加工、存儲階段,也涉及到對數據的修改,也可能引發數據質量問題。所以,業務、技術、管理等多方面的因素都有可能會影響到數據質量。
業務問題
-
業務需求不清晰
在業務需求不清晰的情況下,很容易造成由于理解偏差,最終導致結果數據有問題。
-
需求頻繁變更
需求一旦變更,其中數據采集、數據處理、數據存儲等環節就可能會受到影響,稍有不慎引入Bug,便造成數據質量問題。
-
數據填報缺失或不準確
業務系統側,在數據錄入時,漏填或填錯信息,造成數據的質量問題。
-
數據作假
為了提高或降低考核指標,對一些數據進行人為造假,使得數據真實性無法保證。
技術問題
-
數據庫結構設計問題
例如:數據庫表結構、數據庫約束條件、數據校驗規則的設計開發不合理,造成數據錄入無法校驗或校驗不當,引起數據重復、不完整、不準確。
-
數據采集問題
從業務系統采集過來的數據本身就有一些不完整、重復、不規范,如果沒有清洗、及時糾錯或清洗代碼有Bug,就會造成有質量問題的數據進入。
-
數據處理問題
數據在傳遞、數據轉換、數據存儲過程中,任一環節有技術問題,都有可能造成數據質量問題。
-
各系統孤立開發
業務系統各自為政,孤立開發,系統之間的數據孤島、數據不一致問題嚴重。
管理問題
企業管理缺乏數據思維, 沒有認識到數據質量的重要性。沒有進行統一數據管理,沒有明確的數據質量目標,也沒有制定數據質量相關的政策和制度等。
數據質量問題改進指導
正如上述所列,造成數據質量差的原因有很多;那么,面對企業數據質量差的問題,如何改進?借鑒PDCA循環(又名戴明環)進行數據質量持續改進,以達最終數據質量目標。
PDCA循環
PDCA是一套“目標管理”流程,通過規劃、執行、檢查、行動四階段,確保每次的目標都能達成。PDCA循環在質量管理中得到廣泛的應用。
PDCA的四個階段:
-
計劃 PLAN
先確定數據質量目標,可通過數據質量評估標準為當前企業數據質量進行評估,設定改進目標。 對照目標制定計劃與實施方案。在制定實施方案時,每1項措施要符合5W1H,即:為什么制定該措施?達到什么目標?在何處執行?由誰負責完成?什么時間完成?怎么完成? 比如:一項措施是為企業制定并執行數據標準。
-
實施 DO
依據上一步計劃與實施方案進行執行。 比如:制定好數據標準,推廣到各部門執行。eg. 某車企會員類型(企業代碼標準、2位編碼):01 普通卡、02 黃金卡、03 鉆石、04 超級VIP卡;車保險種類代碼(外部代碼標準、4位編碼):10100 交強險、10200 商業車險 等等。
-
檢查 CHECK
完成一輪的實施之后,進行檢查,對比當前實際情況與預期目標的差距。
-
行動 ACT
對于本輪的經驗和措施形成標準,標準化下來,持續運行,防止質量倒退。 對于沒有達到預期效果,分析原因,制定下一步行動,繼續下一輪的PDCA循環。
所有措施不可能在一個PDCA循環中全部解決,遺留的措施會自動轉進下一個PDCA循環,周而復始,螺旋上升。
改進措施
有了PDCA循環的指引,透過PDCA環高效完成達到目標的所有措施,持續改進數據質量。在制定有效措施方面,始終要遵循:及時發現問題 -> 立即解決問題-> 提前預防問題;因此,歸納改進措施如下。
事前預防
- 提高全員數據質量意識。加強培訓、Session分享、或出題考試等,通過各種手段培養員工重視數據質量,了解數據對下游所產生的影響。
- 制定數據規范、數據質量標準、元數據管理等。
- 建立自動系統,數據輸入控制,防止無效或不準確數據進入系統。
- 制定正式的變更控制、把關過程,防止正常處理流程之外直接更改數據。
- 制定相關制度來避免數據問題,如:嚴禁無記錄無跟蹤人為篡改數據。
事中監控
問題發生,及時糾正,最大限度地降低糾正措施成本和風險。
- 構建日志管理體系,問題及時追蹤處理。
- 構建數據異常處理機制與告警辦法
- 創建數據質量監測平臺,自動執行數據質量檢查和審計過程。
- 問題發生,及時數據修正:程序自動修正、程序自動發現且人工修正。
- 建立數據質量的流程化控制體系,對數據的采集、加工、存儲等環節進行流程化控制。
事后完善
- 問題發生解決后,要復盤,完善相應的預防措施、數據規范、數據管理制定與政策等等
- 定期評估度量,落實行動項,逐步提升數據質量。
寫到這里,想必大家對于數據質量問題的分析與改進有了一定的認識。總之,記住下面這句話:
【首先】數據質量評估 -> 發現問題,
【其次】問題根因分析 -> 分析問題,
【最后】戴明環方法改進 -> 解決問題。
-
數據質量管理
+關注
關注
0文章
3瀏覽量
889
發布評論請先 登錄
相關推薦
評論