大數(shù)據(jù)會(huì)影響質(zhì)量,因?yàn)榇髷?shù)據(jù)的定義特征是數(shù)量,種類和速度使驗(yàn)證變得困難難以捉摸的“第四”,即準(zhǔn)確性組件(關(guān)于數(shù)據(jù)可靠性),由于可能會(huì)聚集大量的數(shù)據(jù)源而面臨挑戰(zhàn),每個(gè)數(shù)據(jù)源可能會(huì)遇到不同的質(zhì)量問題,大數(shù)據(jù)還釋放了可能引入新類型數(shù)據(jù)錯(cuò)誤的新的和更復(fù)雜的查詢的可能性,同時(shí)由于非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)具有更大的不確定性,因此非結(jié)構(gòu)化數(shù)據(jù)會(huì)產(chǎn)生問題,并且機(jī)器學(xué)習(xí)算法傾向于充當(dāng)“黑匣子”,其中數(shù)據(jù)中包含的偏差可能永遠(yuǎn)不會(huì)消失。
您的數(shù)據(jù)質(zhì)量工具箱盡管已經(jīng)開發(fā)了許多工具來解決數(shù)據(jù)質(zhì)量問題,但是如果不小心應(yīng)用自動(dòng)條目更正本身可能會(huì)降低數(shù)據(jù)質(zhì)量,所有影響數(shù)據(jù)清晰度的因素(例如準(zhǔn)確性,一致性,及時(shí)性,重復(fù)性,易失性,完整性和相關(guān)性)都可能導(dǎo)致進(jìn)一步的問題,因?yàn)槠髽I(yè)會(huì)更正數(shù)據(jù)并將其調(diào)整為適合處理的形式,每個(gè)轉(zhuǎn)換都可能會(huì)丟失可能與給定查詢相關(guān)的信息,當(dāng)前的數(shù)據(jù)質(zhì)量工具由主要的分析公司,利基公司和開源提供,它們提供諸如數(shù)據(jù)清理,數(shù)據(jù)概要分析,數(shù)據(jù)匹配,數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)豐富和數(shù)據(jù)監(jiān)視之類的功能,諸如金融服務(wù)之類的利基工具專注于特殊類型的問題,并且正在開發(fā)新的工具,這些工具采用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)清理。在將大數(shù)據(jù)與機(jī)器學(xué)習(xí)相結(jié)合的地方,還會(huì)出現(xiàn)其他質(zhì)量問題為規(guī)范化數(shù)據(jù)而進(jìn)行的更改可能導(dǎo)致機(jī)器學(xué)習(xí)算法在解釋上出現(xiàn)偏差,大型數(shù)據(jù)存儲(chǔ)中錯(cuò)誤發(fā)生的頻率相對(duì)較低,可以說使得對(duì)數(shù)據(jù)質(zhì)量檢查的需求變得不那么重要了,但現(xiàn)實(shí)情況是,質(zhì)量問題只是轉(zhuǎn)移到了其他領(lǐng)域,自動(dòng)校正和一般假設(shè)可能會(huì)在整個(gè)數(shù)據(jù)集中引入隱藏的偏差。
保持真實(shí)必須根據(jù)業(yè)務(wù)需求了解數(shù)據(jù)質(zhì)量,在某些情況下,需要采用涉及無數(shù)變量的嚴(yán)格方法,但是對(duì)于許多查詢而言,更寬容的方法是可以接受的,在及時(shí)性和準(zhǔn)確性,查詢值和數(shù)據(jù)清理以及準(zhǔn)確性和可接受的錯(cuò)誤之間始終需要權(quán)衡取舍,在復(fù)雜的數(shù)據(jù)和分析環(huán)境中,沒有一個(gè)適合所有大小的空間,查詢需要不同級(jí)別的準(zhǔn)確性和及時(shí)性。
以一種方式構(gòu)造的數(shù)據(jù)可能適用于某些用途,但會(huì)導(dǎo)致其他用途的結(jié)果不準(zhǔn)確或有偏差。數(shù)據(jù)質(zhì)量的最終測(cè)試是它是否產(chǎn)生所需的結(jié)果這要求進(jìn)行嚴(yán)格的測(cè)試,并考慮引入錯(cuò)誤的潛在原因,盡管用于數(shù)據(jù)清理,規(guī)范化和整理的工具越來越受歡迎,但可能的因素的多樣性意味著這些過程不會(huì)在短期內(nèi)完全實(shí)現(xiàn)自動(dòng)化,隨著自動(dòng)化的普及,您必須確保自動(dòng)化解決方案不會(huì)由于轉(zhuǎn)換規(guī)則而在數(shù)據(jù)流中引入新問題。確定性的不確定性由于數(shù)據(jù)集和結(jié)構(gòu)化數(shù)據(jù)有限,因此數(shù)據(jù)質(zhì)量問題相對(duì)明確,創(chuàng)建數(shù)據(jù)的過程通常是透明的,并且會(huì)遇到已知錯(cuò)誤:數(shù)據(jù)輸入錯(cuò)誤,表格填寫不正確,地址問題,重復(fù)等,可能的范圍相當(dāng)有限,并且要嚴(yán)格定義處理的數(shù)據(jù)格式,隨著機(jī)器學(xué)習(xí)和大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)清理的機(jī)制必須改變,除了更多,更快的數(shù)據(jù)外,非結(jié)構(gòu)化數(shù)據(jù)的不確定性也大大增加,數(shù)據(jù)清理必須解釋數(shù)據(jù)并將其放入適合處理的格式,而不會(huì)引入新的偏差,此外質(zhì)量過程將根據(jù)特定用途而有所不同。數(shù)據(jù)質(zhì)量比絕對(duì)質(zhì)量更重要。
根據(jù)研究目標(biāo)和業(yè)務(wù)目標(biāo),需要使查詢與數(shù)據(jù)集更好地匹配,數(shù)據(jù)清理工具可以減少數(shù)據(jù)流中的一些常見錯(cuò)誤,但始終存在潛在的意外偏見,同時(shí)查詢需要及時(shí)且負(fù)擔(dān)得起,從未迫切需要一種謹(jǐn)慎的數(shù)據(jù)質(zhì)量方法,機(jī)器學(xué)習(xí)和高級(jí)軟件工具無疑提供了解決方案的一部分,從而有可能為質(zhì)量問題帶來新的方法,但是沒有萬能藥,更高級(jí)別的復(fù)雜性意味著需要更仔細(xì)地檢查數(shù)據(jù)。
責(zé)任編輯:YYX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7006瀏覽量
88947 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132572 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8883瀏覽量
137407
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論