大數據是指用現有的計算機軟硬件設施難以采集、存儲、管理、分析和使用的超大規模的數據集。大數據具有規模大、種類雜、快速化、價值密度低等特點(4V特性)。大數據的“大”是一個相對概念,沒有具體標準,如果一定要給一個標準,那么10-100TB通常稱為大數據的門檻。
數據分析是一個大的概念,理論上任何對數據進行計算、處理從而得出一些有意義的結論的過程,都叫數據分析。從數據本身的復雜程度、以及對數據進行處理的復雜度和深度來看,可以把數據分析分為以下4個層次:數據統計,OLAP,數據挖掘,大數據。
大數據分析和數據分析是有區別和聯系的。這里重點關注兩者的是技術要求、使用場景、業務范圍等方面的區別和聯系。重點要區分理論研究和實際應用兩方面區別和聯系。
第一:在分析方法上兩者并沒有本質不同
數據分析的核心工作是人對數據指標的分析、思考和解讀,人腦所能承載的數據量是極其有限的。所以,無論是“傳統數據分析”,還是“大數據分析”,均需要將原始數據按照分析思路進行統計處理,得到概要性的統計結果供人分析。兩者在這個過程中是類似的,區別只是原始數據量大小所導致處理方式的不同。
第二:在對統計學知識的使用重心上兩者存在較大的不同
傳統數據分析”使用的知識主要圍繞“能否通過少量的抽樣數據來推測真實世界”的主題展開?!按髷祿治觥敝饕抢酶鞣N類型的全量數據(不是抽樣數據),設計統計方案,得到兼具細致和置信的統計結論。
第三:與機器學習模型的關系上,兩者有著本質差別
“傳統數據分析”在大部分時候,知識將機器學習模型當黑盒工具來輔助分析數據。而“大數據分析”,更多時候是兩者的緊密結合,大數據分析產出的不僅是一份分析效果測評,后續基于此來升級產品。在大數據分析的場景中,數據分析往往是數據加墨的前奏,數據建模是數據分析的成果。
-
數據分析
+關注
關注
2文章
1464瀏覽量
34355 -
大數據
+關注
關注
64文章
8929瀏覽量
138323
發布評論請先 登錄
相關推薦
評論