大數據,顧名思義,就是大量的數據。
更專業來說,大數據,是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據軟件工具能力范圍的數據集合。
我們通常說:“量變引起質變”。大數據,就屬于這種情況。
當數據體量增加到一定程度時,相關技術、理念、思維等,都隨之發生質變,從而形成了一個新的領域,這就是大數據領域。大數據,通過對海量數據的采集、分析和處理,尋找其中的特征和趨勢,提煉更多的高價值信息,用于改善業務流程,或者輔助決策行為。
在大數據領域,我們經常看到一些關于3V、4V、7V的說法。這些V,到底是什么意思呢?
今天這篇文章,小棗君就簡單給大家介紹一下。
█ 3V、4V、7V的來源
2001年,美國麥塔集團分析師道格·蘭尼(Doug Laney)在對大數據進行理論研究的時候,發現大數據具備三個特征。而這三個特征的英文單詞,恰好又以字母“V”開頭,即:
Volume(體量大)、Variety(多樣化)、Velocity(速度快)。
后來,“3V”這個特征理論,逐漸被業界所接受,成為描述大數據特征的標準。
再后來,在“3V”的基礎上,業界的一些專家們又陸續提出了“4V”、“5V”,甚至“7V”,包括:
Veracity(真實性)、Value(價值密度)、Variability(變異性)、Visualization(可視性)等。
所有這些V,就變成了對大數據特征的新定義。
接下來,我們就分別看看,這些“V”具體是什么意思。
█ No.1 :Volume(體量大)
大數據,到底有多大?
我們傳統PC和手機處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。TB、GB、MB、KB的關系,大家應該都很熟悉了:1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte) 1 GB = 1024 MB (GB - gigabyte) 1 TB = 1024 GB (TB - terabyte) 而大數據是什么級別呢?PB/EB級別。1 PB = 1024 TB (PB - petabyte) 1 EB = 1024 PB (EB - exabyte) 只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。
EB還不是最大的。目前全人類的數據量,是ZB級。1 ZB = 1024 EB (ZB - zettabyte)
根據IDC的數據,在2020年,全球創建、捕獲、復制和消耗的數據總量約為64ZB。而到了2025年,全球數據總量可能會達到驚人的163ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比196個鳥巢體育場還大。
人類社會的數據體量不僅大,增長速度也很快——每年增長50%。也就是說,每兩年就會增長一倍多。
數據的增長,為什么會如此之快?說到這里,就要回顧一下人類社會數據產生的三個重要階段。第一個階段,是1940-1990年。
計算機和數據庫被發明之后,數據管理的復雜度大大降低。各行各業開始產生了計算機數據,并記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,是被動的。第二個階段,是1990-2010年。
伴隨著互聯網的爆發,網絡內容開始迅速增長,增加了很多的專業輸出內容(PGC)。Web2.0出現后,人們開始使用博客、facebook、youtube這樣的社交網絡,輸出大量的用戶原創內容(UGC),從而主動產生了大量的數據。移動智能終端時代的到來,也加速了該階段數據的產生。第三個階段,是2010年至今。
隨著物聯網的發展,各種各樣的感知層節點(例如遍布各個角落的傳感器、攝像頭)開始自動產生大量的數據。企業的數字化轉型,構建了大量的系統,沉淀和管理這些數據。人類的數據總量,再次躍升。
經過了“被動-主動-自動”這三個階段的發展,最終導致了人類數據總量的爆炸式膨脹。值得一提的是,如今,隨著我們逐漸進入AI智能時代,很可能會迎來第四次數據暴增階段。以AIGC為代表的智能機器生產內容,正在急劇增加。
█ No.2 :Variety(多樣化)
多樣性主要體現在三個方面——數據來源多、數據類型多和數據之間關聯性強。
數據來源多:如前面所說,數據來源于不同的應用系統和設備。
例如,企業所產生的營銷數據、業務系統數據、生產數據等,互聯網行業所產生的社交內容數據、訂單數據、用戶數據等,政府部門所產生的社會治理數據、地理數據、經濟數據等。數據類型多:
數據又分為結構化數據、非結構化數據和半結構化數據。
結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。
結構化數據
而網頁文章、郵件內容、圖像、音頻、視頻等,都屬于非結構化數據。
半結構化數據,介于結構化和非結構化數據之間。如XML、JSON等格式的數據,它們有一定的組織形式,但不如結構化數據那樣嚴格。
目前,非結構化數據的占比是最高的。例如,在互聯網領域里,非結構化數據的占比已經超過了80%。數據之間關聯性強:
數據與數據之間,有一定的關聯性,而且頻繁交互。
例如,游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強的關聯性。
█ No.3 :Velocity(速度快)
這個特性,指的是大數據的產生速度快、處理速度快、傳播速度快。從數據的生成到消耗,時間窗口非常小。
數據產生速度快,體現在生產生活中的方方面面。
我們還是用數字來說話:就在剛剛過去的這一分鐘,數據世界里發生了什么?Email:2000萬封被發出Google:380萬次搜索請求被提交Youtube:2100分鐘的視頻被上傳Facebook:69.5萬條狀態被更新12306:9000張車票被賣出……怎么樣?是不是瞬息萬變?
數據處理速度快,體現在大數據可以在實時分析和決策需求的推動下,通過實時處理、并行處理等方式,快速對所產生的數據進行處理。
這就要求大數據系統具備高并發、低延遲的能力。舉例來說,大數據所采用的流式處理技術,能夠在數據不斷產生的同時進行實時處理,確保系統能夠及時獲取并利用最新的信息。
數據傳播速度快,體現在大數據與以往的檔案、廣播、報紙等傳統數據載體不同。大數據的交換和傳播,是通過互聯網等方式實現的,遠比傳統媒介信息交換的傳播速度快。
█No.4 :Veracity(真實性)
數據很多,但也要真實才行。
大數據的真實性,指的是數據的質量和可信度。
在大數據環境中,由于數據來源廣泛且多樣,就會導致容易出現錯誤、冗余和不一致的數據,進而影響到最終分析的準確性和可靠性。確保大數據的真實性,需要采用數據清洗、元數據管理、數據治理等手段。
此外,隨著技術的發展,越來越多的技術工具和服務被開發出來,用于對大數據真實性的管理和優化。例如數據驗證工具、自動化的數據清理流程、先進的統計方法用于檢測異常值等。
█ No.5 :Value(價值密度)
大數據的數據量很大,但隨之帶來的,就是價值密度很低。數據中真正有價值的,只是其中的很少一部分。例如通過監控視頻尋找犯罪分子的相貌,也許數十TB的視頻文件,真正有價值的,只有幾秒鐘。
例如,2014年美國波士頓爆炸案,現場調取了10TB的監控數據(包括移動基站的通訊記錄,附近商店、加油站、報攤的監控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。這張照片的價值,毋庸置疑。
大數據中包含很多低價值的信息,而且,信息碎片化的情況嚴重。因此,需要通過深度分析和挖掘,才能發現有用的內容。
數據挖掘、機器學習和人工智能等技術,正在逐漸提升數據分析和挖掘的效率,幫助人們從低價值密度的數據中提取高價值的信息。
█ No.6 :Variability(變異性)
不要怕!這里的變異,并不是生化危機。
大數據的變異性,指的是數據在處理過程中可能發生變化的能力,也可以理解為數據的動態性、不確定性。變異性包括幾個方面:數據分布的不均勻性。
大數據集合可能包含來自不同來源、不同時間、不同地點的數據,這使得數據的分布呈現出不均勻性。不同的子集,可能具有不同的統計性質。在數據分析和建模時,需要考慮這個因素。數據的動態性。
大數據往往是動態變化的,尤其是實時場景(例如股價)。變化速度,也從以前的秒級,變成了現在的毫秒級,甚至更短。這就要求大數據系統和技術必須能夠適應這個動態變化的特性。數據質量的波動。
前面說了,大數據中可能包含大量的噪音、異常值和錯誤。這些負面因素,也可能隨時間變化,導致數據質量出現明顯波動。環境因素的影響。
大數據的變異性,還可能受到環境因素的影響,如天氣、地理位置、社會事件等。對于一些特殊場景的大數據應用,需要考慮這些外部因素可能導致的變化。
█No.7 :可視性(Visualization)
這個大家應該比較熟悉。我們現在在很多的政府部門和企業,都會看到數據大屏,其實也就是可視性的一種體現。
大數據的可視性,是指利用圖形化、圖像化的方式,對大數據進行呈現。這種方式,可以更直觀地展示數據的模式、趨勢和關系,快速把握數據的關鍵特征。
可視化,能夠幫助人們更好地理解和解釋復雜的數據集,提高對信息的洞察力,促使更明智的決策。除了觀看之外,可視化也可以借助輔助工具,提供一些交互性功能。
例如,用戶能夠自由選擇感興趣的數據子集、調整視圖參數,從而更靈活地進行數據探索。這有助于用戶深入挖掘數據,找到其中的規律和異常。
█最后的話
好啦,以上就是大數據的7V特性。
當然了,這些特性定義,除了前幾個以外,并沒有一個官方的認可。如果你愿意,也可以再想一個V,變成8V。
作為一種全新的思維方式和商業模式,大數據正在改變我們的工作和生活。下一期,小棗君再和大家詳細聊聊,大數據到底有哪些應用場景,能發揮什么樣的作用和價值。
敬請關注!
-
軟件
+關注
關注
69文章
4921瀏覽量
87394 -
數據中心
+關注
關注
16文章
4761瀏覽量
72033 -
大數據
+關注
關注
64文章
8882瀏覽量
137396
發布評論請先 登錄
相關推薦
評論