大數據的發展越來越貼近我們的生活,但是很多卻依然不是很了解什么是大數據,大數據有什么作用。現在大數據不僅僅是網絡資訊,技術論壇甚至新聞上都有它的身影。說明不僅僅是企業,連國家都在部署大數據戰略,但是很多人卻依然云里霧里不清楚這個到底是個啥?直到有一天發現,只要你無意中搜索過什么,那么網頁、APP等都會跳出你搜索過得相關產品或者關聯事物,淘寶推薦的商品也越來越符合你的心意。
其實大數據,就是算法!它可以“算”出你的“心意”。
那么問題來了,大數據技術是怎么樣采集到信息的呢?
數據采集,又稱數據獲取,是通過一種設備,從系統外部采集到數據輸入到系統內部的一種技術。
在如今互聯網行業技術快速發展的今天,數據采集廣泛應用于互聯網及分布式領域,例如攝像頭、麥克風等,都是數據采集的工具。數據采集系統還集合了信號、傳感器、激勵器、信號調理、數據采集設備和軟件應用。
現在是一個數據大爆炸的互聯網時代,數據類型同樣也是復雜多樣的,包括結構化數據、半結構化數據、非結構化數據。結構化最常見,就是具有模式的數據。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。
大數據采集是大數據分析至關重要的的一個環節,也是大數據分析的入口。
我們首先來了解一下數據采集的三大要點:
(1)全面性:數據量足夠具有分析價值、數據面足夠支撐分析需求。
比如對于“查看商品詳情”這一行為,需要采集用戶觸發時的環境信息、會話、以及背后的用戶id,最后需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。
(2)多維性:數據更重要的是能滿足分析需求。
靈活、快速自定義數據的多種屬性和不同類型,從而滿足不同的分析目標。比如“查看商品詳情”這一行為,通過埋點,我們才能知道用戶查看的商品是什么、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什么類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進入了商品詳情頁。
(3)高效性:高效性包含技術執行的高效性、團隊內部成員協同的高效性以及數據分析需求和目標實現的高效性。
也就是說采集數據一定要明確采集目的,帶著問題搜集信息,使信息采集更高效、更有針對性。
此外,還要考慮數據的及時性。不同應用領域的大數據其特點、數據量、用戶群體均不相同,不同領域根據數據源的物理性質及數據分析的目標采取不同的數據采集方法。
下面我們來了解一下常用的數據采集方法:
1.傳感器采集方法
傳感器通常用于測量物理變量,一般包括聲音、溫濕度、距離、電流等,將測量值轉化為數字信號,傳送到數據采集點,讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。
2.網絡爬蟲采集方法
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOFA社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。(百度百科)最常見的爬蟲便是我們經常使用的搜索引擎,如百度,360搜索等。此類爬蟲統稱為通用型爬蟲,對于所有的網頁進行無條件采集。
3.系統日志采集方法
很多互聯網企業都有自己的海量數據采集工具,多用于系統日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求。
4.其他數據采集方法
對于企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。
數據分析數據的采集是挖掘數據“石油”的第一步,當數據量越來越大時,可發掘的有價值的信息也就更多,反應信息也就越加全面。只有更加充分的利用數據化處理平臺,便可以保證分析結果的有效性和準確性,只有這樣才能更加有效的助力企業實現驅動的數據化。
-
數據采集
+關注
關注
39文章
6131瀏覽量
113711 -
大數據
+關注
關注
64文章
8894瀏覽量
137480 -
大數據分析
+關注
關注
1文章
134瀏覽量
16901
發布評論請先 登錄
相關推薦
評論