大數據工程師工作內容取決于你工作在數據流的哪一個環節。
從數據上游到數據下游,大致可以分為:
數據采集 -》 數據清洗 -》 數據存儲 -》 數據分析統計 -》 數據可視化 等幾個方面
工作內容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現上面幾個方面的功能。
很多初學者,對大數據的概念都是模糊不清的,大數據是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大數據學習qq群:522189307,有大量干貨(零基礎以及進階的經典實戰)分享給大家,并且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系
具體說說吧,
數據采集:
業務系統的埋點代碼時刻會產生一些分散的原始日志,可以用Flume監控接收這些分散的日志,實現分散日志的聚合,即采集。
數據清洗:
原始的日志,數據是千奇百怪的
一些字段可能會有異常取值,即臟數據。為了保證數據下游的“數據分析統計”能拿到比較高質量的數據,需要對這些記錄進行過濾或者字段數據回填。
一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節省存儲開銷,需要刪除這些多余的字段信息。
一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用‘*’字符替換。
數據存儲:
清洗后的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的“數據分析統計”對實時性要求比較高,則可以把日志記錄入到kafka。
數據分析統計:
數據分析是數據流的下游,消費來自上游的數據。其實就是從日志記錄里頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,復雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。
數據可視化:
用數據表格、數據圖等直觀的形式展示上游“數據分析統計”的數據。一般公司的某些決策會參考這些圖表里頭的數據~
當然,大數據平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數據工程師工作內容的一部分喔~
-
工程師
+關注
關注
59文章
1569瀏覽量
68504 -
大數據
+關注
關注
64文章
8882瀏覽量
137401
發布評論請先 登錄
相關推薦
評論