從進入大學,我就常在思考,未來要做什么,自己的興趣是什么。我的大學階段,在保證本專業的成績優秀的情況下,我盡一切努力探索更多未知的領域。參加過全國物流設計大賽,電子商務大賽,機械設計大賽,創新創業大賽,全國大學生數學建模大賽,還參與各種社團,學生活動,只是為了找尋真正喜歡的方向。后面,我發現能從心底里感興趣,真正喜歡的就是參與數學建模的整個過程,這也在最后奠定了以后的方向。
保研后,在完成學校所有的論文要求和實驗室項目的同時,我開啟了數據分析的實習道路,現在已經在互聯網實習快一年了,記錄一下所有的成長歷程吧!
首先是面試,有兩輪的面試,因為是技術崗,第一個面試官問了兩個算法題和一個數學題,第二個面試官問了一個用sql處理數據的問題和兩個數學題,而第二個面試官就是我們數據組的老大。
開始的一周,需要搭建跳板機,vpn和git的環境,接著就開始工作了。
我們組的工作內容:
我們組的工作是分析公司各業務的log日志,包括服務器和客戶端,還有每個業務服務的數據庫中的數據。最后搭建數據倉庫,完成一整套數據收集,處理,分析到展示的過程,其中還涉及監控和報警,有離線數據還有實時數據的分析。我們提供一個數據報表展示平臺,每一個報表由運維,產品,運營,服務器開發等同事提出數據需求,最后由我們完成,同時,我們還會處理各種臨時需求,數據分析等工作,并提供一個方便大家查詢數據的sql查詢接口。
技術流:
首先,各業務的產品經理想要分析某個點擊行為或者功能,需要和對應的開發,和我們組協商打點的數據格式,參數,對應的服務器名,日志路徑,或者jdbc,庫名與表名,對應的字段名稱,具體業務邏輯和含義。業務產品需要給我們提出數據分析需求,不同的維度的篩選,統計指標的定義。接著需要大數據工程師,如果是離線數據,需要用sqoop將數據導入hdfs上,存入規定地標準路徑和文件中,建立partition以天為分區。然后數據分析工程師需要搭建整個數據倉庫,公司的數據倉庫是用php搭建的框架,對應格式基本一致的數據源,用hive建表,可以對應csv,用jave寫serde進行解析等方式處理,如果是非格式化且記錄之間的格式變動較大,需要用pig處理,pig中調用python,處理后再用hive建表,也有需要用r進行處理的數據,最后數據經過ods,dw層以hive表記錄,到最后dm層時實現產品最后的統計分析需求,dm以mysql表記錄,數據倉庫的建立需要伴隨著業務不斷修改邏輯,最后展示到web中,web中還需要進行一些簡單的sql進行展示,用js插件可以調用不用的數據展示形式。實時數據是用kafak進行收集,然后實時查詢,離線數據是晚上12:00開始跑job,其中包括任務調度,依賴等的設置。如果有以月跑的數據,還crontab進行調度,有些數據還需要外部信息,比如ip地址的對應,手機型號等,要寫對應爬蟲收集相關數據。公司有三個業務,業務的數據還會內嵌,交叉統計,有時候某一個業務邏輯修改會影響很多數據的統計結果,因此數據分析工作是一個復雜的系統工程。
作為一個數據分析工程師,我的工作主要是分析離線數據,在產品提出需求后,分析要統計的邏輯,提出倒數需求log或mysql,建立數據倉庫hive,pig,python,php,從ods層到dm層寫出數據統計的邏輯,最后把數據放如mysql,最后配置web頁面,有時候會寫簡單的爬蟲,跑臨時數據,會用shell寫個簡單的腳本,用crontab進行調度等。倉庫的代碼用git管理。
結語:
喜歡我們組的氛圍,大家都熱愛各種創新的技術和分析方法,熱愛分享。很感激老大帶領我進入了公司,進入了我們組,感謝大家對我的幫助,開啟了我數據分析的道路。
-
工程師
+關注
關注
59文章
1569瀏覽量
68505 -
數據分析
+關注
關注
2文章
1445瀏覽量
34050
發布評論請先 登錄
相關推薦
評論