四虎院5151hhcom,亚洲国产欧美在线成人aaaa,在线国产精品

今年廣州的六月，在經歷了大雨的洗禮之后，一切都變得更加明朗起來，新的工作，新的人和事。懶惰讓我變得更焦慮，焦慮促使我進步，程序員的焦慮大家應該都有共同的感覺，時代的步伐太快了，在這個環境下的軟件開發一定會淘汰掉那些不懂得學習，懶惰的人。

希望跟大家共勉。

今天呢，博主主要回顧這兩年來，在大數據行業公司從事大數據類的前端開發的工作。最近剛剛換了一份工作，把我的經驗稍作總結分享給大家，有什么建議大家在評論區踴躍。謝謝。

今天的主題，主要是從大數據開發的角度，到大數據治理的必要性，再到圖形化建模的暢想，最后在數據質量的把關，然后到大數據可視化的應用，博主總結兩年的見聞，和我學習的成果，也不知理解有無偏差吧，希望大家能給出建議。

大數據開發

大數據開發，有幾個階段：

1.數據采集【原始數據】

2.數據匯聚【經過清洗合并的可用數據】

3.數據轉換和映射【經過分類，提取的專項主題數據】

4.數據應用【提供api 智能系統應用系統等】

數據采集

數據采集有線上和線下兩種方式，線上一般通過爬蟲、通過抓取，或者通過已有應用系統的采集，在這個階段，我們可以做一個大數據采集平臺，依托自動爬蟲（使用python或者nodejs制作爬蟲軟件），ETL工具、或者自定義的抽取轉換引擎，從文件中、數據庫中、網頁中專項爬取數據，如果這一步通過自動化系統來做的話，可以很方便的管理所有的原始數據，并且從數據的開始對數據進行標簽采集，可以規范開發人員的工作。并且目標數據源可以更方便的管理。

數據采集的難點在于多數據源，例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統計文檔、甚至是doc文件。如何將他們規整的、有方案的整理進我們的大數據流程中也是必不可缺的一環。

數據匯聚

數據的匯聚是大數據流程最關鍵的一步，你可以在這里加上數據標準化，你也可以在這里做數據清洗，數據合并，還可以在這一步將數據存檔，將確認可用的數據經過可監控的流程進行整理歸類，這里產出的所有數據就是整個公司的數據資產了，到了一定的量就是一筆固定資產。

數據匯聚的難點在于如何標準化數據，例如表名標準化，表的標簽分類，表的用途，數據的量，是否有數據增量？，數據是否可用？需要在業務上下很大的功夫，必要時還要引入智能化處理，例如根據內容訓練結果自動打標簽，自動分配推薦表名、表字段名等。還有如何從原始數據中導入數據等。

數據轉換和映射

經過數據匯聚的數據資產如何提供給具體的使用方使用？在這一步，主要就是考慮數據如何應用，如何將兩個？三個？數據表轉換成一張能夠提供服務的數據。然后定期更新增量。

經過前面的那幾步，在這一步難點并不太多了，如何轉換數據與如何清洗數據、標準數據無二，將兩個字段的值轉換成一個字段，或者根據多個可用表統計出一張圖表數據等等。

數據應用

數據的應用方式很多，有對外的、有對內的，如果擁有了前期的大量數據資產，通過restful API提供給用戶？或者提供流式引擎 KAFKA 給應用消費? 或者直接組成專題數據，供自己的應用查詢？這里對數據資產的要求比較高，所以前期的工作做好了，這里的自由度很高。

總結：大數據開發的難點

大數據開發的難點主要是監控，怎么樣規劃開發人員的工作？開發人員隨隨便便采集了一堆垃圾數據，并且直連數據庫。短期來看，這些問題比較小，可以矯正。但是在資產的量不斷增加的時候，這就是一顆定時炸彈，隨時會引爆，然后引發一系列對數據資產的影響，例如數據混亂帶來的就是數據資產的價值下降，客戶信任度變低。

如何監控開發人員的開發流程？

答案只能是自動化平臺，只有自動化平臺能夠做到讓開發人員感到舒心的同時，接受新的事務，拋棄手動時代。

這就是前端開發工程師在大數據行業中所占有的優勢點，如何制作交互良好的可視化操作界面？如何將現有的工作流程、工作需求變成一個個的可視化操作界面？可不可以使用智能化取代一些無腦的操作？

從一定意義上來說，大數據開發中，我個人認為前端開發工程師占據著更重要的位置，僅次于大數據開發工程師。至于后臺開發，系統開發是第三位的。好的交互至關重要，如何轉換數據，如何抽取數據，一定程度上，都是有先人踩過的坑，例如kettle，再例如kafka，pipeline ，解決方案眾多。關鍵是如何交互？怎么樣變現為可視化界面？這是一個重要的課題。

現有的各位朋友的側重點不同，認為前端的角色都是可有可無，我覺得是錯誤的，后臺的確很重要，但是后臺的解決方案多。前端實際的地位更重要，但是基本無開源的解決方案，如果不夠重視前端開發，面臨的問題就是交互很爛，界面爛，體驗差，導致開發人員的排斥，而可視化這塊的知識點眾多，對開發人員的素質要求更高。

大數據治理

大數據治理應該貫穿整個大數據開發流程，它有扮演著重要的角色，淺略的介紹幾點：

數據血緣

數據質量審查

全平臺監控

數據血緣

從數據血緣說起，數據血緣應該是大數據治理的入口，通過一張表，能夠清晰看見它的來龍去脈，字段的拆分，清洗過程，表的流轉，數據的量的變化，都應該從數據血緣出發，我個人認為，大數據治理整個的目標就是這個數據血緣，從數據血緣能夠有監控全局的能力。

數據血緣是依托于大數據開發過程的，它包圍著整個大數據開發過程，每一步開發的歷史，數據導入的歷史，都應該有相應的記錄，數據血緣在數據資產有一定規模時，基本必不可少。

數據質量審查

數據開發中，每一個模型（表）創建的結束，都應該有一個數據質量審查的過程，在體系大的環境中，還應該在關鍵步驟添加審批，例如在數據轉換和映射這一步，涉及到客戶的數據提供，應該建立一個完善的數據質量審查制度，幫助企業第一時間發現數據存在的問題，在數據發生問題時也能第一時間看到問題的所在，并從根源解決問題，而不是盲目的通過連接數據庫一遍一遍的查詢sql。

全平臺監控

監控呢，其實包含了很多的點，例如應用監控，數據監控，預警系統，工單系統等，對我們接管的每個數據源、數據表都需要做到實時監控，一旦發生殆機，或者發生停電，能夠第一時間電話或者短信通知到具體負責人，這里可以借鑒一些自動化運維平臺的經驗的，監控約等于運維，好的監控提供的數據資產的保護也是很重要的。

大數據可視化

大數據可視化不僅僅是圖表的展現，大數據可視化不僅僅是圖表的展現，大數據可視化不僅僅是圖表的展現，重要的事說三遍，大數據可視化歸類的數據開發中，有一部分屬于應用類，有一部分屬于開發類。

在開發中，大數據可視化扮演的是可視化操作的角色，如何通過可視化的模式建立模型？如何通過拖拉拽，或者立體操作來實現數據質量的可操作性？畫兩個表格加幾個按鈕實現復雜的操作流程是不現實的。

在可視化應用中，更多的也有如何轉換數據，如何展示數據，圖表是其中的一部分，平時更多的工作還是對數據的分析，怎么樣更直觀的表達數據？這需要對數據有深刻的理解，對業務有深刻的理解，才能做出合適的可視化應用。

智能的可視化平臺

可視化是可以被再可視化的，例如superset，通過操作sql實現圖表，有一些產品甚至能做到根據數據的內容智能分類，推薦圖表類型，實時的進行可視化開發，這樣的功能才是可視化現有的發展方向，我們需要大量的可視化內容來對公司發生產出，例如服裝行業，銷售部門：進貨出貨，顏色搭配對用戶的影響，季節對選擇的影響生產部門：布料價格走勢？產能和效率的數據統計？等等，每一個部門都可以有一個數據大屏，可以通過平臺任意規劃自己的大屏，所有人每天能夠關注到自己的領域動向，這才是大數據可視化應用的具體意義。

寫在最后

洋洋灑灑寫了很多，對我近兩年的所見所聞所學所想進行了一些總結，有些童鞋會問，不是技術么？為什么沒有代碼？博主要說，代碼博主要學的，要寫的，但是與工作無關，代碼是我個人的技能，個人傍身，實現個人想法的重要技能。但是，代碼與業務的關系不大，在工作中，懂業務的人代碼寫的更好，因為他知道公司想要什么。如果你業務很差，那也沒關系，你代碼好就行了呀，根據別人的交代干活，也是很不錯的。技術和業務是相輔相成的，稍后博主總結代碼的精進。

寫完了，博主的焦慮一絲未少，我的代碼規范性不夠，目前技術棧js、java、nodejs、python 。

主業js熟練度80%吧，正在研究阮一峰的es6（看的差不多）和vuejs的源碼（有點擱淺），vuejs算是中等，css和布局方面可以說還可以，另外d3.js，go.js都是處于會用，能干活。 nodejs呢，express和koa無問題，看過一些express的源代碼，還寫過兩個中間件。

java、python都處于能做項目的程度，目前也不想抽很多精力去深入它們，就想要保持在想用能用的地步吧。

未來的幾年，博主努力工作，多學學人工智能、大數據開發的知識，未來這塊應該還有一些熱度的吧。

最后，和大家共勉，更希望大家能給一些規劃建議，三人行，必有我師焉。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴