大數(shù)據(jù)如果應(yīng)用不當(dāng)可能很容易失控,并可能消耗企業(yè)資源和預(yù)算。在這里將介紹避免混亂的一些大數(shù)據(jù)的最佳實(shí)踐。
大數(shù)據(jù)可以為用戶提供卓越的洞察力,也有可能讓企業(yè)不堪重負(fù)。而企業(yè)根據(jù)其收集數(shù)據(jù)做出自己的選擇。企業(yè)面臨的主要問題是大數(shù)據(jù)是由技術(shù)專業(yè)人員收集的技術(shù)解決方案,但最佳實(shí)踐是其業(yè)務(wù)流程。
由于資源和輸入設(shè)備得到爆炸式增長(zhǎng),人們收集到的數(shù)據(jù)比以往更多。根據(jù)IBM公司的調(diào)查,大多數(shù)美國(guó)公司存儲(chǔ)的數(shù)據(jù)量為100TB,而美國(guó)的政府部門和企業(yè)每年因數(shù)據(jù)損壞而造成損失高達(dá)3.1萬億美元。
然而,企業(yè)創(chuàng)建數(shù)據(jù)湖或數(shù)據(jù)倉庫并將它們存滿數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)未被使用或曾被使用過。企業(yè)的數(shù)據(jù)湖將快速積累成為存滿數(shù)據(jù)的信息池。
最基本的問題是許多數(shù)據(jù)只得到了部分處理或完全偏離了基礎(chǔ)。數(shù)據(jù)收集不正確或收集手段沒有正確定義。企業(yè)的業(yè)務(wù)很明顯與大數(shù)據(jù)有關(guān)。
這對(duì)于商業(yè)數(shù)據(jù)庫中使用的常規(guī)的、日常的、小級(jí)別的數(shù)據(jù)來說是個(gè)小問題。對(duì)于企業(yè)來說,需要大數(shù)據(jù)處理大量的信息。因?yàn)槠鋽?shù)據(jù)的規(guī)模巨大,獲得收益或混淆的可能性也越大。因此,“正確”變得更為重要。
那么在大數(shù)據(jù)中“正確”意味著什么呢?
大數(shù)據(jù)最佳實(shí)踐:8個(gè)關(guān)鍵原則
事實(shí)是,“大數(shù)據(jù)的最佳實(shí)踐”的概念正在演變,因?yàn)閿?shù)據(jù)分析領(lǐng)域本身正在迅速發(fā)展。不過,企業(yè)需要與可能的最佳策略進(jìn)行競(jìng)爭(zhēng)。因此提出一些最佳實(shí)踐,希望企業(yè)能夠避免被大量無用數(shù)據(jù)淹沒,不會(huì)淹沒在數(shù)據(jù)湖中。
1. 定義大數(shù)據(jù)業(yè)務(wù)目標(biāo)
IT行業(yè)有一個(gè)壞習(xí)慣,就是像Hadoop集群這樣的新鮮事物容易分散人們的注意力。在企業(yè)開始利用大數(shù)據(jù)分析過程之前,了解業(yè)務(wù)需求和目標(biāo)應(yīng)該是企業(yè)采取的第一步,也是最重要的一步。企業(yè)用戶必須明確他們想要的結(jié)果。
這是企業(yè)管理層必須率先實(shí)現(xiàn),并且在技術(shù)方面必須遵循的地方。如果企業(yè)的管理層沒有明確的業(yè)務(wù)目標(biāo),那么將不能收集并正確創(chuàng)建數(shù)據(jù)。很多組織收集了一切能夠收集的數(shù)據(jù),然后再去清除他們不需要的東西。這會(huì)造成很多不必要的工作,因此企業(yè)應(yīng)該清理出所需要的信息,而不是收集全部信息。
2. 評(píng)估并與合作伙伴制定戰(zhàn)略
大數(shù)據(jù)項(xiàng)目不應(yīng)該由IT部門孤立完成。它必須涉及數(shù)據(jù)所有者,這將是一個(gè)業(yè)務(wù)部門,或者是一個(gè)提供大數(shù)據(jù)技術(shù)的供應(yīng)商或咨詢機(jī)構(gòu),這些供應(yīng)商可以為組織帶來外部的視角和眼光,并評(píng)估組織當(dāng)前的情況。
在制定戰(zhàn)略的過程中,應(yīng)該持續(xù)進(jìn)行檢查,以確保企業(yè)收集所需的數(shù)據(jù),并且會(huì)為企業(yè)提供所需的見解,就像廚師在整個(gè)烹飪過程中時(shí)刻檢查自己的工作一樣。而不只是收集所有內(nèi)容之后再進(jìn)行檢查,因?yàn)槿绻诖似陂g數(shù)據(jù)出錯(cuò),這意味著檢查數(shù)據(jù)要一直回溯到起點(diǎn),并在不必要的時(shí)候啟動(dòng)。
企業(yè)通過與那些從項(xiàng)目中獲益的人一起工作,可以確保一起參與進(jìn)來,從而取得成功。
3. 企業(yè)確定自己擁有什么以及在大數(shù)據(jù)中需要什么
大量的數(shù)據(jù)并不等同于良好可用的數(shù)據(jù)。企業(yè)可能會(huì)在某個(gè)地方將正確的數(shù)據(jù)混合在一起,但它會(huì)由企業(yè)自己決定。收集的隨機(jī)數(shù)據(jù)越多,越是經(jīng)常雜亂無章,形式各異。
同樣重要的是確定企業(yè)所擁有的是其所沒有的東西。一旦收集了項(xiàng)目所需的數(shù)據(jù),就確定可能缺少什么,在這些工作開始之前一定要把一切都準(zhǔn)備好。
企業(yè)并不總是能夠事先知道需要什么數(shù)據(jù)字段,所以一定要確保軟件的靈活性,以便在實(shí)施過程中調(diào)整。這與確定企業(yè)擁有什么以及在大數(shù)據(jù)中需要什么的理念相吻合。
其底線是企業(yè)必須測(cè)試數(shù)據(jù)并檢查結(jié)果。企業(yè)可能會(huì)驚訝地發(fā)現(xiàn)沒有得到需要的答案。在企業(yè)首先開展該項(xiàng)目之前,最好先找出答案。
4. 保持持續(xù)的溝通和評(píng)估
有效的協(xié)作需要利益相關(guān)者和IT部門之間的持續(xù)溝通。企業(yè)的目標(biāo)可能會(huì)在項(xiàng)目的進(jìn)行期間發(fā)生變化,如果發(fā)生這種情況,必須將變更信息傳達(dá)給IT部門。企業(yè)可能需要停止收集一種形式的數(shù)據(jù),并開始收集另一種形式的數(shù)據(jù)。企業(yè)不希望這種情況持續(xù)下去。
繪制一張清晰的地圖,在某些地點(diǎn)打破預(yù)期或期望的結(jié)果。如果是一個(gè)為期12個(gè)月的項(xiàng)目,每三個(gè)月檢查一次。這給了企業(yè)一個(gè)復(fù)習(xí)和改變課程的機(jī)會(huì)。
5. 如果啟動(dòng)緩慢,需要利用大數(shù)據(jù)快速反應(yīng)
企業(yè)開展的第一個(gè)大數(shù)據(jù)項(xiàng)目不應(yīng)該過于雄心勃勃。需要要從概念驗(yàn)證或試點(diǎn)項(xiàng)目開始,這樣的項(xiàng)目規(guī)模相對(duì)較小,并且易于管理。
選擇企業(yè)想改善業(yè)務(wù)流程的一個(gè)領(lǐng)域,但是在事情出錯(cuò)或錯(cuò)誤嚴(yán)重的情況下它不會(huì)有太大的影響。另外,如果問題不需要解決,不要強(qiáng)迫采用大數(shù)據(jù)解決方案。
企業(yè)還應(yīng)該使用敏捷技術(shù)和迭代方法來實(shí)現(xiàn)。敏捷是一種操作手段,并不局限于開發(fā)。敏捷開發(fā)是什么?例如寫一小段代碼,然后開始測(cè)試多種方法,然后再添加,再進(jìn)行徹底測(cè)試、沖洗、重復(fù)。這是一種可以應(yīng)用于任何過程的方法,而不僅僅是編程。
使用敏捷和迭代實(shí)現(xiàn)技術(shù),可以根據(jù)當(dāng)前需求在短時(shí)間內(nèi)提供快速解決方案,而不是一次性瀑布方法。
6. 評(píng)估大數(shù)據(jù)技術(shù)要求
根據(jù)調(diào)研機(jī)構(gòu)IDC公司的數(shù)據(jù),絕大多數(shù)數(shù)據(jù)是非結(jié)構(gòu)化的,可能高達(dá)90%。但是企業(yè)仍然需要查看數(shù)據(jù)來自哪里以確定最佳數(shù)據(jù)存儲(chǔ)。企業(yè)可以選擇SQL或NoSQL以及兩種數(shù)據(jù)庫的各種變體。
企業(yè)需要實(shí)時(shí)洞察力還是在做事后評(píng)估?可能需要Apache Spark進(jìn)行實(shí)時(shí)處理,或者可以使用Hadoop(這是一個(gè)批處理過程)。還有用于分散在多個(gè)地點(diǎn)的數(shù)據(jù)的地理數(shù)據(jù)庫,這可能是具有多個(gè)地點(diǎn)和數(shù)據(jù)中心的公司的要求。
另外,企業(yè)需要查看每個(gè)數(shù)據(jù)庫的具體分析功能,看看它們是否適用。IBM公司收購了高性能分析設(shè)備商N(yùn)etezza公司,而Teradata和Greenplum嵌入了SAS加速器,Oracle在其Exadata系統(tǒng)的分析中使用了R語言的特殊實(shí)現(xiàn),PostgreSQL具有特殊的分析編程語法。因此,需要查看這些工具如何能夠滿足其需求。
7. 與云中的大數(shù)據(jù)保持一致
企業(yè)在采用云計(jì)算時(shí)必須謹(jǐn)慎,因?yàn)榭赡懿捎冒戳坑?jì)費(fèi),而大數(shù)據(jù)意味著要處理大量數(shù)據(jù)。但是,云計(jì)算也有很多優(yōu)點(diǎn)。公共云可以即時(shí)或至少非??焖俚剡M(jìn)行配置和擴(kuò)展。Amazon EMR和Google BigQuery等服務(wù)允許快速建立原型。
首先是使用它來快速構(gòu)建企業(yè)的環(huán)境原型。使用數(shù)據(jù)子集和亞馬遜和微軟等云計(jì)算提供商提供的許多工具,企業(yè)可以在幾個(gè)小時(shí)內(nèi)建立、開發(fā)和測(cè)試環(huán)境,并將其用于測(cè)試平臺(tái)。然后,當(dāng)企業(yè)制定出一個(gè)堅(jiān)實(shí)的運(yùn)營(yíng)模式時(shí),將其移回內(nèi)部部署的數(shù)據(jù)中心進(jìn)行工作。
云計(jì)算的另一個(gè)優(yōu)點(diǎn)是企業(yè)收集的大部分?jǐn)?shù)據(jù)都可能駐留在那里。在這種情況下,企業(yè)沒有理由將數(shù)據(jù)轉(zhuǎn)移到內(nèi)部部署數(shù)據(jù)中心。許多數(shù)據(jù)庫和大數(shù)據(jù)應(yīng)用程序都支持來自云計(jì)算和本地的各種數(shù)據(jù)源,因此,如果企業(yè)在云中收集數(shù)據(jù),請(qǐng)務(wù)必將其留在那里。
8. 管理企業(yè)的大數(shù)據(jù)人才,并一直關(guān)注合規(guī)性和訪問的問題
大數(shù)據(jù)是一個(gè)新興的領(lǐng)域,而不是像Python或Java編程這些可以自學(xué)成才的領(lǐng)域。麥肯錫全球研究院的一項(xiàng)研究表明,2018年全球?qū)⑷狈?40至190萬名擁有必要專業(yè)知識(shí)的人員,另外還缺乏基于分析結(jié)果作出決策的150萬名相關(guān)管理人員和分析師。
首先必須明確的是誰應(yīng)該有權(quán)訪問數(shù)據(jù),以及有多少訪問權(quán)限。數(shù)據(jù)隱私是當(dāng)今的一個(gè)主要問題,尤其是歐洲即將實(shí)施嚴(yán)格的通用數(shù)據(jù)保護(hù)條例(GDPR),這將對(duì)企業(yè)的數(shù)據(jù)使用造成嚴(yán)格的限制。
企業(yè)確保清除所有數(shù)據(jù)隱私問題以及誰有權(quán)訪問敏感數(shù)據(jù)。企業(yè)應(yīng)該關(guān)注其他治理問題,如營(yíng)業(yè)額?確定哪些數(shù)據(jù)(如果有的話)可以進(jìn)入公共云,哪些數(shù)據(jù)必須保留在本地部署數(shù)據(jù)中心,以及誰控制什么。
最后,雖然一些高校正在為數(shù)據(jù)科學(xué)設(shè)置和增加相關(guān)課程,但這些課程并沒有標(biāo)準(zhǔn),每個(gè)課程計(jì)劃在重點(diǎn)和技能方面都略有不同。所以,有時(shí)企業(yè)并不需要招聘具有數(shù)據(jù)科學(xué)碩士學(xué)位的技術(shù)人員,因?yàn)樗麄兛赡懿涣私馄髽I(yè)使用的工具或其所在的行業(yè)。再次,鑒于技能短缺的情況,企業(yè)可能需要做到這一點(diǎn),可以在垂直行業(yè)中培訓(xùn)他們。
評(píng)論
查看更多