色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

你見證過Hadoop十年從無到有,再到稱王嘛?

gckX_aicapital ? 來源:陳年麗 ? 2019-07-17 14:19 ? 次閱讀

我們很榮幸能夠見證Hadoop十年從無到有,再到稱王。感動于技術的日新月異時,希望通過這篇內容深入解讀Hadoop的昨天、今天和明天,憧憬下一個十年。

本文分為技術篇、產業(yè)篇、應用篇、展望篇四部分

技術篇

2006年項目成立的一開始,“Hadoop”這個單詞只代表了兩個組件——HDFS和MapReduce。到現(xiàn)在的10個年頭,這個單詞代表的是“核心”(即Core Hadoop項目)以及與之相關的一個不斷成長的生態(tài)系統(tǒng)。這個和Linux非常類似,都是由一個核心和一個生態(tài)系統(tǒng)組成。

現(xiàn)在Hadoop在一月發(fā)布了2.7.2的穩(wěn)定版, 已經從傳統(tǒng)的Hadoop三駕馬車HDFS,MapReduce和HBase社區(qū)發(fā)展為60多個相關組件組成的龐大生態(tài),其中包含在各大發(fā)行版中的組件就有25個以上,包括數(shù)據(jù)存儲、執(zhí)行引擎、編程和數(shù)據(jù)訪問框架等。

Hadoop在2.0將資源管理從MapReduce中獨立出來變成通用框架后,就從1.0的三層結構演變?yōu)榱爽F(xiàn)在的四層架構:

底層——存儲層,文件系統(tǒng)HDFS

中間層——資源及數(shù)據(jù)管理層,YARN以及Sentry等

上層——MapReduce、Impala、Spark等計算引擎

頂層——基于MapReduce、Spark等計算引擎的高級封裝及工具,如Hive、Pig、Mahout等等

存儲層

HDFS已經成為了大數(shù)據(jù)磁盤存儲的事實標準,用于海量日志類大文件的在線存儲。經過這些年的發(fā)展,HDFS的架構和功能基本固化,像HA、異構存儲、本地數(shù)據(jù)短路訪問等重要特性已經實現(xiàn),在路線圖中除了Erasure Code已經沒什么讓人興奮的feature。

隨著HDFS越來越穩(wěn)定,社區(qū)的活躍度也越來越低,同時HDFS的使用場景也變得成熟和固定,而上層會有越來越多的文件格式封裝:列式存儲的文件格式,如Parquent,很好的解決了現(xiàn)有BI類數(shù)據(jù)分析場景;以后還會出現(xiàn)新的存儲格式來適應更多的應用場景,如數(shù)組存儲來服務機器學習類應用等。未來HDFS會繼續(xù)擴展對于新興存儲介質和服務器架構的支持。

2015年HBase 發(fā)布了1.0版本,這也代表著 HBase 走向了穩(wěn)定。最新HBase新增特性包括:更加清晰的接口定義,多Region 副本以支持高可用讀,F(xiàn)amily粒度的Flush以及RPC讀寫隊列分離等。未來HBase不會再添加大的新功能,而將會更多的在穩(wěn)定性和性能方面進化,尤其是大內存支持、內存GC效率等。

Kudu是Cloudera在2015年10月才對外公布的新的分布式存儲架構,與HDFS完全獨立。其實現(xiàn)參考了2012年Google發(fā)表的Spanner論文。鑒于Spanner在Google 內部的巨大成功,Kudu被譽為下一代分析平臺的重要組成,用于處理快速數(shù)據(jù)的查詢和分析,填補HDFS和HBase之間的空白。其出現(xiàn)將進一步把Hadoop市場向傳統(tǒng)數(shù)據(jù)倉庫市場靠攏。

Apache Arrow項目為列式內存存儲的處理和交互提供了規(guī)范。目前來自Apache Hadoop社區(qū)的開發(fā)者們致力于將它制定為大數(shù)據(jù)系統(tǒng)項目的事實性標準。

Arrow項目受到了Cloudera、Databricks等多個大數(shù)據(jù)巨頭公司支持,很多committer同時也是其他明星大數(shù)據(jù)項目(如HBase、Spark、Kudu等)的核心開發(fā)人員。再考慮到Tachyon等似乎還沒有找到太多實際接地氣的應用場景,Arrow的高調出場可能會成為未來新的內存分析文件接口標準。

管控層

管控又分為數(shù)據(jù)管控和資源管控。

隨著Hadoop集群規(guī)模的增大以及對外服務的擴展,如何有效可靠的共享利用資源是管控層需要解決的問題。脫胎于MapReduce1.0的YARN成為了Hadoop 2.0通用資源管理平臺。由于占據(jù)了Hadoop的地利,業(yè)界對其在資源管理領域未來的前景非常看好。

傳統(tǒng)其他資源管理框架如Mesos,還有現(xiàn)在興起的Docker等都會對YARN未來的發(fā)展產生影響。如何提高YARN性能、如何與容器技術深度融合,如何更好的適應短任務的調度,如何更完整的多租戶支持、如何細粒度的資源管控等都是企業(yè)實際生產中迫在眉睫的需求,需要YARN解決。要讓Hadoop走得更遠,未來YARN需要做的工作還很多。

另一方面大數(shù)據(jù)的安全和隱私越來越多的受到關注。Hadoop依靠且僅依靠Kerberos來實現(xiàn)安全機制,但每一個組件都將進行自己的驗證和授權策略。開源社區(qū)似乎從來不真正關心安全問題,如果不使用來自Hortonworks的Ranger或來自Cloudera 的Sentry這樣的組件,那么大數(shù)據(jù)平臺基本上談不上安全可靠。

Cloudera剛推出的RecordService組件使得Sentry在安全競賽中拔得先機。RecordService不僅提供了跨所有組件一致的安全顆粒度,而且提供了基于Record的底層抽象(有點像Spring,代替了原來Kite SDK的作用),讓上層的應用和下層存儲解耦合的同時、提供了跨組件的可復用數(shù)據(jù)模型。

計算引擎層

Hadoop生態(tài)和其他生態(tài)最大的不同之一就是“單一平臺多種應用”的理念了。傳的數(shù)據(jù)庫底層只有一個引擎,只處理關系型應用,所以是“單一平臺單一應用”;而NoSQL市場有上百個NoSQL軟件,每一個都針對不同的應用場景且完全獨立,因此是“多平臺多應用”的模式。而Hadoop在底層共用一份HDFS存儲,上層有很多個組件分別服務多種應用場景,如:

確定性數(shù)據(jù)分析:主要是簡單的數(shù)據(jù)統(tǒng)計任務,例如OLAP,關注快速響應,實現(xiàn)組件有Impala等;

探索性數(shù)據(jù)分析:主要是信息關聯(lián)性發(fā)現(xiàn)任務,例如搜索,關注非結構化全量信息收集,實現(xiàn)組件有Search等;

預測性數(shù)據(jù)分析:主要是機器學習類任務,例如邏輯回歸等,關注計算模型的先進性和計算能力,實現(xiàn)組件有Spark、MapReduce等;

數(shù)據(jù)處理及轉化:主要是ETL類任務,例如數(shù)據(jù)管道等,關注IO吞吐率和可靠性,實現(xiàn)組件有MapReduce等

其中,最耀眼的就是Spark了。IBM宣布培養(yǎng)100萬名Spark開發(fā)人員,Cloudera在One Platform倡議中宣布支持Spark為Hadoop的缺省通用任務執(zhí)行引擎,加上Hortonworks全力支持Spark,我們相信Spark將會是未來大數(shù)據(jù)分析的核心。

雖然Spark很快,但現(xiàn)在在生產環(huán)境中仍然不盡人意,無論擴展性、穩(wěn)定性、管理性等方面都需要進一步增強。同時,Spark在流處理領域能力有限,如果要實現(xiàn)亞秒級或大容量的數(shù)據(jù)獲取或處理需要其他流處理產品。Cloudera宣布旨在讓Spark流數(shù)據(jù)技術適用于80%的使用場合,就考慮到了這一缺陷。我們確實看到實時分析(而非簡單數(shù)據(jù)過濾或分發(fā))場景中,很多以前使用S4或Storm等流式處理引擎的實現(xiàn)已經逐漸Kafka+Spark Streaming代替。

Spark的流行將逐漸讓MapReduce、Tez走進博物館。

服務層

服務層是包裝底層引擎的編程API細節(jié),對業(yè)務人員提供更高抽象的訪問模型,如Pig、Hive等。

而其中最炙手可熱的就是OLAP的SQL市場了。現(xiàn)在,Spark有70%的訪問量來自于SparkSQL!SQL on Hadoop到底哪家強?Hive、Facebook的Pheonix、Presto、SparkSQL、Cloudera推的Impala、MapR推的Drill、IBM的BigSQL、還是Pivital開源的HAWQ?

這也許是碎片化最嚴重的地方了,從技術上講幾乎每個組件都有特定的應用場景,從生態(tài)上講各個廠家都有自己的寵愛,因此Hadoop上SQL引擎已經不僅僅是技術上的博弈(也因此考慮到本篇中立性,此處不做評論)。可以遇見的是,未來所有的SQL工具都將被整合,有些產品已經在競爭鐘逐漸落伍,我們期待市場的選擇。

周邊的工具更是百花齊放,最重要的莫過于可視化、任務管理和數(shù)據(jù)管理了。

有很多開源工具都支持基于Hadoop 的查詢程序編寫以及即時的圖形化表示,如HUE、Zeppelin等。用戶可以編寫一些SQL或Spark代碼以及描述代碼的一些標記,并指定可視化的模版,執(zhí)行后保存起來,就可供其他人復用,這鐘模式也被叫做“敏捷BI”。這個領域的商業(yè)產品更是競爭激烈,如Tableau、Qlik等。

調度類工具的鼻祖Oozie能實現(xiàn)幾個MapReduce任務串連運行的場景,后來的Nifi及Kettle等其他工具則提供了更加強大的調度實現(xiàn),值得一試。

毫無疑問,相對與傳統(tǒng)的數(shù)據(jù)庫生態(tài),Hadoop的數(shù)據(jù)治理相對簡單。Atlas是Hortonworks新的數(shù)據(jù)治理工具,雖然還談不上完全成熟,不過正取得進展。Cloudera的Navigator是Cloudera商業(yè)版本的核心,匯聚了生命周期管理、數(shù)據(jù)溯源、安全、審計、SQL遷移工具等一系列功能。Cloudera收購Explain.io以后將其產品整合為Navigator Optimizator組件,能幫助用戶把傳統(tǒng)的SQL應用遷移到Hadoop平臺并提供優(yōu)化建議,可以節(jié)省數(shù)人月的工作量。

算法及機器學習

實現(xiàn)基于機器學習的自動的智能化數(shù)據(jù)價值挖掘是大數(shù)據(jù)和Hadoop最誘人的愿景了,也是很多企業(yè)對大數(shù)據(jù)平臺的最終期望。隨著可獲得的數(shù)據(jù)越來越多,未來大數(shù)據(jù)平臺的價值更多的取決于其計算人工智能的程度。

現(xiàn)在機器學習正慢慢跨出象牙塔,從一個少部分學術界人士研究的科技課題變成很多企業(yè)正在驗證使用的數(shù)據(jù)分析工具,而且已經越來越多的進入我們的日常生活。

機器學習的開源項目除了之前的Mahout、MLlib、Oryx等,今年發(fā)生了很多令人矚目的大事,迎來了數(shù)個明星巨頭的重磅加入:

2015年1月,F(xiàn)acebook開源前沿深度學習工具“Torch”。

2015年4月,亞馬遜啟動其機器學習平臺Amazon Machine Learning,這是一項全面的托管服務,讓開發(fā)者能夠輕松使用歷史數(shù)據(jù)開發(fā)并部署預測模型。

2015年11月,谷歌開源其機器學習平臺TensorFlow

同一月,IBM開源SystemML并成為Apache官方孵化項目。

同時,微軟亞洲研究院將分布式機器學習工具DMTK通過Github開源。DMTK由一個服務于分布式機器學習的框架和一組分布式機器學習算法組成,可將機器學習算法應用到大數(shù)據(jù)中。

2015年12月,F(xiàn)acebook開源針對神經網絡研究的服務器“Big Sur”,配有高性能圖形處理單元(GPUs),轉為深度學習方向設計的芯片

產業(yè)篇

現(xiàn)在使用Hadoop的企業(yè)以及靠Hadoop賺錢的企業(yè)已經成千上萬。幾乎大的企業(yè)或多或少的已經使用或者計劃嘗試使用Hadoop技術。就對Hadoop定位和使用不同,可以將Hadoop業(yè)界公司劃分為四類:

第一梯隊:這類公司已經將Hadoop當作大數(shù)據(jù)戰(zhàn)略武器。

第二梯隊:這類公司將Hadoop 產品化。

第三梯隊:這類公司創(chuàng)造對Hadoop整體生態(tài)系統(tǒng)產生附加價值的產品。

第四梯隊:這類公司消費Hadoop,并給規(guī)模比第一類和第二類小的公司提供基于Hadoop的服務。

時至今日,Hadoop雖然在技術上已經得到驗證、認可甚至已經到了成熟期。其中最能代表Hadoop發(fā)展軌跡的莫過于商業(yè)公司推出的Hadoop發(fā)行版了。自從2008年Cloudera成為第一個Hadoop商業(yè)化公司,并在2009年推出第一個Hadoop發(fā)行版后,很多大公司也加入了做Hadoop產品化的行列。

“發(fā)行版”這個詞是開源文化特有的符號,看起來任何一個公司只要將開源代碼打個包,再多多少少加個佐料就能有一個“發(fā)行版”,然而背后是對海量生態(tài)系統(tǒng)組件的價值篩選、兼容和集成保證以及支撐服務。

2012年以前的發(fā)行版基本為對Hadoop打補丁為主,出現(xiàn)了好幾個私有化Hadoop版本,所折射的是Hadoop產品在質量上的缺陷。同期HDFS、HBase等社區(qū)的超高活躍度印證了這個事實。

而之后的公司更多是工具、集成、管理,所提供的不是“更好的Hadoop”而是如何更好的用好“現(xiàn)有”的Hadoop。

2014年以后,隨著Spark和其他OLAP產品的興起,折射出來是Hadoop善長的離線場景等已經能夠很好的解決,希望通過擴大生態(tài)來適應新的硬件和拓展新的市場。

Cloudera提出了Hybrid Open Source的架構:核心組件名稱叫CDH(Cloudera's Distribution including Apache Hadoop),開源免費并與Apache社區(qū)同步,用戶無限制使用,保證Hadoop基本功能持續(xù)可用,不會被廠家綁定;數(shù)據(jù)治理和系統(tǒng)管理組件閉源且需要商業(yè)許可,支持客戶可以更好更方便的使用Hadoop技術,如部署安全策略等。Cloudera也在商業(yè)組件部分提供在企業(yè)生產環(huán)境中運行Hadoop所必需的運維功能,而這些功能并不被開源社區(qū)所覆蓋,如無宕機滾動升級、異步災備等。

Hortonworks采用了100%完全開源策略,產品名稱為HDP(Hortonworks Data Platform)。所有軟件產品開源,用戶免費使用,Hortonworks提供商業(yè)的技術支持服務。與CDH相比,管理軟件使用開源Ambari,數(shù)據(jù)治理使用Atlas,安全組件使用Ranger而非Sentry,SQL繼續(xù)緊抱Hive大腿。

MapR采用了傳統(tǒng)軟件廠商的模式,使用私有化的實現(xiàn)。用戶購買軟件許可后才能使用。其OLAP產品主推Drill,又不排斥Impala。

現(xiàn)在主流的公有云如AWS、Azure等都已經在原有提供虛擬機的IaaS服務之外,提供基于Hadoop的PaaS云計算服務。未來這塊市場的發(fā)展將超過私有Hadoop部署。

應用篇

Hadoop平臺釋放了前所未有的計算能力,同時大大降低了計算成本。底層核心基礎架構生產力的發(fā)展,必然帶來的是大數(shù)據(jù)應用層的迅速建立。

對于Hadoop上的應用大致可以分為這兩類:

IT優(yōu)化

將已經實現(xiàn)的應用和業(yè)務搬遷到Hadoop平臺,以獲得更多的數(shù)據(jù)、更好的性能或更低的成本。通過提高產出比、降低生產和維護成本等方式為企業(yè)帶來好處。

這幾年Hadoop在數(shù)個此類應用場景中已經被證明是非常適合的解決方案,包括:

歷史日志數(shù)據(jù)在線查詢:傳統(tǒng)的解決方案將數(shù)據(jù)存放在昂貴的關系型數(shù)據(jù)庫中,不僅成本高、效率低,而且無法滿足在線服務時高并發(fā)的訪問量。以HBase為底層存儲和查詢引擎的架構非常適合有固定場景(非ad hoc)的查詢需求,如航班查詢、個人交易記錄查詢等等。現(xiàn)在已經成為在線查詢應用的標準方案,中國移動在企業(yè)技術指導意見中明確指明使用HBase技術來實現(xiàn)所有分公司的清賬單查詢業(yè)務。

ETL任務:不少廠商已經提供了非常優(yōu)秀的ETL產品和解決方案,并在市場中得到了廣泛的應用。然而在大數(shù)據(jù)的場景中,傳統(tǒng)ETL遇到了性能和QoS保證上的嚴重挑戰(zhàn)。多數(shù)ETL任務是輕計算重IO類型的,而傳統(tǒng)的IT硬件方案,如承載數(shù)據(jù)庫的小型計算機,都是為計算類任務設計的,即使使用了最新的網絡技術,IO也頂多到達幾十GB。

采用分布式架構的Hadoop提供了完美的解決方案,不僅使用share-nothing的scale-out架構提供了能線性擴展的無限IO,保證了ETL任務的效率,同時框架已經提供負載均衡、自動FailOver等特性保證了任務執(zhí)行的可靠性和可用性。

數(shù)據(jù)倉庫offload:傳統(tǒng)數(shù)據(jù)倉庫中有很多離線的批量數(shù)據(jù)處理業(yè)務,如日報表、月報表等,占用了大量的硬件資源。而這些任務通常又是Hadoop所善長的

經常被問到的一個問題就是,Hadoop是否可以代替數(shù)據(jù)倉庫,或者說企業(yè)是否可以使用免費的Hadoop來避免采購昂貴的數(shù)據(jù)倉庫產品。數(shù)據(jù)庫界的泰斗Mike Stonebroker在一次技術交流中說:數(shù)據(jù)倉庫和Hadoop所針對的場景重合型非常高,未來這兩個市場一定會合并。

我們相信在數(shù)據(jù)倉庫市場Hadoop會遲早替代到現(xiàn)在的產品,只不過,那時候的Hadoop已經又不是現(xiàn)在的樣子了。就現(xiàn)在來講,Hadoop還只是數(shù)據(jù)倉庫產品的一個補充,和數(shù)據(jù)倉庫一起構建混搭架構為上層應用聯(lián)合提供服務。

業(yè)務優(yōu)化

在Hadoop上實現(xiàn)原來尚未實現(xiàn)的算法、應用,從原有的生產線中孵化出新的產品和業(yè)務,創(chuàng)造新的價值。通過新業(yè)務為企業(yè)帶來新的市場和客戶,從而增加企業(yè)收入。

Hadoop提供了強大的計算能力,專業(yè)大數(shù)據(jù)應用已經在幾乎任何垂直領域都很出色,從銀行業(yè)(反欺詐、征信等)、醫(yī)療保健(特別是在基因組學和藥物研究),到零售業(yè)、服務業(yè)(個性化服務、智能服務,如UBer的自動派車功能等)。

在企業(yè)內部,各種工具已經出現(xiàn),以幫助企業(yè)用戶操作核心功能。例如,大數(shù)據(jù)通過大量的內部和外部的數(shù)據(jù),實時更新數(shù)據(jù),可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買。客戶服務應用可以幫助個性化服務; HR應用程序可幫助找出如何吸引和留住最優(yōu)秀的員工等。

為什么Hadoop如此成功?這個問題似乎是個馬后炮,但當我們今天驚嘆于Hadoop在短短10年時間取得如此統(tǒng)治性地位的時候,確實會自然而然地思考為什么這一切會發(fā)生。基于與同期其他項目的比較,我們認為有很多因素的綜合作用造就了這一奇跡:

技術架構:Hadoop推崇的本地化計算理念,其實現(xiàn)在可擴展性、可靠性上的優(yōu)勢,以及有彈性的多層級架構等都是領先其他產品而獲得成功的內在因素。沒有其他任何一個這樣復雜的系統(tǒng)能快速的滿足不斷變化的用戶需求。

硬件發(fā)展:摩爾定律為代表的scale up架構遇到了技術瓶頸,不斷增加的計算需求迫使軟件技術不得不轉到分布式方向尋找解決方案。同時,PC服務器技術的發(fā)展使得像Hadoop這樣使用廉價節(jié)點組群的技術變?yōu)榭尚校瑫r還具有很誘人的性價比優(yōu)勢。

工程驗證:Google發(fā)表GFS和MapReduce論文時已經在內部有了可觀的部署和實際的應用,而Hadoop在推向業(yè)界之前已經在Yahoo等互聯(lián)網公司驗證了工程上的可靠性和可用性,極大的增加了業(yè)界信心,從而迅速被接納流行。而大量的部署實例又促進了Hadoop的發(fā)展喝成熟。

社區(qū)推動:Hadoop生態(tài)一直堅持開源開放,友好的Apache許可基本消除了廠商和用戶的進入門檻,從而構建了有史以來最大最多樣化最活躍的開發(fā)者社區(qū),持續(xù)地推動著技術發(fā)展,讓Hadoop超越了很多以前和同期的項目。

關注底層:Hadoop 的根基是打造一個分布式計算框架,讓應用程序開發(fā)人員更容易的工作。業(yè)界持續(xù)推動的重點一直在不斷夯實底層,并在諸如資源管理和安全領域等領域不斷開花結果,為企業(yè)生產環(huán)境部署不斷掃清障礙。

下一代分析平臺

過去的十年中Apache Hadoop社區(qū)以瘋狂的速度發(fā)展,現(xiàn)在儼然已經是事實上的大數(shù)據(jù)平臺標準。但仍有更多的工作要做!大數(shù)據(jù)應用未來的價值在于預測,而預測的核心是分析。下一代的分析平臺會是什么樣呢?它必定會面臨、同時也必須要解決以下的問題:

更多更快的數(shù)據(jù)。

更新的硬件特性及架構。

更高級的分析。

更安全。

因此,未來的幾年,我們會繼續(xù)見證“后Hadoop時代”的下一代企業(yè)大數(shù)據(jù)平臺:

內存計算時代的來臨。隨著高級分析和實時應用的增長,對處理能力提出了更高的要求,數(shù)據(jù)處理重點從IO重新回到CPU。以內存計算為核心的Spark將代替以IO吞吐為核心的MapReduce成為分布式大數(shù)據(jù)處理的缺省通用引擎。做為既支持批處理有支持準實時流處理的通用引擎,Spark將能滿足80%以上的應用場景。

然而,Spark畢竟核心還是批處理,擅長迭代式的計算,但并不能滿足所有的應用場景。其他為特殊應用場景設計的工具會對其補充,包括:

a) OLAP。OLAP,尤其是聚合類的在線統(tǒng)計分析應用,對于數(shù)據(jù)的存儲、組織和處理都和單純離線批處理應用有很大不同。

b) 知識發(fā)現(xiàn)。與傳統(tǒng)應用解決已知問題不同,大數(shù)據(jù)的價值在于發(fā)現(xiàn)并解決未知問題。因此,要最大限度地發(fā)揮分析人員的智能,將數(shù)據(jù)檢索變?yōu)閿?shù)據(jù)探索。

統(tǒng)一數(shù)據(jù)訪問管理。現(xiàn)在的數(shù)據(jù)訪問由于數(shù)據(jù)存儲的格式不同、位置不同,用戶需要使用不同的接口、模型甚至語言。同時,不同的數(shù)據(jù)存儲粒度都帶來了在安全控制、管理治理上的諸多挑戰(zhàn)。未來的趨勢是將底層部署運維細節(jié)和上層業(yè)務開發(fā)進行隔離,因此,平臺需要系統(tǒng)如下的功能保證:

a) 安全。能夠大數(shù)據(jù)平臺上實現(xiàn)和傳統(tǒng)數(shù)據(jù)管理系統(tǒng)中相同口徑的數(shù)據(jù)管理安全策略,包括跨組件和工具的一體化的用戶權利管理、細粒度訪問控制、加解密和審計。

b) 統(tǒng)一數(shù)據(jù)模型。通過抽象定義的數(shù)據(jù)描述,不僅可以統(tǒng)一管理數(shù)據(jù)模型、復用數(shù)據(jù)解析代碼,還可以對于上層處理屏蔽底層存儲的細節(jié),從而實現(xiàn)開發(fā)/處理與運維/部署的解偶。

簡化實時應用。現(xiàn)在用戶不僅關心如何實時的收集數(shù)據(jù),而且關心同時盡快的實現(xiàn)數(shù)據(jù)可見和分析結果上線。無論是以前的delta架構還是現(xiàn)在lambda架構等,都希望能夠有一種解決快速數(shù)據(jù)的方案。Cloudera最新公開的Kudu雖然還沒有進入產品發(fā)布,但卻是現(xiàn)在解決這個問題可能的最佳方案:采用了使用單一平臺簡化了快速數(shù)據(jù)的“存取用”實現(xiàn),是未來日志類數(shù)據(jù)分析的新的解決方案。

翹首展望,下一個十年

10年以后的Hadoop應該只是一個生態(tài)和標準的“代名詞”了,下層的存儲層不只是HDFS、HBase和Kudu等現(xiàn)有的存儲架構,上層的處理組件更會像app store里的應用一樣多,任何第三方都可以根據(jù)Hadoop的數(shù)據(jù)訪問和計算通信協(xié)議開發(fā)出自己的組件,用戶在市場中根據(jù)自己數(shù)據(jù)的使用特性和計算需求選擇相應的組件自動部署。

當然,有一些明顯的趨勢必然影響著Hadoop的前進:

云計算

現(xiàn)在50%的大數(shù)據(jù)任務已經運行在云端,在3年以后這個比例可能會上升到80%。Hadoop在公有云的發(fā)展要求更加有保障的本地化支持。

硬件

快速硬件的進步會迫使社區(qū)重新審視Hadoop的根基,Hadoop社區(qū)絕不會袖手旁觀。

物聯(lián)網

物聯(lián)網的發(fā)展會帶來海量的、分布的和分散的數(shù)據(jù)源。Hadoop將適應這種發(fā)展。

以后的十年會發(fā)生什么?以下是筆者的一些猜想:

SQL和NoSQL市場會合并,NewSQL和Hadoop技術相互借鑒而最終走向統(tǒng)一,Hadoop市場和數(shù)據(jù)倉庫市場會合并,然而產品碎片化會繼續(xù)存在。

Hadoop與其他資源管理技術和云平臺集成,融合docker和unikernal等技術統(tǒng)一資源調度管理,提供完整多租戶和QoS能力,企業(yè)數(shù)據(jù)分析中心合并為單一架構。

企業(yè)大數(shù)據(jù)產品場景化。以后直接提供產品和技術的公司趨于成熟并且轉向服務。越來越多的新公司提供的是行業(yè)化、場景化的解決方案,如個人網絡征信套件以及服務。

大數(shù)據(jù)平臺的場景“分裂”。與現(xiàn)在談及大數(shù)據(jù)言必稱Hadoop以及某某框架不同,未來的數(shù)據(jù)平臺將根據(jù)不同量級的數(shù)據(jù)(從幾十TB到ZB)、不同的應用場景(各種專屬應用集群)出現(xiàn)細分的階梯型的解決方案和產品,甚至出現(xiàn)定制化一體化產品。

后記

現(xiàn)在Hadoop儼然已經成為企業(yè)數(shù)據(jù)平臺的“新常態(tài)”。我們很榮幸能夠見證Hadoop十年從無到有,再到稱王。在我們感動于技術的日新月異時,希望能通過本文能為Hadoop的昨天、今天和明天做出一點自己的解讀,算是為Hadoop慶祝10歲生日獻上的禮物。

筆者水平有限,加之時間緊迫,膚淺粗糙之處,還請各位讀者原諒和指教。文中有些內容引自網絡,某些出處未能找到,還請原作者原諒。

大數(shù)據(jù)的明天是美好的,未來Hadoop一定是企業(yè)軟件的必備技能,希望我們能一起見證。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 核心
    +關注

    關注

    0

    文章

    44

    瀏覽量

    15026
  • 物聯(lián)網

    關注

    2909

    文章

    44572

    瀏覽量

    372842
  • 大數(shù)據(jù)

    關注

    64

    文章

    8883

    瀏覽量

    137407

原文標題:一文看懂Hadoop

文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    蘋果十年造車終成空,轉向all in AI

    電子發(fā)燒友網報道(文/黃山明)近日,有知情人士透露,蘋果公司將取消已經持續(xù)十年之久的“泰坦計劃”,這也意味著蘋果或將放棄向造車方向發(fā)力。造車項目組的許多員工將被轉移到該公司的機器學習和人工智能部門
    的頭像 發(fā)表于 02-29 00:11 ?4096次閱讀

    睿創(chuàng)微納五&十年功勛員工頒獎大會圓滿舉行

    12月11日,睿創(chuàng)微納五&十年功勛員工頒獎大會在煙臺園區(qū)圓滿舉行,公司董事長帶領核心管理團隊為5、10功勛員工頒發(fā)紀念銀幣和金幣。?? 百余名員工獲頒紀念銀幣,以表彰他們五
    的頭像 發(fā)表于 12-12 10:35 ?362次閱讀

    何小鵬宣布未來十年愿景,加速全球化AI汽車布局

    在11月6日的小鵬AI科技日上,小鵬汽車董事長何小鵬分享了公司的宏偉藍圖,即在未來十年內,將小鵬汽車打造成為一家享譽全球的AI汽車公司。   何小鵬感慨地表示,過去往往是國外的先進技術涌入中國,而現(xiàn)在,他自豪地宣布,小鵬汽車正將科技的火種播撒世界各地。
    的頭像 發(fā)表于 11-07 13:40 ?594次閱讀

    沃達豐與谷歌深化十年戰(zhàn)略合作

    沃達豐近日宣布,其與全球科技巨頭谷歌的戰(zhàn)略合作伙伴關系得到了進一步深化。這一為期十年的協(xié)議,總價值超過10億美元,旨在將谷歌最新推出的生成式人工智能支持的設備引入歐洲和非洲市場,為沃達豐的廣大客戶提供更為先進和智能的服務體驗。
    的頭像 發(fā)表于 10-09 16:22 ?259次閱讀

    十年預言:Chiplet的使命

    未來十年內芯片算力提升的核心動力。 議題一: 算力困局如何突圍? 韓銀和研究員: 現(xiàn)有的高性能計算架構正遭遇算力瓶頸。目前全球頂級的高性能計算系統(tǒng),由美國橡樹嶺國家實驗室基于HPE Cray EX235a架構研發(fā)的超級計算機Frontier,其算
    的頭像 發(fā)表于 08-27 11:09 ?464次閱讀
    <b class='flag-5'>十年</b>預言:Chiplet的使命

    BOE京東方與聯(lián)合國教科文組織UNESCO簽訂合作協(xié)議 成為首個支持聯(lián)合國“科學十年”的中國科技企業(yè)

    法國時間7月25日,BOE(京東方)與聯(lián)合國教科文組織(UNESCO)在法國巴黎總部基于《2024—2033科學促進可持續(xù)發(fā)展國際十年》決議(簡稱“科學十年”)簽訂為期三的合作伙伴
    的頭像 發(fā)表于 07-26 13:04 ?332次閱讀
    BOE京東方與聯(lián)合國教科文組織UNESCO簽訂合作協(xié)議 成為首個支持聯(lián)合國“科學<b class='flag-5'>十年</b>”的中國科技企業(yè)

    聯(lián)發(fā)科談未來十年的戰(zhàn)略布局

    聯(lián)發(fā)科在近日舉行的股東大會上,明確了其未來十年的戰(zhàn)略布局。董事長蔡明介表示,公司將重點投入5G、AI、車用及Arm構架運算市場,以謀求長遠發(fā)展。
    的頭像 發(fā)表于 05-29 10:39 ?532次閱讀

    特斯拉入華十年全球車主超600萬,中國車主已達170萬

    特斯拉首席執(zhí)行官埃隆·馬斯克在十年前首次訪問中國期間,親自將首批Model S交到了新浪CEO曹國偉、理想汽車CEO李想等一眾名人以及前力帆足球俱樂部董事長尹喜地等企業(yè)家手中。
    的頭像 發(fā)表于 04-22 14:56 ?472次閱讀

    Redmi新十年產品定位:Turbo系列重塑中端性能格局

    王騰表示,“Redmi新十年的使命不變,挑戰(zhàn)升級。我們將堅守性價比和質量至上原則,加大對國產供應鏈的扶持力度,推動產品邁向高端市場,致力于成為新生代的科技首選品牌。”
    的頭像 發(fā)表于 04-01 15:06 ?1191次閱讀

    蘋果公司汽車項目停滯,十年投入未能實現(xiàn)完全自動駕駛

    根據(jù)彭博社馬克-格爾曼(Mark Gurman)的報道,蘋果長達十年的“泰坦計劃”終于告敗,原因在于蘋果工程團隊過于盲目自信,始終無法攻克FSD技術困境。
    的頭像 發(fā)表于 03-04 10:09 ?331次閱讀

    工業(yè)機器人減速器行業(yè)的十年變革

    十年來,減速器行業(yè)國產替代,道阻且長,但我們仍需迎難而上。GGII預測,2027,減速器領域國產份額仍將超過50%。
    的頭像 發(fā)表于 02-27 11:06 ?1284次閱讀
    工業(yè)機器人減速器行業(yè)的<b class='flag-5'>十年</b>變革

    從無到有,PCB工廠的神奇設備之旅!

    PCB(Printed Circuit Board,即印刷線路板)工廠是電子制造業(yè)中至關重要的環(huán)節(jié),它負責將電子元件通過電路連接并提供機械支撐。在這樣一個高度專業(yè)化的生產環(huán)境中,各種高精尖的設備協(xié)同工作,以確保最終產品的質量和性能。本文將詳細介紹PCB工廠中常見的設備及其作用。
    的頭像 發(fā)表于 02-23 11:34 ?767次閱讀
    <b class='flag-5'>從無到有</b>,PCB工廠的神奇設備之旅!

    跨周期,創(chuàng)未來!華秋喜獲中國產業(yè)互聯(lián)網十周年-杰出企業(yè)

    從互聯(lián)網、移動互聯(lián)網,再到產業(yè)互聯(lián)網,中國互聯(lián)網發(fā)展已經20多年,近十年則是產業(yè)互聯(lián)網迅猛發(fā)展的十年。近幾年,隨著中國數(shù)字經濟的高速發(fā)展
    發(fā)表于 01-04 11:57

    跨周期,創(chuàng)未來!華秋喜獲中國產業(yè)互聯(lián)網十周年-杰出企業(yè)

    從互聯(lián)網、移動互聯(lián)網,再到產業(yè)互聯(lián)網,中國互聯(lián)網發(fā)展已經20多年,近十年則是產業(yè)互聯(lián)網迅猛發(fā)展的十年。近幾年,隨著中國數(shù)字經濟的高速發(fā)展
    的頭像 發(fā)表于 01-01 16:00 ?700次閱讀
    跨周期,創(chuàng)未來!華秋喜獲中國產業(yè)互聯(lián)網<b class='flag-5'>十周年</b>-杰出企業(yè)

    跨周期,創(chuàng)未來!華秋喜獲中國產業(yè)互聯(lián)網十周年-杰出企業(yè)

    從互聯(lián)網、移動互聯(lián)網,再到產業(yè)互聯(lián)網,中國互聯(lián)網發(fā)展已經20多年,近十年則是產業(yè)互聯(lián)網迅猛發(fā)展的十年。近幾年,隨著中國數(shù)字經濟的高速發(fā)展
    的頭像 發(fā)表于 01-01 08:07 ?453次閱讀
    跨周期,創(chuàng)未來!華秋喜獲中國產業(yè)互聯(lián)網<b class='flag-5'>十周年</b>-杰出企業(yè)
    主站蜘蛛池模板: 成人国产在线看不卡| 东京热百度影音| 成人在线免费视频| 国产色精品久久人妻无码看片软件 | 99er热精品视频国产免费| 把她带到密室调教性奴| 国产亚洲视频中文字幕| 蜜柚在线观看免费高清官网视频| 色99蜜臀AV无码| 影音先锋2017av天堂| 白嫩美女直冒白浆| 九九久久国产| 色美妞论坛| 制服的微热| 国产免费内射又粗又爽密桃视频| 麻豆精品一区二正一三区| 私人玩物黑丝| 91热久久免费频精品99欧美| 光溜溜的美女直播软件| 绝对诱惑在线试听| 无码人妻精品一区二区蜜桃在线看| 在线亚洲97se| 国产色综合久久无码有码| 毛片在线不卡| 亚洲 欧美 制服 校园 动漫| 91精品视频网站| 国产一区91| 色婷婷综合久久久久中文一区二区| 在线自拍亚洲视频欧美| 国产精品无码麻豆放荡AV| 欧美69xxx| 在线视频中文字幕| 国产午夜一级鲁丝片| 青青草AV国产精品| 伊人久久大线蕉香港三级| 国产白丝精品爽爽久久蜜臀| 蜜桃狠狠色伊人亚洲综合网站 | 午夜亚洲国产理论片二级港台二级| 99re6久久热在线视频| 果冻传媒在线播放 免费观看| 色婷婷综合久久久中文字幕 |