色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

工業大數據處理領域的“網紅”——Apache Spark

格創東智 ? 2018-12-17 10:55 ? 次閱讀

生活離不開水,同樣離不開數據,我們被數據包圍,在數據中生活。當數據越來越多時,就成了大數據。


在“中國制造2025”的技術路線圖中,工業大數據是作為重要突破點來規劃的,而在未來的十年,以數據為核心構建的智能化體系會成為支撐智能制造和工業互聯網的核心動力。而想要理解大數據,就需要理解大數據相關的查詢、處理、機器學習、圖計算和統計分析等Apache Spark作為新一代輕量級大數據快速處理平臺,集成了大數據相關的各種能力,是理解大數據的首選

簡單來講,Spark就是一個快速、通用的大規模數據處理引擎,各種不同的應用,如實時流處理、機器學習、交互式查詢等,都可以通過Spark 建立在不同的存儲和運行系統上。今天的格物匯,就帶大家來認識一下如日中天、高速發展的大數據處理明星——Spark。

1Spark發展歷程


  • 2009年,Spark誕生于伯克利大學AMPLab,最開初屬于伯克利大學的研究性項目,最開始Spark只是一個實驗性的項目,代碼量非常少,僅有3900行代碼左右,屬于輕量級的框架。

  • 2010年,伯克利大學正式開源了Spark項目

  • 2013年6月,Spark成為了Apache基金會下的項目,進入高速發展期,第三方開發者貢獻了大量的代碼,活躍度非常高。

  • 2014年2月,Spark以飛快的速度稱為了Apache的頂級項目

  • 2014年5月底Spark1.0.0發布。

  • 2016年6月Spark2.0.0發布

  • 2018年11月 Spark2.4.0 發布


Spark作為Hadoop生態中重要的一員,其發展速度堪稱恐怖,從誕生到成為Apache頂級項目不到五年時間,不過在如今數據量飛速增長的環境與背景下,Spark作為高效的計算框架能收到如此大的關注也是有所依據的。

2Spark的特點


速度快

Spark通過使用先進的DAG調度器、查詢優化器和物理執行引擎,可以高性能地進行批量及流式處理。使用邏輯回歸算法進行迭代計算,Spark比Hadoop速度快100多倍。


簡單易用

Spark目前支持多種編程語言,比如Java、Scala、Python、R。熟悉其中任一門語言的都可以直接上手編寫Spark程序,非常方便。還支持超過80種高級算法,使用戶可以快速構建不同應用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發非常重要。


通用性高

Spark 目前主要由四大組件,如下:

  • Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報表查詢,通過JDBC等接口調用;

  • Spark Streaming::流式計算引擎;

  • Spark MLlib:機器學習庫;

  • Spark GraphX:圖計算引擎。

擁有這四大組件,成功解決了大數據領域中,離線批處理、交互式查詢、實時流計算、機器學習與圖計算等最重要的任務和問題,這些不同類型的處理都可以在同一應用中無縫使用。Spark統一的解決方案非常具有吸引力,畢竟任何公司都想用統一的平臺處理問題,減少開發和維護的人力成本和部署平臺的物理成本。當然還有,作為統一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優勢。


可融合性

Spark可以運行在standalone、YARN、Mesos、Kubernetes及EC2多種調度平臺上。其中Standalone模式不依賴第三方的資源管理器和調度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。

Spark可以處理所有Hadoop支持的數據,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對于已部署Hadoop集群的用戶特別重要,因為不需要做任何數據遷移就可以使用Spark強大的處理能力。



3Spark相比MapReduce優勢

Spark與MapReduce 同為計算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎上進行了改進,使得算法性能明顯優于MapReduce,下面大致總結一下兩者差異:

1)Spark把運算的中間數據存放在內存,迭代計算效率更高;MapReduce的中間結果需要落地到磁盤,磁盤io操作多,影響性能。

2)Spark容錯性高,它通過Lineage機制實現RDD算子的高效容錯,某一部分丟失或者出錯,可以通過整個數據集的計算流程的血緣關系來實現重建;MapReduce的話容錯可能只能重新計算了,成本較高。

3)Spark更加通用,Spark提供了transformation和action這兩大類的多個功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。

4)Spark框架和生態更為復雜,首先有RDD、血緣lineage、執行時的有向無環圖DAG、stage劃分等等,很多時候spark作業都需要根據不同業務場景的需要進行調優已達到性能要求;MapReduce框架及其生態相對較為簡單,對性能的要求也相對較弱,但是運行較為穩定,適合長期后臺運行。

4Spark與工業互聯平臺


工業互聯網帶來了工業數據的快速發展,對于日益增加的海量數據,傳統單機因本身的軟硬件限制無法應對海量數據的處理、分析以及深度挖掘,但作為分布式計算框架的Spark卻能輕松應付這些場景。在工業互聯網平臺上,Spark 既能快速實現工業現場海量流數據的處理轉換,又能輕松應對工業大數據平臺中海量數據的快速批處理分析,自身集成的機器學習框架能夠對海量工業數據進行深度挖掘分析,從而幫助管理者進行決策分析。


基于Spark框架自身的優良設計理念以及社區的蓬勃發展狀態,相信未來Spark會在工業互聯網平臺扮演越來越重要的角色。

本文作者:黃歡,格創東智大數據工程師 (轉載請注明來源及作者)



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8948

    瀏覽量

    139324
  • 智能制造
    +關注

    關注

    48

    文章

    5807

    瀏覽量

    77423
  • 工業互聯網
    +關注

    關注

    28

    文章

    4352

    瀏覽量

    94797
  • SPARK
    +關注

    關注

    1

    文章

    106

    瀏覽量

    20376
  • 工業大數據
    +關注

    關注

    0

    文章

    72

    瀏覽量

    8000
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載,從而節省數百萬美元。
    的頭像 發表于 03-25 15:09 ?409次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業節省大量成本

    Hadoop 生態系統在大數據處理中的應用與實踐

    隨著數據量的爆發式增長,大數據處理技術成為企業關注焦點,Hadoop 生態系統在其中扮演著核心角色。 Hadoop Distributed File System(HDFS)是其分布式文件存儲
    的頭像 發表于 01-21 17:48 ?344次閱讀

    康謀分享 | 如何應對ADAS/AD海量數據處理挑戰?

    如何有效處理ADAS/AD海量數據并從中獲得見解?IVEX數據處理流程可自動從原始傳感器數據等輸入中識別出值得關注的事件和場景,推動數據高效
    的頭像 發表于 12-25 10:05 ?3858次閱讀
    康謀分享 | 如何應對ADAS/AD海量<b class='flag-5'>數據處理</b>挑戰?

    緩存對大數據處理的影響分析

    緩存對大數據處理的影響顯著且重要,主要體現在以下幾個方面: 一、提高數據訪問速度 在大數據環境中,數據存儲通常采用分布式存儲系統,數據量龐大
    的頭像 發表于 12-18 09:45 ?584次閱讀

    cmp在數據處理中的應用 如何優化cmp性能

    CMP在數據處理中的應用 CMP(并行處理)技術在數據處理領域扮演著越來越重要的角色。隨著數據量的爆炸性增長,傳統的串行
    的頭像 發表于 12-17 09:27 ?879次閱讀

    上位機實時數據處理技術 上位機在智能制造中的應用

    。這種技術對于工業自動化、智能制造等領域至關重要。 在上位機實時數據處理中,關鍵技術包括數據采集、數據處理
    的頭像 發表于 12-04 10:29 ?1262次閱讀

    eda中常用的數據處理方法

    探索性數據分析(EDA)是一種統計方法,用于使用統計圖表、圖形和計算來發現數據中的模式、趨勢和異常值。在進行EDA時,數據處理是至關重要的,因為它可以幫助我們更好地理解數據集,為進一步
    的頭像 發表于 11-13 10:57 ?761次閱讀

    海量數據處理需要多少RAM內存

    海量數據處理所需的RAM(隨機存取存儲器)內存量取決于多個因素,包括數據的具體規模、處理任務的復雜性、數據庫管理系統的效率以及所使用軟件的優化程度等。以下是對所需內存量的分析: 一、內
    的頭像 發表于 11-11 09:56 ?1006次閱讀

    FPGA在數據處理中的應用實例

    FPGA(現場可編程門陣列)在數據處理領域有著廣泛的應用,其高度的靈活性和并行處理能力使其成為許多高性能數據處理系統的核心組件。以下是一些FPGA在
    的頭像 發表于 10-25 09:21 ?1153次閱讀

    實時數據處理的邊緣計算應用

    實時數據處理的邊緣計算應用廣泛,涵蓋了多個行業和領域。以下是一些典型的應用場景: 一、工業制造 在工業制造領域,邊緣計算技術被廣泛應用于生產
    的頭像 發表于 10-24 14:11 ?782次閱讀

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據應用。Hadoop廣泛應用于各種場景,包括數據處理
    的頭像 發表于 10-08 15:12 ?303次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    天拓四方:工業數據采集網關在智能邊緣計算與實時數據處理的應用

    工業互聯網的浪潮中,工業數據采集網關作為連接物理世界與數字世界的橋梁,正扮演著日益重要的角色。本文將深入探討工業數據采集網關在“智能邊緣計
    的頭像 發表于 08-09 17:43 ?569次閱讀
    天拓四方:<b class='flag-5'>工業</b><b class='flag-5'>數據</b>采集網關在智能邊緣計算與實時<b class='flag-5'>數據處理</b>的應用

    spark運行的基本流程

    前言: 由于最近對spark的運行流程非常感興趣,所以閱讀了《Spark大數據處理:技術、應用與性能優化》一書。通過這本書的學習,了解了spark的核心技術、實際應用場景以及性能優化的
    的頭像 發表于 07-02 10:31 ?636次閱讀
    <b class='flag-5'>spark</b>運行的基本流程

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源的分布式計算框架,由UC Berkeley AMP Lab開發,可用于批處理、交互式查詢(
    的頭像 發表于 06-28 17:12 ?936次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    工業大數據云平臺在設備預測性維護中的作用

    ,只有保證設備的安全穩定運行才能保障生產的持續,質量的可靠,提升企業產品競爭力。 因此,企業就需要加強對設備狀況的及時把握,并一定程度上實現工業設備預測性維護。為此,數之能提供的工業大數據云平臺可以全面接入
    的頭像 發表于 06-28 15:31 ?395次閱讀
    主站蜘蛛池模板: 污到湿的爽文免费阅读 | 久久99精品国产99久久6男男 | 好爽胸大好深好多水 | 中文字幕亚洲无限码 | 久久精品亚洲牛牛影视 | 成人国产亚洲精品A区天堂蜜臀 | 人人做人人干 | 免费视频网站嗯啊轻点 | 伊人天天躁夜夜躁狠狠 | 2020年国产精品午夜福利在线观看 | 成年视频国产免费观看 | 视频成人永久免费看 | 亚洲日韩在线天堂一 | 美女扒开腿让男生桶免费看动态图 | 狠狠干.in| 妻子的妹妹在线 | 最新高清无码专区 | 99在线免费观看 | 97国产揄拍国产精品人妻 | 国产系列在线亚洲视频 | 国语自产精品一区在线视频观看 | 人妻体体内射精一区二区 | yy8090理论三级在线看 | 欧美视频 亚洲视频 | 果冻传媒在线观看完整版免费 | 国产在线亚洲精品观看不卡 | 婷婷综合亚洲爱久久 | 成 人 免费 黄 色 网站无毒下载 | 高清日本片免费观看 | 欧美video巨大粗暴18 | 亚洲综合国产精品 | 永久免费的无码中文字幕 | 国产欧美在线亚洲一区刘亦菲 | 国产中文字幕免费观看 | 美女夫妻内射潮视频 | 又长又大又粗又硬3p免费视频 | 大屁股国产白浆一二区 | 青青草A在在观免费线观看 青青草AV国产精品 青青草 久久久 | 厨房玩朋友娇妻中文字幕 | 中文无码热在线视频 | 亚洲精品在线影院 |