色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

來看看Spark和Flink各自的優劣和主要區別

電子工程師 ? 來源:lp ? 2019-03-15 09:30 ? 次閱讀

2018和2019年是大數據領域蓬勃發展的兩年,自2019年伊始,實時流計算技術開始步入普通開發者視線,各大公司都在不遺余力地試用新的流計算框架,實時流計算引擎Spark Streaming、Kafka Streaming、Beam和Flink持續火爆。

最近Spark社區,來自Databricks、NVIDIA、Google以及阿里巴巴的工程師們正在為Apache Spark 3.0添加原生的GPU調度支持,參考(SPARK-24615和SPARK-24579)該方案將填補了Spark在GPU資源的任務調度方面的空白,極大擴展了Spark在深度學習信號處理的應用場景。

與此同時,2019年1月底,阿里巴巴內部版本Blink正式開源!一石激起千層浪,Blink開源的消息立刻刷爆朋友圈,整個大數據計算領域一直以來由Spark獨領風騷,瞬間成為兩強爭霸的時代。那么未來Spark和Blink的發展會碰撞出什么樣的火花?誰會成為大數據實時計算領域最亮的那顆星?

我們接下來看看Spark和Flink各自的優劣和主要區別。

底層機制

Spark的數據模型是彈性分布式數據集 RDD(Resilient Distributed Dattsets),這個內存數據結構使得spark可以通過固定內存做大批量計算。初期的Spark Streaming是通過將數據流轉成批(micro-batches),即收集一段時間(time-window)內到達的所有數據,并在其上進行常規批處,所以嚴格意義上,還不能算作流式處理。但是Spark從2.x版本開始推出基于 Continuous Processing Mode的 Structured Streaming,支持按事件時間處理和端到端的一致性,但是在功能上還有一些缺陷,比如對端到端的exactly-once語義的支持。

一個典型的Spark DAG示意圖

Flink是統一的流和批處理框架,基本數據模型是數據流,以及事件(Event)的序列,Flink從設計之初秉持了一個觀點:批是流的特例。每一條數據都可以出發計算邏輯,那么Flink的流特性已經在延遲方面占得天然優勢。

一個典型的Flink workflow示意圖

Flink還提供了一個獨特的概念叫做有狀態的計算,它被用來處理一種情況:數據的處理和之前處理過的數據或者事件有關聯。比如,在做聚合操作的時候,一個批次的數據聚合的結果依賴于之前處理過的批次。早期的Spark用戶會經常受此類問題所困擾,直到Structured Streaming的出現才得已解決。

Flink從一開始就引入了state的概念來處理這種問題。為狀態計算提供了一個通用的解決方案。

周邊生態

在大數據領域,任何一個項目的火爆都被離不開完善的技術棧,Spark和Flink都基于對底層數據和計算調度的高度抽象的內核上開發出了批處理,流處理,結構化數據,圖數據,機器學習等不同套件,完成對絕大多數數據分析領域的場景的支持,意圖統一數據分析領域。

Flink和Spark都是由Scla和Java混合編程實現,Spark的核心邏輯由Scala完成,而Flink的主要核心邏輯由Java完成。在對第三方語言的支持上,Spark支持的更為廣泛,Spark幾乎完美的支持Scala,Java,Python,R語言編程。

Spark周邊生態(圖來源于官網)

與此同時,Flink&Spark官方都支持與存儲系統如HDFS,S3的集成,資源管理/調度Yarn,Mesos,K8s等集成,數據庫Hbase,Cassandra,消息系統Amazon,Kinesis,Kafka等。

Flink周邊生態(圖來源于官網)

在最近的Spark+AI峰會上,Databricks公司推出了自己的統一分析平臺(Unified Analytics Platform),目標是使戶在一個系統里解決盡可能多的數據需求。Flink的目標和Spark一致,包含AI的統一平臺也是Flink的發展方向,從技術上來看,Flink是完全有能力支持對機器學習和深度學習的集成,但目前來看,Flink仍有很長的路要走。

未來趨勢

2018年是機器學習和深度學習元年,ML在數據處理領域占比越來越重。Spark和Flink在做好實時計算的同時,誰能把握住這次機會就可以在未來的發展中占得先機。另外隨著5G的發展,網絡傳輸不再是瓶頸之時,IOT的爆發式發展也將會是實時計算需求爆發之時,屆時Flink在流式計算中的天然優勢將發揮的淋漓盡致,Blink的開源和阿里巴巴對Blink的加持無疑又給Flink未來的發展注入一針強心劑。

總結

Spark和Flink發展至今,基本上已經是實時計算領域的事實標準。兩者在易用性和生態系統建設上都投入了大量的資源,是現在和未來一段時間內大數據領域最有有力的競爭者。二者的發展是競爭中伴隨著互相促進,在與機器學習集成和統一處理平臺的建設上雙方各有優劣,誰能盡早補齊短板就會在未來的發展中占得優勢。對于普通大數據領域的開發者而言,當下也是最好的時代,可以見證兩大數據引擎的蓬勃發展,除了學習別無選擇,這何嘗不是是一種幸運?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4762

    瀏覽量

    129162
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24764
  • SPARK
    +關注

    關注

    1

    文章

    105

    瀏覽量

    19935

原文標題:開源的Blink和Spark3.0,誰將稱霸大數據領域?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問AD9162和AD9164的主要區別是什么?

    AD9162和AD9164的主要區別是什么,我看手冊里兩個DAC的描述和封裝管腳是一樣的,但兩者的價格差別很大,請問兩者的主要區別是什么,有沒有二者的對比參數類的描述
    發表于 08-06 06:58

    hadoop和spark區別

    一下看看(發行版DKhadoop,去大快的網站上應該可以下載到的。) 在學習hadoop的時候查詢一些資料的時候經常會看到有比較hadoop和spark的,對于初學者來說難免會有點搞不清楚這二者到底有
    發表于 11-30 15:51

    USART和UART的主要區別

    和UART的主要區別在于,USART支持同步通信,該模式有一根時鐘線提供時鐘。串口在嵌入式中經常使用,一般使用UAR
    發表于 08-16 09:08

    HDL語言中的unsigned與signed的主要區別是什么

    unsigned是什么意思?signed是什么意思?HDL語言中的unsigned與signed的主要區別是什么?
    發表于 09-24 07:02

    PLC的信號板和信號模塊的主要區別是什么?

    PLC的信號板和信號模塊的主要區別是什么?
    發表于 04-17 10:57

    樹莓派和51單片機的主要區別是什么?

    樹莓派和51單片機的主要區別是什么
    發表于 11-01 07:51

    STM8L和STM8S的主要區別是什么?

    兩者的主要區別是啥
    發表于 11-02 07:46

    AD9162和AD9164的主要區別是什么?

    AD9162和AD9164的主要區別是什么,我看手冊里兩個DAC的描述和封裝管腳是一樣的,但兩者的價格差別很大,請問兩者的主要區別是什么,有沒有二者的對比參數類的描述
    發表于 12-11 06:44

    AMOLED與OLED的主要區別

    電子專業單片機相關知識學習教材資料——vAMOLED與OLED的主要區別
    發表于 10-25 18:27 ?0次下載

    unpacked數組和packed數組的主要區別

    unpacked數組和packed數組的主要區別是unpacked數組在物理存儲時不能保證連續,而packed數組則能保證在物理上連續存儲。
    的頭像 發表于 10-18 09:13 ?2879次閱讀

    NTC與PTC的主要區別和應用

    電子發燒友網站提供《NTC與PTC的主要區別和應用.zip》資料免費下載
    發表于 02-06 14:03 ?2次下載
    NTC與PTC的<b class='flag-5'>主要區別</b>和應用

    步進電機和伺服電機的主要區別

    在許多領域都需要各種電機,包括知名的步進電機和伺服電機。但是,對于許多用戶而言,他們不了解這兩種電機的主要區別,因此他們始終不知道如何選擇。那么,步進電機和伺服電機之間的主要區別是什么?
    發表于 08-21 10:14 ?2689次閱讀
    步進電機和伺服電機的<b class='flag-5'>主要區別</b>

    DCS系統與PLC系統的主要區別

    在工業自動化領域,DCS(分布式控制系統)和PLC(可編程邏輯控制器)是兩個至關重要的控制系統。它們各自具有獨特的特點和優勢,適用于不同的工業環境和控制需求。本文將對DCS系統和PLC系統的主要區別進行詳細的分析和討論,旨在幫助讀者更好地理解和選擇適合自己應用需求的控制系
    的頭像 發表于 06-06 18:06 ?1376次閱讀

    無刷電機和有刷電機的主要區別

      在電機領域,無刷電機和有刷電機是兩種常見的電機類型。它們各自具有獨特的工作原理、優缺點以及應用場景。本文將詳細解釋無刷電機和有刷電機之間的主要區別,包括它們的工作原理、優缺點、應用場景等方面的內容,以幫助讀者更好地理解和選擇這兩種電機。
    的頭像 發表于 06-07 10:52 ?2093次閱讀

    dwdm與wdm的主要區別

    光纖通信中廣泛使用的多路復用技術。它們的主要區別在于波長間隔、系統容量、成本和應用領域等方面。 波長間隔 DWDM和WDM的主要區別在于它們使用的波長間隔。WDM技術使用較大的波長間隔,通常在20nm到
    的頭像 發表于 07-18 10:34 ?895次閱讀
    主站蜘蛛池模板: 快播av种子| 爱做久久久久久| 中国明星16xxxxhd| 国产欧美一区二区精品仙草咪 | 国产97视频在线观看| 乱h好大噗嗤噗嗤烂了| 亚洲国产综合另类视频| 把腿张开老子CAO烂你动态图| 九九热综合| 性xxx欧美| 动漫美女人物被黄漫在线看| 蜜柚影院在线观看免费高清中文 | 日韩丰满少妇无码内射| 97久久久久| 久久精品国产在热亚洲完整版| 我不卡影院手机在线观看| aaa在线观看视频高清视频| 久久亚洲精品永久网站| 亚洲精品色播一区二区| 国产精品久久人妻无码蜜| 欧美最猛12teevideos欧美| 最近2019年日本中文免费字幕| 国产人妻XXXX精品HD电影| 色狠狠一区二区| 大伊人青草狠狠久久| 青青草 久久久| 99久久国产综合色| 久久精品国产视频澳门| 亚洲国产成人在线视频| 国产精品无码麻豆放荡AV| 思思99精品国产自在现线| 俄罗斯大肥BBXX| 日本aaaa| 超碰视频在线观看| 秋霞电影网伦大理电影在线观看 | 色欲AV亚洲永久无码精品麻豆 | 亚洲精品人成电影网| 国产永久视频| 亚洲精品无码一区二区三区四虎 | jlzz中国jizz日本老师水多| 欧美精品九九99久久在观看|