色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Apache Spark 3.2有哪些新特性

數據分析與開發 ? 來源:過往記憶大數據 ? 作者:過往記憶大數據 ? 2021-11-17 14:09 ? 次閱讀

經過七輪投票, Apache Spark 3.2 終于正式發布了。Apache Spark 3.2 已經是 Databricks Runtime 10.0 的一部分,感興趣的同學可以去試用一下。按照慣例,這個版本應該不是穩定版,所以建議大家不要在生產環境中使用。

Spark 的每月 Maven 下載數量迅速增長到 2000 萬,與去年同期相比,Spark 的月下載量翻了一番。Spark 已成為在單節點機器或集群上執行數據工程、數據科學和機器學習的最廣泛使用的引擎。

Spark 3.2 繼續以使 Spark 更加統一、簡單、快速和可擴展為目標,通過以下特性擴展其范圍:

?在 Apache Spark 上引入 panda API,統一小數據API和大數據API。

?完成 ANSI SQL 兼容模式,簡化 SQL 工作負載的遷移。

?自適應查詢執行產品化完成,以在運行時加速 Spark SQL。

?引入 RocksDB 狀態存儲以使狀態處理更具可擴展性。

在這篇博文中,我們總結了一些更高層次的特性和改進。請關注即將發布的深入研究這些特性的文章。有關所有 Spark 組件的主要功能和已解決的 JIRA 的完整列表,請參閱 Apache Spark 3.2.0 release notes

統一小數據 API 和大數據 API

Python 是 Spark 上使用最廣泛的語言。為了使 Spark 更具 Python 風格,Pandas API 被引入到 Spark,作為 Project Zen 的一部分(另請參閱 Data + AI Summit 2021 會議中的 Project Zen: Making Data Science Easier in PySpark 議題)。現在 pandas 的現有用戶可以通過一行更改來擴展他們的 pandas 應用程序。如下圖所示,得益于 Spark 引擎中的復雜優化,單節點機器 [左] 和多節點 Spark 集群 [右] 的性能都可以得到極大提升。

同時,Python 用戶還可以無縫利用 Spark 提供的統一分析功能,包括通過 SQL 查詢數據、流處理和可擴展機器學習 (ML)。新的 Pandas API 還提供了由 plotly 后端支持的交互式數據可視化。

簡化 SQL 遷移

添加了更多 ANSI SQL 功能(例如,支持 lateral join)。經過一年多的發展,本次發布的 ANSI SQL 兼容處于 GA 狀態。為了避免大量破壞行為的更改,默認情況下 spark.sql.ansi.enabled 依然是未啟用的。ANSI 模式包括以下主要行為更改:

?當 SQL 運算符/函數的輸入無效時,會拋出運行時錯誤,而不是返回為 null (SPARK-33275)。例如,算術運算中的整數值溢出錯誤,或將字符串轉換為數字/時間戳類型時的解析錯誤。

?標準化類型強制語法規則 (SPARK-34246)。新規則定義了給定數據類型的值是否可以基于數據類型優先級列表隱式提升為另一種數據類型,這比默認的非 ANSI 模式更直接。

?新的顯式轉換語法規則 (SPARK-33354)。當 Spark 查詢包含非法類型轉換(例如,日期/時間戳類型轉換為數字類型)時,會拋出編譯時錯誤,告知用戶轉換無效。

此版本還包括一些尚未完全完成的新計劃。例如,標準化 Spark 中的異常消息(SPARK-33539);引入 ANSI interval type (SPARK-27790) 并提高相關子查詢的覆蓋范圍 (SPARK-35553)。

在運行時加速 Spark SQL

此版本 (SPARK-33679) 中默認啟用自適應查詢執行 (AQE)。為了提高性能,AQE 可以根據在運行時收集的準確統計信息重新優化查詢執行計劃。在大數據中,維護和預先收集統計數據的成本很高。無論優化器有多先進,缺乏準確的統計信息通常會導致計劃效率低下。在這個版本中,AQE 與所有現有的查詢優化技術(例如,動態分區修剪,Dynamic Partition Pruning)完全兼容,以重新優化 JOIN 策略、傾斜 JOIN 和 shuffle分區合并。

小數據和大數據都應該在統一的數據分析系統中以高效的方式處理。短查詢性能也變得至關重要。當處理的數據量相當小時,在復雜查詢中編譯 Spark 查詢的開銷非常大。為了進一步降低查詢編譯延遲,Spark 3.2.0刪除了分析器/優化器規則(SPARK-35042、SPARK-35103) 中不必要的查詢計劃遍歷,并加快了新查詢計劃的構建 (SPARK-34989)。因此,與 Spark 3.1.2 相比,TPC-DS 查詢的編譯時間減少了 61%。

更可擴展的狀態處理流

Structured Streaming 中狀態存儲的默認實現是不可伸縮的,因為可以維護的狀態數量受執行器堆大小的限制。在此版本中,Databricks 為 Spark 社區基于 RocksDB 的狀態存儲實現做出了貢獻,該實現已在 Databricks 生產中使用了四年多。這種狀態存儲可以通過對鍵進行排序來避免完全掃描,并在不依賴于執行器堆大小的情況下從磁盤提供數據。

此外,狀態存儲 API 還包含用于前綴匹配掃描 (SPARK-35861) 的 API,以有效支持基于事件時間的會話 (SPARK-10816),允許用戶在 eventTime 上對會話窗口進行聚合。更多細節,請閱讀 Native support of session window in Apache Spark’s Structured Streaming 博文。

Spark 3.2 的其他更新

除了上面這些新功能外,這個版本還關注可用性、穩定性和功能加強,解決了大約 1700 個 JIRA tickets。這是 200 多名貢獻者貢獻的結果,包括個人和公司,如 Databricks,蘋果,Linkedin, Facebook,微軟,英特爾,阿里巴巴,英偉達,Netflix, Adobe 等。我們在這篇博文中重點介紹了 Spark 中的許多關鍵 SQL、Python 和流數據改進,但 3.2 里程碑中還有許多其他功能,包括代碼生成覆蓋率的改進和連接器的增強,您可以在版本中了解更多信息。

開始使用 Spark 3.2

如果您想在 Databricks Runtime 10.0 中試用 Apache Spark 3.2,請注冊 Databricks 社區版或 Databricks 試用版,這兩者都是免費的,并在幾分鐘內就可以使用。如果你想自己搭建的話,可以到 這里 下載。

本文翻譯自 《Introducing Apache Spark 3.2》:https://databricks.com/blog/2021/10/19/introducing-apache-spark-3-2.html

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7246

    瀏覽量

    91218
  • API
    API
    +關注

    關注

    2

    文章

    1563

    瀏覽量

    63609

原文標題:Apache Spark 3.2 正式發布,新特性詳解

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載,從而節省數百萬美元。
    的頭像 發表于 03-25 15:09 ?461次閱讀
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企業節省大量成本

    IBM發布全新Granite 3.2 AI模型

    Granite 3.2 是小型的 AI 模型,通過對開發人員友好的授權條款,提供推理、視覺和護欄功能。
    的頭像 發表于 03-06 16:47 ?494次閱讀

    什么是 USB 3.2

    什么是USB3.2?USB3.2是一種USB(通用串行總線)標準,它建立在之前的USB3.0和USB3.1標準之上。它的開發是為了提供更快的數據傳輸速度和更高的整體性能。提高數據傳輸速度
    的頭像 發表于 01-24 11:39 ?1670次閱讀
    什么是 USB <b class='flag-5'>3.2</b>?

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 一,Llama3.2 Vision簡介 Llama 3.2 Vision是一個多模態大型語言模型(LLMs)的集合,它包括預訓練和指令調整的圖像推理生成模型,兩種參數規模
    的頭像 發表于 11-23 17:22 ?3608次閱讀
    用Ollama輕松搞定Llama <b class='flag-5'>3.2</b> Vision模型本地部署

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集擴展了 Meta Llama 開源模型集的模型陣容,包含視覺語言模型(VLM)、小語言模型(SLM)和支持視覺的更新版 Llama Guard 模型。與 NVIDIA 加速
    的頭像 發表于 11-20 09:59 ?698次閱讀

    @視覺工程師丨15分鐘上手《AIDI3.2腳本開發教程》視頻,請查收!

    平臺軟件的實際應用,阿丘科技針對AIDI3.2版的功能特性,推出全新系列課——《AIDI3.2腳本開發教程》視頻!該教程視頻由阿丘科技算法總監吳雨培主講,共分為上下
    的頭像 發表于 11-09 01:06 ?804次閱讀
    @視覺工程師丨15分鐘上手《AIDI<b class='flag-5'>3.2</b>腳本開發教程》視頻,請查收!

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態模型,現已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的頭像 發表于 10-11 18:08 ?708次閱讀

    USB 3.1和USB 3.2哪些區別

    USB由于標準眾多,即便是之前已經確定的,隨著新一代的推出,標準又出現了新的變化。本期我們將單獨拿出USB 3.1和USB 3.2,它們外觀基本相似,但是在參數對比上有些區別,具體不同一起往下看。
    的頭像 發表于 09-09 14:59 ?3881次閱讀
    USB 3.1和USB <b class='flag-5'>3.2</b><b class='flag-5'>有</b>哪些區別

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個誤區: 1:兩者都是基于內存計算的,任何計算框架都肯定是基于內存的,所以網上說的spark是基于內存計算所以快,顯然是錯誤的 2;DAG計算模型
    的頭像 發表于 09-06 09:45 ?481次閱讀

    廣汽能源與泰國Spark EV簽訂合作框架協議

    近日,廣汽能源科技(泰國)有限公司與Spark EV Co.Ltd.宣布達成重要合作,雙方共同簽署了一項合作框架協議,旨在泰國境內全面布局并運營超級充電場站,為新能源汽車的普及與發展注入強勁動力。
    的頭像 發表于 07-19 17:08 ?1090次閱讀

    電容元件的特性哪些表現

    儲存電荷,電荷的大小與電壓成正比。這種儲存電荷的能力使得電容元件在電路中具有調節電壓、濾波、耦合等多種功能。 容抗特性 電容元件具有容抗特性,即對交流電具有阻礙作用。容抗的大小與電容元件的電容值和交流電的頻率
    的頭像 發表于 07-17 14:22 ?2017次閱讀

    spark運行的基本流程

    前言: 由于最近對spark的運行流程非常感興趣,所以閱讀了《Spark大數據處理:技術、應用與性能優化》一書。通過這本書的學習,了解了spark的核心技術、實際應用場景以及性能優化的方法。本文旨在
    的頭像 發表于 07-02 10:31 ?696次閱讀
    <b class='flag-5'>spark</b>運行的基本流程

    控制閥的理想流量特性哪些

    控制閥的理想流量特性是指控制閥在調節過程中,能夠實現理想的流量調節效果的特性。這些特性對于控制閥的性能和應用具有重要的影響。以下是對控制閥理想流量特性的詳細分析: 線性流量
    的頭像 發表于 06-30 09:31 ?2069次閱讀

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源的分布式計算框架,由UC Berkeley AMP Lab開發,可用于批處理、交互式查詢(Spark SQL)、實
    的頭像 發表于 06-28 17:12 ?991次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    電感科普篇:電感的特性哪些?

    電感科普篇:電感的特性哪些?
    的頭像 發表于 06-16 10:31 ?1873次閱讀
    主站蜘蛛池模板: 午夜宅宅伦电影网 | 色偷偷91综合久久噜噜 | 91精品国产高清久久久久久 | 国产激情视频在线观看 | 日韩一区二区三区射精 | 亚洲国产日韩欧美在线a乱码 | 影音先锋电影资源av | 国产精品久久欧美一区 | 国内精品久久久久影院网站 | 最新高清无码专区在线视频 | 大胸美女被吊起来解开胸罩 | 教室眠催白丝美女校花 | 毛片内射久久久一区 | 做暖暖视频在线看片免费 | 岛国精品在线观看 | 973午夜伦伦电影论片 | 久久久精品久久久久久 | 正能量不良WWW免费窗口 | 午夜福利免费视频921000电影 | 国产亚洲日韩欧美视频 | 无人区乱码区1卡2卡三卡在线 | 大屁股妇女流出白浆 | 国产亚洲精品久久久久苍井松 | 精品无人区一区二区三区 | 亚洲成AV人电影在线观看 | 午夜伦理在线观看 | 妻子的妹妹在线 | 爱情岛论坛网亚洲品质 | 丰满的女朋友 在线播放 | 中文字幕一区二区三区在线不卡 | 涩涩爱涩涩片影院 | 亚洲精品国产精品麻豆99 | 午夜免费国产体验区免费的 | 亚洲精品无码不卡 | 日韩欧美一区二区三区免费观看 | 亚洲一区免费香蕉在线 | 久久精品中文字幕有码日本 | 最近中文字幕MV高清在线视频 | 肉动漫h黄动漫日本免费观看 | 私人玩物黑丝 | 麻豆一二三区果冻 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品