一个人看的www视频在线,亚洲欧美天堂,亚洲午夜久久久久中文字幕

一、MapReduce

（1）MapReduce概要介紹

MapReduce是一種編程模型，可用于大規模數據集（數據量大于1TB的數據集）的并行運算（根據百度百科：并行運算是一種一次可執行多個指令的算法，可提高計算速度）。MapReduce可使程序的并行運算更加簡單。

Map（映射）是于各個節點對本地數據的預處理操作。 Reduce（歸約）是將Map預處理操作后的數據匯總。Reduce可使編程人員不必關心如何實現分布式并行程序，基于Reduce，編程人員可只關注業務數據處理。

（2）處理模型

MapReduce框架負責處理并行計算中的復雜問題，包括：分布式存儲、作業調度、負載均衡、容錯處理、網絡通信等。

MapReduce的處理流程如圖一所示。

首先，數據在數據節點被劃分為數據塊（個人理解：數據塊即圖一中的split），MapReduce確定待處理的數據塊數量并確定每個記錄（個人理解：此處記錄可被理解關系數據庫的一行數據）在數據塊中的位置；

然后，劃分后的數據塊作為Map的輸入；

再然后，Map的輸出數據需要經過sort（個人理解：分類）、copy（個人理解：復制）、merge（個人理解：合并）操作成為Reduce的輸入，Reduce的輸入數據間沒有交集，系統中處于Reduce運行的節點的數量等于merge操作后的數據數量；

最后，輸出Reduce運行后的數據。

圖一，圖片來源：學堂在線《大數據導論》

二、Spark

（1）Spark概要介紹

Spark是針對大規模數據處理的快速通用引擎，其功能是類似MapReduce的計算引擎。

（2）Spark的特點

1）計算速度快。Spark計算速度是Hadoop計算速度的一百倍。

2）可用性高。Spark可使用Java、Python、R、SQL等編程語言。

3）通用性。Spark由一系列解決處理復雜問題的組件構成，可處理多種類型有關數據庫的復雜問題。

4）可運行于多種環境中，運行環境包括Hadoop等。

圖片來源：學堂在線《大數據導論》

（3）Spark的體系架構

1）Cluster Manager：Cluster Manager是主節點，控制整個集群，監控 Worker Node。

2）Worker Node：Worker Node是從節點，負責控制計算節點，啟動Executor 或者Driver

3）Driver：運行Application（個人理解：此處Application指某一應用）的main()函數

4）Executor：為Application運行Worker Node上的一個進程。

圖片來源：學堂在線《大數據導論》

（4）RDD

RDD（Resilient Distributed Dataset）被稱為彈性分布式數據集，利用SparkContext實例（根據網絡資料理解：每個SparkContext實例是Spark的一個應用）創建的對象均為RDD。RDD是不可變、可分區、其內部元素可并行計算的集合，數據可在RDD中運行RDD的自有函數。

RDD的函數被稱為RDD算子，RDD算子分為Transformation和Action兩種類型。Transformation具有類似于MapReduce的功能，Action的功能包括：觸發RDD計算、統計RDD元素個數等。

RDD的特點包括：自動容錯、位置感知性調度、可伸縮性（個人理解：數據量的多少對RDD的運行影響較小）、可在已有RDD的基礎上創建新的RDD、延遲執行（延遲執行即Transformation只有在Action被觸發后才執行）。

另外，RDD允許用戶在執行多個查詢時可將工作集緩存在內存中，后續的查詢可重用工作集，可提升查詢速度。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

SQL

SQL

+關注

關注
1

文章
777

瀏覽量
44591
編程語言

編程語言

+關注

關注
10

文章
1952

瀏覽量
35519
RDD

RDD

+關注

關注
0

文章
7

瀏覽量
8041
SPARK

SPARK

+關注

關注
1

文章
105

瀏覽量
20227
MapReduce

MapReduce

+關注

關注
0

文章
45

瀏覽量
6435

原文標題：大數據相關介紹（22）——MapReduce和Spark

文章出處：【微信號：行業學習與研究，微信公眾號：行業學習與研究】歡迎添加關注！文章轉載請注明出處。

NVIDIA加速的Apache Spark助力企業節省大量成本

隨著 NVIDIA 推出 Aether 項目，通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作負載，從而節省數百萬美元。

發表于 03-25 15:09 ?305次閱讀

NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企業節省大量成本

CAN通信協議——中文版

資料介紹：本資料是面向 CAN 總線初學者的 CAN 入門書。對 CAN 是什么、CAN 的特征、標準規格下的位置分布等、 CAN 的概要及 CAN 的協議進行了說明。純分享貼，有需要可以直接下載附件獲取完整資料！（如果內容有幫助可以關注、點贊、評論支持一下

發表于 03-22 15:27

NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機

和聯想）提供。 NVIDIA 發布了由 NVIDIA Grace Blackwell 平臺驅動的 DGX 個人 AI 超級計算機。 DGX Spark（前身為 Project DIGITS）支持 AI

發表于 03-20 18:59 ?618次閱讀

NVIDIA GTC2025 亮點 NVIDIA推出 DGX <b class='flag-5'>Spark</b>個人AI計算機

NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

的 DGX? 個人 AI 超級計算機。 ? DGX Spark（前身為 Project DIGITS）支持 AI 開發者、研究人員、數據科學家和學生，在臺式電腦上對大模型進行原型設計、微調和推理。用

發表于 03-19 09:59 ?201次閱讀

NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 個人 AI 計算機

SHA105概要數據手冊

電子發燒友網站提供《SHA105概要數據手冊.pdf》資料免費下載

發表于 01-21 14:33 ?0次下載

SHA106概要數據手冊

電子發燒友網站提供《SHA106概要數據手冊.pdf》資料免費下載

發表于 01-21 14:31 ?0次下載

ECC206概要數據手冊

電子發燒友網站提供《ECC206概要數據手冊.pdf》資料免費下載

發表于 01-21 14:05 ?0次下載

IEEE2030.5概要

IEEE 2030.5IEEE 2030.5（Smart Energy Profile 2.0，SEP2）是一種智慧能源管理通信協議，最早由ZigBee聯盟開發。2013年IEEE在SEP2基礎上開發了IEEE2030.5。IEEE2030.5是一個應用層協議，支持TCP/IP。IEEE2030.5支持多種物理層接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 從Phase 2開始規定：電網運營商和分布式能源之間互操作需要通信支持，以保障公用事業單位能夠遠程管理和控制分布式能源。加州 Rule 21規定采用IEEE2030.5協議進行通信。IEEE2030.5 CSIP為采用IEEE230.5的詳細實施指南。SunSpec Alliance負責CA Rule 21 Certification Program，即IEEE2030.5 CSIP實施指南的認證。

發表于 11-21 14:44 ?932次閱讀