基于MapReduce的聚類算法在大數據運行速度
大小:1.30 MB 人氣: 2017-11-10 需要積分:0
隨著信息技術的進步以及信息化社會的發展,出現各式各樣的海量數據,大量的數據累積在數據庫和數據倉庫中,理解它們已遠遠超出了人的能力。如何將這些堆積的“數據”轉變成人們理解的“知識”,數據挖掘技術應運而生o”。從技術角度看,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的、看似雜亂的實際數據中,提取隱含在其中的、人們不知道的,但又是潛在有用的信息和知識的過程。聚類分析是一項非常實用的數據挖掘技術。但面對龐大的數據集規模,計算的效率受限于單機處理能力。如何提高海量數據下的聚類分析能力是迫切需要解決的問題。Google實驗室提出的分布式并行編程模型或框架MapReducer3],它通過集群來處理海量數據,是云計算平臺主流的并行數據處理模型。
Apache推出的Hadoop平臺用Java實現了MapReduce模型。Mahout是Hadoop平臺的組件之一,是一個機器學習和數據挖掘庫,它利用MapReduce編程模型實現了數據挖掘中的眾多算法,且具有良好的可擴展性。本文在此基礎上,并基于Mahout進行了聚類實例研究。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
基于MapReduce的聚類算法在大數據運行速度下載
相關電子資料下載
- 數據分析工具有哪幾種模式 83
- 中交興路入選2024北京“數據要素×”典型案例集 886
- 中國鐵塔與海康威視達成戰略合作 216
- spark運行的基本流程 91
- 季豐電子與孤波科技攜手合作為車規量產提供大數據支持 740
- 智慧園區綜合安防系統解決方案 83
- 大數據采集系統分為幾類 269
- 如何在數字化時代實現精益生產的創新發展? 117
- 智慧水文監測系統 87
- 大數據分析平臺網站 96