Hadoop的優點
(1)Hadoop具有按位存儲和處理數據能力的高可靠性。
(2)Hadoop通過可用的計算機集群分配數據,完成存儲和計算任務,這些集群可以方便地擴展到數以千計的節點中,具有高擴展性。
(3)Hadoop能夠在節點之間進行動態地移動數據,并保證各個節點的動態平衡,處理速度非常快,具有高效性。
(4)Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配,具有高容錯性。
Hadoop的缺點
(1)Hadoop不適用于低延遲數據訪問。
(2)Hadoop不能高效存儲大量小文件。
(3)Hadoop不支持多用戶寫入并任意修改文件。
Hadoop的核心組件
Hadoop自誕生以來,主要出現了Hadoop1、Hadoop2、Hadoop3三個系列多個版本。
HDFS和MapReduce是Hadoop1的核心組件,Hadoop生態圈里的很多組件都是基于HDFS和MapReduce發展出來的。在繼Hadoop1之后出現了Hadoop2,Hadoop2在Hadoop1的基礎上做了改進。
相比Hadoop1,Hadoop2的三大核心組件分別是HDFS、MapReduce、Yarn。目前市面上絕大部分企業使用的是Hadoop2,本書使用的是Hadoop2.7.3這一版本。
Hadoop2的一個公共模塊和三大核心組件組成了四個模塊,簡介如下。
(1)HadoopCommon:為其他Hadoop模塊提供基礎設施。
(2)HDFS:具有高可靠性、高吞吐量的分布式文件系統。
(3)MapReduce:基于Yarn系統,分布式離線并行計算框架。
(4)Yarn:負責作業調度與集群資源管理的框架。
-
數據處理
+關注
關注
0文章
595瀏覽量
28554 -
大數據
+關注
關注
64文章
8882瀏覽量
137403
發布評論請先 登錄
相關推薦
評論