x86服務(wù)器的Hadoop集群配置參考
基于Hadoop的大數(shù)據(jù)方案越來越多地被企業(yè)所采用。但是,如何進行合理地規(guī)劃和配置Hadoop平臺是很多用戶頭痛的事情。在我們接觸或合作的很大一部分客戶,他們在給Hadoop配置硬件的時候,通常沒有考慮到對大數(shù)據(jù)處理的特性,造成后續(xù)Hadoop集群的性能無法滿足要求。典型的配置問題包括:
數(shù)據(jù)節(jié)點的CPU和內(nèi)存配置很高,但磁盤數(shù)量很少(少于6塊磁盤)
按容量考慮而選擇單盤容量非常大的磁盤(大于8TB),但磁盤數(shù)量偏少
數(shù)據(jù)接收速度和查詢性能要求高,但配置的是1GbE網(wǎng)絡(luò)
高可用性要求高場景下管理節(jié)點和數(shù)據(jù)節(jié)點混合在一起,或者管理節(jié)點數(shù)量偏少(少于4個)
本文通過三種不同場景的Hadoop集群方案,對其配置進行說明以便為用戶提供參考。
方案一:低成本的互聯(lián)網(wǎng)分析(IA)
該方案是為互聯(lián)網(wǎng)分析(Internet Analysis,縮寫成IA)或一般非結(jié)構(gòu)化數(shù)據(jù)處理而設(shè)計的Hadoop集群,具有以下特點:
支持非結(jié)構(gòu)化數(shù)據(jù)的接收和分析
WebServer日志文件,點擊流量,Twitter或Facebook的流入
支持使用DataClick、BigInsights或Scoop進行數(shù)據(jù)注入
運行Map/Reduce作業(yè)
數(shù)據(jù)的臨時存儲或輕量存儲的要求
432 TB 裸存儲
超過100 TB 可用存儲空間(數(shù)據(jù)非壓縮)
靈活的壓縮選項(文件格式類型)
1 Gb 以太網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)
結(jié)合數(shù)據(jù)和管理網(wǎng)絡(luò)
單獨的監(jiān)控網(wǎng)絡(luò)支持xCat
可靠的硬件,無需硬件冗余的成本
HDFS數(shù)據(jù)復(fù)制機制實現(xiàn)數(shù)據(jù)保護
支持xCat快速部署
方案二:通用型的數(shù)據(jù)落地區(qū)或數(shù)據(jù)湖(LZ)
該方案是為通用型的數(shù)據(jù)落地區(qū)(Landing Zone,縮寫成LZ)或數(shù)據(jù)湖而設(shè)計,主要特點如下:
非結(jié)構(gòu)化數(shù)據(jù)的快速接收、分析和存儲
ETL 工作負載,包括 DataStage, Informatica
DataClick, BigInsights Console 和Scoop
運行Map/Reduce 和Hive作業(yè)
每GB數(shù)據(jù)的成本低且數(shù)據(jù)完全保護
數(shù)據(jù)的長期存儲和企業(yè)級的保護
每個機架1.344 PB裸存儲!
超過400 TB 可用存儲空間(數(shù)據(jù)非壓縮)
壓縮和加密選項
靈活的存儲框架 – HDFS 或GPFS
靈活的網(wǎng)絡(luò)和安全選項
完全冗余的路由或私有網(wǎng)絡(luò)
10/40 Gb 混合的以太網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)
基于硬件和軟件冗余的可靠構(gòu)造
OS、電源、網(wǎng)絡(luò)和Name Node服務(wù)
HDFS數(shù)據(jù)復(fù)制機制實現(xiàn)數(shù)據(jù)保護
方案三:強大的NoSQL或復(fù)雜分析(NS/CA)
該方案支持NoSQL或復(fù)雜分析(Complex Analysis),對可靠性、性能等要求比前面兩個方案更高。它具有以下特點:
非結(jié)構(gòu)化數(shù)據(jù)的快速接收、分析和查詢
使用BigSQL代替DW & RDBMS
Hbase, Accumulo, Hive 和 Map/Reduce 作業(yè)
BigR, R 或SPSS數(shù)據(jù)挖掘
每GB數(shù)據(jù)的成本低且數(shù)據(jù)完全保護
數(shù)據(jù)的長期存儲和企業(yè)級的保護
每個機架896 TB裸存儲!
超過300 TB 可用存儲空間(數(shù)據(jù)非壓縮)
壓縮和加密選項
靈活的存儲框架 – HDFS 或GPFS
靈活的網(wǎng)絡(luò)和安全選項
完全冗余的路由或私有網(wǎng)絡(luò)
10/40 Gb 混合的以太網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)
基于硬件和軟件冗余的可靠構(gòu)造
OS、電源、網(wǎng)絡(luò)和Name Node服務(wù)
HDFS數(shù)據(jù)復(fù)制機制實現(xiàn)數(shù)據(jù)保護
結(jié)束語
上述內(nèi)容是IBM根據(jù)實踐經(jīng)驗推薦的配置參考模型,用戶在實踐使用時可以數(shù)據(jù)量進行增刪數(shù)據(jù)節(jié)點,服務(wù)器和網(wǎng)絡(luò)設(shè)備也可用換成類似性能其它廠商的產(chǎn)品。
評論
查看更多