一、硬件故障檢測(cè)
因?yàn)镠DFS系統(tǒng)(分布式文件系統(tǒng))可由數(shù)百或數(shù)千個(gè)存儲(chǔ)文件數(shù)據(jù)片段的服務(wù)器組成,即HDFS系統(tǒng)包含較多的硬件設(shè)備,所以HDFS系統(tǒng)的硬件故障是常態(tài),而非異常態(tài)。因此,HDFS系統(tǒng)的設(shè)計(jì)框架需包含故障檢測(cè)和數(shù)據(jù)自動(dòng)快速恢復(fù)。
HDFS系統(tǒng)故障檢測(cè)和數(shù)據(jù)自動(dòng)快速恢復(fù)功能具體過(guò)程如下:HDFS系統(tǒng)將數(shù)據(jù)分塊,即數(shù)據(jù)塊的形式存儲(chǔ)于不同硬件設(shè)備中。通常,每個(gè)數(shù)據(jù)塊在HDFS系統(tǒng)被存放于三個(gè)硬件設(shè)備中,即每個(gè)數(shù)據(jù)塊的份數(shù)是三份。當(dāng)某一硬件設(shè)備出現(xiàn)故障時(shí),HDFS系統(tǒng)在檢測(cè)到該設(shè)備故障后,可根據(jù)其他硬件設(shè)備的備份,將該硬件設(shè)備的數(shù)據(jù)再?gòu)?fù)制一遍,使HDFS系統(tǒng)中每個(gè)數(shù)據(jù)塊的份數(shù)保持在三份。
二、數(shù)據(jù)訪(fǎng)問(wèn)
HDFS系統(tǒng)被設(shè)計(jì)為適合批量處理數(shù)據(jù),具有較大的數(shù)據(jù)吞吐量。HDFS系統(tǒng)不適合交互式訪(fǎng)問(wèn)。交互式訪(fǎng)問(wèn)是指用戶(hù)在客戶(hù)端輸入命令,系統(tǒng)可立即對(duì)用戶(hù)命令做出反應(yīng)。交互式訪(fǎng)問(wèn)需要系統(tǒng)具有較快速的反應(yīng)時(shí)間,而HDFS系統(tǒng)處理數(shù)據(jù)的速度可能是幾個(gè)小時(shí)或幾天,因此,HDFS系統(tǒng)的速度不足以支持交互式訪(fǎng)問(wèn)。
圖片來(lái)源:學(xué)堂在線(xiàn)《大數(shù)據(jù)導(dǎo)論》
三、大數(shù)據(jù)集
HDFS系統(tǒng)(分布式文件系統(tǒng))的數(shù)據(jù)集群被設(shè)計(jì)為可包含數(shù)百個(gè)節(jié)點(diǎn)(個(gè)人理解:計(jì)算機(jī)或服務(wù)器均可作為HDFS系統(tǒng)的節(jié)點(diǎn)),百度最大的HDFS系統(tǒng)數(shù)據(jù)集群可能包含4000個(gè)節(jié)點(diǎn)。
HDFS系統(tǒng)的數(shù)據(jù)存儲(chǔ)量可達(dá)至100TB的數(shù)量級(jí),一些HDFS系統(tǒng)的數(shù)據(jù)存儲(chǔ)量可超過(guò)該數(shù)量級(jí)。
HDFS系統(tǒng)被設(shè)計(jì)為可支持大文件存儲(chǔ)。數(shù)據(jù)量越大,HDFS系統(tǒng)的支持量越好。相對(duì)于大文件存儲(chǔ),HDFS系統(tǒng)比較不適合存儲(chǔ)零散的小文件,這是因?yàn)樗鎯?chǔ)的文件越小,主節(jié)點(diǎn)記錄文件存儲(chǔ)節(jié)點(diǎn)的日志文件(個(gè)人理解:存儲(chǔ)節(jié)點(diǎn)的日志文件包含數(shù)據(jù)的存儲(chǔ)位置等信息)越大,主節(jié)點(diǎn)的壓力越大。
四、簡(jiǎn)單一致性模型
HDFS系統(tǒng)被設(shè)計(jì)為簡(jiǎn)單一致性模型。簡(jiǎn)單一致性模型是指多數(shù)HDFS系統(tǒng)的文件操作模式是一次寫(xiě)入多次讀取,即文件一旦被創(chuàng)建、寫(xiě)入、關(guān)閉后,就不再需要修改。HDFS系統(tǒng)不適合對(duì)文件進(jìn)行頻繁的修改和刪除。
五、將計(jì)算移動(dòng)至數(shù)據(jù)
數(shù)據(jù)計(jì)算的最理想狀態(tài)是在靠近數(shù)據(jù)的存儲(chǔ)位置計(jì)算,如果不能實(shí)現(xiàn)數(shù)據(jù)計(jì)算的最理想狀態(tài),則需要通過(guò)將數(shù)據(jù)移動(dòng)至計(jì)算或?qū)⒂?jì)算移動(dòng)至數(shù)據(jù)后再進(jìn)行數(shù)據(jù)計(jì)算。
HDFS系統(tǒng)的數(shù)據(jù)計(jì)算方式是通過(guò)將計(jì)算移動(dòng)至數(shù)據(jù)后再進(jìn)行數(shù)據(jù)計(jì)算。將HDFS系統(tǒng)的數(shù)據(jù)存儲(chǔ)于多個(gè)數(shù)據(jù)節(jié)點(diǎn),在計(jì)算過(guò)程中,可根據(jù)數(shù)據(jù)節(jié)點(diǎn)所存儲(chǔ)的數(shù)據(jù)進(jìn)行相應(yīng)計(jì)算,各數(shù)據(jù)節(jié)點(diǎn)計(jì)算結(jié)束后,再將各數(shù)據(jù)節(jié)點(diǎn)計(jì)算結(jié)果匯總。
HDFS系統(tǒng)的數(shù)據(jù)計(jì)算方式適合大數(shù)據(jù)的計(jì)算,并且可以消除網(wǎng)絡(luò)擁堵,提高系統(tǒng)整體的吞吐量,數(shù)據(jù)計(jì)算的成本更低。如果將超過(guò)100TB的數(shù)據(jù)移動(dòng)至計(jì)算中心,數(shù)據(jù)計(jì)算的速度將低于HDFS系統(tǒng)的數(shù)據(jù)計(jì)算方式,而且由于數(shù)據(jù)量大,網(wǎng)絡(luò)需要承受較大的壓力,容易造成擁堵,數(shù)據(jù)計(jì)算的成本更高。
六、異構(gòu)軟硬件平臺(tái)間的可移植性
HDFS系統(tǒng)被設(shè)計(jì)為可簡(jiǎn)便地實(shí)現(xiàn)平臺(tái)間的遷移,即不同的操作系統(tǒng)均可使用HDFS系統(tǒng)。該特點(diǎn)可推動(dòng)大數(shù)據(jù)集應(yīng)用更多采用HDFS系統(tǒng)。
審核編輯:劉清
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9716瀏覽量
87358 -
存儲(chǔ)數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
89瀏覽量
14289 -
HDFS
+關(guān)注
關(guān)注
1文章
31瀏覽量
9838
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(20)——分布式文件系統(tǒng)的設(shè)計(jì)框架
文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
分布式文件系統(tǒng)和fastDFS
一文解讀在RTThread平臺(tái)上使用DFS分布式文件系統(tǒng)
HarmonyOS分布式文件系統(tǒng)開(kāi)發(fā)指導(dǎo)
采用信任管理的分布式文件系統(tǒng)TrustFs
海量郵件分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于分布式文件系統(tǒng)元數(shù)據(jù)操作優(yōu)化

盤(pán)點(diǎn)一下這些常見(jiàn)的分布式文件系統(tǒng)

AFS,GFS ,QKFile主流分布式存儲(chǔ)文件系統(tǒng)
解析夸克分布式文件系統(tǒng)如何實(shí)現(xiàn)資源共享
分布式文件存儲(chǔ)系統(tǒng)GFS的基礎(chǔ)知識(shí)

分布式文件系統(tǒng)主從式的伸縮性架構(gòu)設(shè)計(jì)

常見(jiàn)的分布式文件存儲(chǔ)系統(tǒng)的優(yōu)缺點(diǎn)

評(píng)論