Winnowing指紋串匹配的重復(fù)數(shù)據(jù)刪除算法
目前數(shù)據(jù)激增問題使數(shù)據(jù)中心處理的數(shù)據(jù)量呈現(xiàn)爆炸式增長,數(shù)據(jù)存儲、備份和恢復(fù)所需的時間和容量也隨之增大,給存儲系統(tǒng)帶來了沉重的負(fù)擔(dān)。由于數(shù)據(jù)來源不同,許多數(shù)據(jù)被反復(fù)存儲,造成了大量的數(shù)據(jù)冗余,尤其在備份系統(tǒng)中更加突出。重復(fù)數(shù)據(jù)刪除技術(shù)的出現(xiàn)引起了研究者的關(guān)注,它不僅能夠減少存儲和處理的數(shù)據(jù)量,節(jié)約數(shù)據(jù)的管理和存儲成本,同時提高了網(wǎng)絡(luò)通信的速度,成為降低數(shù)據(jù)中心冗余數(shù)據(jù)量的有效手段。
為了在存儲系統(tǒng)中充分利用重復(fù)數(shù)據(jù)刪除技術(shù),減少數(shù)據(jù)的最終積累量,縮短消除冗余數(shù)據(jù)的時間,許多經(jīng)典的重復(fù)數(shù)據(jù)刪除算法被提出。EB( Extreme Binning)算法。利用文件相似性,使用最小塊簽名作為文件的特征,只在內(nèi)存中保存文件的代表塊ID,有效減小了內(nèi)存占用。然而,最小塊ID作為主索引,一方面重刪率相對較低,另一方面數(shù)據(jù)分塊算法影響最小塊簽名,不同的分塊算法所產(chǎn)生的最小塊可能不同,從而影響重刪的準(zhǔn)確性。Bloom filter算法利用K個Hash函數(shù)將數(shù)據(jù)塊MD5值映射到m位的向量y中,減少頻繁的I/O操作,但存在假正例( False Positives)誤識別率,并且無法從Bloom Filter榘合中刪除元素,在需要數(shù)據(jù)修改的場景下不能使用。張滬寅等提出了用戶感知的重復(fù)數(shù)據(jù)刪除算法,根據(jù)用戶相關(guān)度,以用戶為單位,減少了數(shù)據(jù)空間局部性,但對于非人為產(chǎn)生的數(shù)據(jù),其相似性計算準(zhǔn)確度較低。
以上算法在數(shù)據(jù)分塊時均采用了可變長度分塊( Content-Defined Chunking,CDC)算法,相對于以文件為粒度,數(shù)據(jù)塊級粒度能夠檢測到文件內(nèi)部的重復(fù)數(shù)據(jù),因此,目前大多數(shù)重復(fù)數(shù)據(jù)刪除算法均采用數(shù)據(jù)塊為粒度。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
Winnowing指紋串匹配的重復(fù)數(shù)據(jù)刪除算法下載
相關(guān)電子資料下載
- 華為Mate 60指紋模組供應(yīng)商要漲價? 248
- 丘鈦科技:9月電容式指紋識別模塊銷量同比下降超60% 273
- 屏下指紋識別技術(shù)工作原理 屏下指紋識別技術(shù)的難題是什么 68
- Mate60系列光學(xué)指紋模組漲價?供應(yīng)商回應(yīng):不實 625
- 華為Mate60系列屏下光學(xué)指紋模組漲價15%~20% 97
- 華為Mate60系列屏下光學(xué)指紋模組供應(yīng)商漲價? 1595
- 傳華為Mate 60屏下指紋模組供應(yīng)商產(chǎn)品最高漲價30% 212
- 多功能Web滲透測試工具Sec-Tools 192
- 恩智浦加速推進(jìn)JCOP ID 2安全eID解決方案 620
- 氨基酸低頻拉曼光譜發(fā)現(xiàn)第二個指紋區(qū)域 79