網(wǎng)頁鏈接分類的并行算法
1998年4月,在第七屆國際WWW( World Wide Web)大會上,Page等提出了PageRank算法。這是一種基于網(wǎng)頁鏈接的排序算法,根據(jù)網(wǎng)頁之間的鏈接結(jié)構(gòu)來計算網(wǎng)頁的重要性,從而實現(xiàn)網(wǎng)頁排序。Google搜索引擎使用該算法對網(wǎng)頁進行了準(zhǔn)確的排名。
隨著信息技術(shù)的發(fā)展,網(wǎng)頁數(shù)量急劇增加,采用串行PageRank算法迭代計算網(wǎng)頁排名時,需要消耗大量的存儲和計算資源,且計算效率相當(dāng)?shù)拖?,尋求一種高效排名算法勢在必行。Hadoop是Apache公司提出的開源分布式計算框架,該框架下的MapReduce并行編程模型非常適合于海量數(shù)據(jù)的并行計算。
針對串行PageRank算法在處理海量網(wǎng)頁數(shù)據(jù)時效率低下的問題,提出一種基于網(wǎng)頁鏈接分類的PageRank并行算法。首先,將網(wǎng)頁按照網(wǎng)頁所屬網(wǎng)站分類,為來自不同站點的網(wǎng)頁設(shè)置不同的權(quán)重;其次,利用Hadoop并行計算框架,結(jié)合MapReduce分而治之的特點,并行計算網(wǎng)頁排名;最后,采用一種包含3層:數(shù)據(jù)層、預(yù)處理層、計算層的數(shù)據(jù)壓縮方法,對并行算法進行優(yōu)化。實驗結(jié)果表明,與串行PageRank算法相比,所提算法在最好情況下結(jié)果準(zhǔn)確率提高了12%,計算效率提高了33%。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
網(wǎng)頁鏈接分類的并行算法下載
相關(guān)電子資料下載
- 人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些 134
- 一文快速了解RFID技術(shù)的構(gòu)成及分類 109
- 車載無線技術(shù)分類介紹 412
- 機器視覺光源的作用、分類及實際應(yīng)用 118
- 神經(jīng)元的分類包括哪些 234
- 卷積神經(jīng)網(wǎng)絡(luò)分類方法有哪些 102
- cnn卷積神經(jīng)網(wǎng)絡(luò)分類有哪些 106
- 什么神經(jīng)網(wǎng)絡(luò)模型適合做分類 114
- 卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用 152
- 風(fēng)華貼片電容的分類詳細介紹 86