高維數據相似性連接查詢算法
大?。?/span>0.81 MB 人氣: 2017-12-15 需要積分:1
標簽:查詢算法(6333)
為了解決高維數據相似性連接查詢中存在的維度災難和計算代價高等問題,基于p一穩態分布,將高維數據映射到低維空間。根據卡方分布的性質,證明了如果低維空間的距離大于b,則原始空間距離大于e的概率具有一定的下界,從而可以在低維空間以較低的計算代價進行有效過濾。在此基礎上,提出了基于卡方分布的高維數據相似性連接查詢算法。為了進一步提高查詢效率,提出了基于雙重過濾的高維數據相似性連接查詢算法。利用真實數據集進行了實驗,實驗結果表明所提方法具有較好的性能?;诳ǚ椒植嫉南嗨菩赃B接查詢算法召回率可以達到90%以上?;陔p重過濾的相似性連接查詢算法可以進一步提高性能,但是會損失一定的召回率。對時間性能要求比較高、對召回率要求不太嚴格的查詢任務可以采用基于雙重過濾的相似性連接查詢算法;反之,可以采用基于卡方分布的相似性連接查詢算法。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%