基于雙語LDA的跨語言文本相似度計算方法
大小:0.57 MB 人氣: 2017-11-21 需要積分:0
基于雙語主題模型思想分析雙語文本相似性,提出基于雙語LDA跨語言文本相似度計算方法。先利用雙語平行語料集訓練雙語LDA模型,再利用該模型預測新語料集主題分布,將新語料集的雙語文檔映射到同一個主題向量空間,結合主題分布使用余弦相似度方法計算新語料集雙語文檔的相似度,使用從類別間和類別內的主題分布離散度的角度改進的主題頻率逆文檔頻率方法計算特征主題權重。實驗表明,改進后的權重計算對于基于雙語LDA相似度算法的召回率有較大提高,算法對類別不受限且有較好的可靠性。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%