计算机科学 ›› 2008, Vol. 35 ›› Issue (10): 178-180.
• • 上一篇 下一篇
出版日期:
发布日期:
基金资助:
Online:
Published:
摘要: 现有文档关系分析模型难以从主题层次上判别文档相关性。为此,提出了一个基于主题的概率文档相关模型(TPDC)。TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型。实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务。
关键词: 主题 主题相似性 文档相关性 文本挖掘
Abstract: Existing models on document relationship analysis have a difficulty in learning document correlation from topic level. To overcome this difficulty, a topic-based probabilistic document correlation model (TPDC) was proposed. The model learns the topic stru
Key words: Topic, Topic similarity,Document correlation,Text mining
. 一种基于主题的概率文档相关模型[J]. 计算机科学, 2008, 35(10): 178-180. https://doi.org/
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://www.jsjkx.com/CN/
https://www.jsjkx.com/CN/Y2008/V35/I10/178
Cited