计算机科学 ›› 2004, Vol. 31 ›› Issue (7): 178-180.

• 计算机网络与信息安全 • 上一篇    下一篇

SAT-TC:基于关联的层次文档聚类

李曲 龙昊   

  1. 华中科技大学计算机科学与技术系,武汉430074
  • 出版日期:2018-11-17 发布日期:2018-11-17

  • Online:2018-11-17 Published:2018-11-17

摘要: 在一篇文档中,一个单词可以看作是一个项目,一组单词就是一个项目集。在以往的基于关联的文本聚类方法中.都是将一整篇文档看作是一个事务来挖掘频繁项目集和关联规则的。但是实际上,一篇文档中的基本语义单位是句子。在同一个句子中同时出现的一组词在语义上或多或少都是相互关联的,与分布在多个句子中的同一组词相比,前者要有意义得多。因此,基于以上发现,我们考虑将文档中的每一个句子看作是一个事务,一篇文档就被看作是一个事务的集合,并由此提出了一种新的文本聚类方法:SAT-TC。通过在标准测试集上的实验证明.SAT-TC要优

关键词: SAT-TC 关联 层次文档聚类 频繁项目集 句子关联事务 聚簇

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!