摘要: 以往基于词语关联的方法在挖掘频繁项集和关联规则时,都是将整个文本看作一个事务来处理的,然而文本的基本语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,我们把一篇文档里的一个句子作为一个单独的事务,从而提出了一种基于句子级关联的分类方法SAT-FOIL。并在本文中提出新的得分模型来获得改进的新算法SAT-FOIL+。通过在标准的文本集Reuters上的大量实验,不仅证明新模型的优越性,而且证明了SAT-FOIL+分类效果同其
No related articles found! |
|