计算机科学 ›› 2006, Vol. 33 ›› Issue (11): 143-145.

• 计算机网络与信息安全 • 上一篇    下一篇

基于最大关联规则的文本分类

何玉 冯剑琳 王元珍   

  1. 华中科技大学计算机学院,武汉430074
  • 出版日期:2018-11-17 发布日期:2018-11-17
  • 基金资助:
    国家自然科学基金(编号:60373000).

HE Yu, FENG Jian-Lin, WANG Yuan-Zhen (Department of Computer Science and Teehnology,Huazhong University of Science and Technology, Wuhan 430074)   

  • Online:2018-11-17 Published:2018-11-17

摘要: 我们提出了一种新颖的、基于最大关联的文本分类方法—SAT-MOD+。在文本分类中,以往的方法在挖掘频繁项集和关联规则的时候,往往是将整个文本看作一个事务来处理的,然而文本的基本的语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,SAT-MOD+把一篇文档里的某些句子作为一个单独的事务。通过在标准的文本集上的大量实验,证明了SAT-MOD+的有效性。

关键词: 文本分类 关联规则 最大频繁项目集

Abstract: We propose a novel association based method called SAT-MOD+ for text classification. While previous methods mainly mined frequentlyco-occurring words (frequent itemsets) at the document-level, the basic semantic unit in a document is a sentence. Words wit

Key words: Text classification, Association rules, Maximal frequent itemsets

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!