计算机科学 ›› 2009, Vol. 36 ›› Issue (11): 196-199.
朱颢东,钟勇
ZHU Hao-dong,ZHONG Yong
摘要: 在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普通现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法。首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于13cam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法。该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该算法是有效的。
No related articles found! |
|