计算机科学 ›› 2013, Vol. 40 ›› Issue (12): 55-58.
林啟锋,蒙祖强,陈秋莲
LIN Qi-feng,MENG Zu-qiang and CHEN Qiu-lian
摘要: 特征选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度。χ2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一。分析了χ2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特征词无法全面表达出此类的概念含义,依赖于训练集中出现的特征情况,且该向量仅用于特征选择阶段;针对χ2统计量特征词的表达局限及其向量没有得到充分利用的问题,提出结合同义向量聚合和特征多类别的改进KNN分类算法,该方法能够综合考虑特征所表达的含义,且通过特征集多类别矩阵使CHI向量也能在分类阶段起到提高整个算法效率的作用。实验结果与分析表明,该改进算法明显提高了文本分类效率,并且提高了分类的精度。
[1] Yang Yi-ming,Liu Xin.A re-exam ination of text categorization methods[C]∥Proceedings,22nd Annual Internaitonal ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR).1999:42-49 [2] 陈雅芳,徐从富.中文文本分类方法研究[D].杭州:浙江大学,2012 [3] 李莹,张晓辉,王华勇,等.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,5(6):993-996 [4] 印鉴,谭焕去.基于统计量的KNN文本分类算法[J].小型微型计算机系统,2007,8(6):1094-1097 [5] 林少波,杨丹.中文文本分类特征提取方法的研究与实现[D].重庆:重庆大学,2011 [6] 申红,吕宝粮,内山将夫,等.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,3(3):222-224 [7] Yang Y,Pedersen J P.A comparative study on feature selection in text categorization[C]∥Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97).1997:412-420 [8] 王爱平,徐晓艳,国玮玮,等.基于改进KNN算法的中文文本分类方法[J].微型机与应用,2011,0(18):8-10 [9] Y Gao,P Jin-yan,F Gao.Improved Boosting Algorithm through Weighted K-Nearest Neighbors Classifier[C]∥Proceedings,3rd International Conference on Computer Science and Information Technology(ICCSIT).2010:36-40 [10] 董振东,董强.知网简介[EB/OL].http://www.Keenage.-com,2012-7-23 [11] 谭松波,王月粉.中文文本分类语料库TanCorpV1.0[EB/OL].http://lcc.software.ict.ac.cn/tansongbo/corpusl.php,2010-10-23 |
No related articles found! |
|