计算机科学 ›› 2014, Vol. 41 ›› Issue (10): 31-35.doi: 10.11896/j.issn.1002-137X.2014.10.007
杨柳,殷钊,滕建斌,王衡,汪国平
YANG Liu,YIN Zhao,TENG Jian-bin,WANG Heng and WANG Guo-ping
摘要: 随着移动通信技术的不断发展,手机的普及率在不断上升,而短信作为传统的移动通信服务,长久以来一直在人们的日常生活中占据着极为重要的位置。可以说,短信在一定程度上记录了人们生活的轨迹。但是,现有的短信管理系统仅对短信进行以联系人为特征分类、以时间为顺序显示的简单非智能化的管理,导致了用户手机中各类短信混杂不清,短信的管理效率极低。通过研究短信的特征,分析传统的基于文档频率的特征值提取方法和基于互信息的特征值提取方法的优势与不足,提出了一种适用于短信的基于词频和互信息的特征值提取方法,并结合短信长度实现了一种改进的贝叶斯分类算法。实验证明,算法在进行短信分类时可以得到相当可观的召回率和准确率。
[1] Patel D,Bhatnagar M.Mobile SMS Classification:An Application of Text Classification[J].International Journal of Soft Computing and Engineering,2011,1(1):47-49 [2] Liu Wu-ying,Wang Ting.Index-based online text classificationfor sms spam filtering[J].Journal of Computers,2010,5(6):844-851 [3] Li Feng,Li Ji-gang.Studying of Classifying Chinese SMS Message Based on Bayesian Classification[J].Journal of Theoretical and Applied Information Technology,2012,44(1):141-146 [4] 陈艳秋.有效特征值提取的快速中文文本分类[D].天津:南开大学,2007 [5] 李静梅,孙丽华,张巧荣,等.一种文本处理中的朴素贝叶斯分类器[J].哈尔滨工程大学学报,2003,24(1):71-74 [6] 自然语言处理与信息检索共享平台.[2013-08-12].http://www.nlpir.org [7] Jcseg开源中文分词组件.[2013-08-12]. https://code.google.com/p/jcseg [8] Chen Tao,Kan Min-yen.Creating a live,public short message service corpus:The NUS SMS corpus[J].Language Resources and Evaluation,2013,47(2):1-37 |
No related articles found! |
|