计算机科学 ›› 2017, Vol. 44 ›› Issue (Z6): 446-450.doi: 10.11896/j.issn.1002-137X.2017.6A.100
黄熠,王娟
HUANG Yi and WANG Juan
摘要: 中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。
[1] 王素格,李德玉,魏英杰.基于赋权粗糙隶属度的文本情感分类方法[J].计算机研究与发展,2011,8(5):855-861. [2] 马晓玲,金碧漪,范并思.中文文本情感倾向分析研究[J].情报资料工作,2013(1):52-56. [3] WANG J X,DONG A.A comparison of two text representations for sentiment analysis[C]∥2010 International Conference on Computer Application and System Modeling (ICCASM 2010).IEEE,2010. [4] 徐健锋,许园,许元辰,等.基于语义理解和机器学习的混合的中文文本情感分类算法框架[J].计算机科学,2015,2(6):61-66. [5] 万源.基于语义统计分析的网络舆情挖掘技术研究[D].武汉:武汉理工大学,2012. [6] CASALE S,RUSSO A,SCEBBA G,et al.Speech Emotion Classification using Machine Learning Algorithms[C]∥The IEEE International Conference on Semantic Computing.Santa Clara,California,USA,August 2008:4-7. [7] CHANGLI Z,WANLI Z,TAO P,et al.Sentiment Classification for Chinese Reviews Using Machine Learning Methods Based on String Kernel[C]∥Third International Conference on Convergence and Hybrid Information Technology.Pusan,Korea,November 2008:11-13. [8] 王维博.粒子群优化算法研究及其应用[D].成都:西南交通大学,2012. [9] DAHIWALE P,RAGHUWANSHI M M,MALIK L.Design of Improved Focused Web Crawler by Analyzing Semantic Nature of URL and Anchor Text[C]∥2014 9th International Confe-rence on Industrial and Information Systems.Gwalior,India,December 2014:15-17. [10] W3C Document Object Model Level 3 Core Specification.http://www.w3.org/TR/DOM-Level-3-Core. [11] 湛燕,陈昊,袁方,等.基于中文文本分类的分词方法研究[J].计算机工程与应用,2003,9(23):87-88,91. [12] 高丹,张彦霞,赵永恒.中国虚拟天文台交叉证认工具的开发和应用[J].天文学报,2008,9(3):348-358. [13] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,1(1):96-100. [14] 吴艳玲.基于SVM的网页分类器的研究[D].长春:吉林大学,2004. [15] 石慧.基于特征选择和特征加权算法的文本分类研究[D].济南:山东师范大学,2015. [16] 王之鹏.Web文本分类系统中文本预处理技术的研究与实现[D].南京:南京理工大学,2009. [17] 平源.基于支持向量机的聚类及文本分类研究[D].北京:北京邮电大学,2012. [18] PLATANIOS E A,CHATZIS S P.Gaussian Process-Mixture Conditional Heteroscedasticity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,6(5):888-900. [19] 胡明.基于高斯过程的非线性预测控制[D].广州:华南理工大学,2012. [20] 王洪春.贝叶斯公式与贝叶斯统计[J].重庆科技学院学报(自然科学版),2010,2(3):203-205. [21] 王成,刘亚峰,王新成,等.分类器的分类性能评价指标[J].电子设计工程,2011,9(8):13-15,21. |
No related articles found! |
|