摘要: 隐含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一种用于挖掘文档集中潜在主题信息的无监督主题模型。而LDA模型的变形Labeled-LDA则可以作为有监督的多标签分类器,它建立了主题与标签的一一映射,从而学习出词与标签之间的关系。近年来,图模型在文本挖掘方面的应用取得了良好的效果,通过对文档建立图模型,为进一步分析文档的语义提供了新的途径。提出了一种利用Labeled-LDA和文档图模型进行文本分类的新算法,与传统的LDA模型方法相比,该方法的性能有较大的提高。
[1] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17:1848-1859 [2] Chen L,Tokuda N,Nagai A.A new differential LSI space-based probabilistic document classifier[J].Information Processing Letters,2003,88(5):203-212 [3] Hofmann T.Probabilistic Latent Semantic Indexing[C]∥SI-GIR.1999:50-57 [4] 李文波,孙乐,张大鲲.基于Labeled-LDA模型文本分类新算法[J].计算机学报,2008,31:620-627 [5] Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022 [6] Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topic model for credit attribution in multi-labeled corpora[C]∥Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing.August 2009:248-256 [7] 黄云平,孙乐,李文波.基于上下文图模型文本表示的文本分类研究[C]∥第四届全国信息检索与内容安全学术会议论文集(上).2008 [8] 赵鑫,李晓明.主题模型在文本挖掘中的应用[R].PKU-CS-NCIS-TR2011XX.June 2011 [9] Griffiths T L,Steyvers M.Finding scientific topics[C]∥Proceedings of the National Academy of Sciences.April 2004,1:5228-5235 [10] Griffiths T.Gibbs sampling in the generative model of Latent Dirichlet Allocation.http://people.cs.umass.edu/~wallach/courses/s11/cmpsci791ss/readings/griffithso2gibbs.pdf [11] Chang C-C,Lin C-J.LIBSVM:a library for support vector machines.http://www.csie.ntu.edu.tw/~cjlin/libsvm,2001 [12] Blei D M.Probabilistic topic models[J].Communications of the ACM,2012,5:77-84 [13] Blei D M,McAuliffe J D.Supervised topic models[C]∥NIPS.2007 [14] Cancho R F I,Sole R V.The small world of human language[J].Proceedings of The Royal Society of London B:Biological Sciences,2001,8(1482):2261-2265 [15] Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing & Management,1988,4(5):513-523 |
No related articles found! |
|