摘要: 文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选
何中市 刘里. 基于上下文关系的文本分类特征描述方法[J]. 计算机科学, 2007, 34(5): 183-186. https://doi.org/
HE Zhong-Shi, LIU Li (College of Computer ,Institute of Langnage Recognation and Information Processing ,Chongqing University, Chongqing 400030). [J]. Computer Science, 2007, 34(5): 183-186. https://doi.org/