计算机科学 ›› 2007, Vol. 34 ›› Issue (5): 183-186.

• 计算机网络与信息安全 • 上一篇    下一篇

基于上下文关系的文本分类特征描述方法

何中市 刘里   

  1. 重庆大学计算机学院,重庆400030 重庆大学语言认知与信息处理研究所,重庆400030
  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    国家自然科学基金项目(60173060).

HE Zhong-Shi, LIU Li (College of Computer ,Institute of Langnage Recognation and Information Processing ,Chongqing University, Chongqing 400030)   

  • Online:2018-11-16 Published:2018-11-16

摘要: 文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选

关键词: 特征描述 文本分类 向量空间模型 权重计算

Abstract: Text feature description is considered as the basic problem in text classification and it aims to use computable feature to model documents. The most used feature description method treats a text as a set of words, which called "bag of words" model, under

Key words: Feature description, Text categorization, Vector space model, Weighting

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!