计算机科学 ›› 2004, Vol. 31 ›› Issue (12): 135-136.

• 计算机网络与信息安全 • 上一篇    下一篇

基于二次熵的互信息特征选取方法的研究

刘丽珍 宋瀚涛 陆玉昌   

  1. 北京理工大学北京100081 清华大学北京100084 首都师范大学北京100037//北京理工大学北京100081
  • 出版日期:2018-11-17 发布日期:2018-11-17

  • Online:2018-11-17 Published:2018-11-17

摘要: 随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础,提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。

关键词: 特征选取 文本分类 特征集 互信息 高维 网页 特征空间 取出 类方 处理

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!