计算机科学 ›› 2005, Vol. 32 ›› Issue (10): 181-186.

• 计算机网络与信息安全 • 上一篇    下一篇

非平衡数据训练方法概述

  

  • 出版日期:2018-11-17 发布日期:2018-11-17
  • 基金资助:
    本课题得到国家自然科学基金(60402011)资助.

  • Online:2018-11-17 Published:2018-11-17

摘要: 现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等.其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类.正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战.传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差.本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法.

关键词: 非平衡数据 小析取项 元学习 训练方法 数据挖掘 评估度量

Abstract: Many real world applications involve learning from imbalanced sets problems. The class imbalance problem corresponds to domains for which one class is represented by a large number of examples while the other is represented by only a few, such as fraud de

Key words: Imbalanced data, Small disjuncts, Meta-learning

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!