计算机科学 ›› 2019, Vol. 46 ›› Issue (11A): 212-215.

• 数据科学 • 上一篇    下一篇

一种融合蚁群算法和随机森林的特征选择方法

李光华1, 李俊清1,2, 张亮1, 辛衍森1, 邓华伟1   

  1. (山东农业大学信息科学与工程学院 山东 泰安271018)1;
    (山东农业大学农业大数据研究中心 山东 泰安271018)2
  • 出版日期:2019-11-10 发布日期:2019-11-20
  • 通讯作者: 李俊清(1984-),男,硕士,副教授,主要研究方向为人工智能、大数据,E-mail:a397858801@126.com。
  • 作者简介:李光华(1996-),女,主要研究方向为人工智能、大数据,E-mail:18864802698@163.com。
  • 基金资助:
    本文受山东省科技发展计划项目(2014GNC110012)资助。

Feature Selection Method Based on Ant Colony Optimization and Random Forest

LI Guang-hua1, LI Jun-qing1,2, ZHANG Liang1, XIN Yan-sen1, DENG Hua-wei1   

  1. (School of Information Science and Engineering,Shandong Agricultural University,Tai’an,Shandong 271018,China)1;
    (Agricultural Big Data Research Center,Shandong Agricultural University,Tai’an,Shandong 271018,China)2
  • Online:2019-11-10 Published:2019-11-20

摘要: 面对海量的高维数据,剔除冗余特征来进行特征筛选,已成为当今信息与科学技术面临的重要问题之一。传统的特征选择方法不适合对整个特征空间进行搜索,其运行性能以及准确性低下。文中提出了一种融合蚁群算法和随机森林的特征选择方法,该方法将随机森林的重要度评分作为蚁群算法的启发式信息,然后采用蚁群算法进行智能搜索,并将特征选择结果作为评价指标实时反馈给蚁群的信息素。实验表明,该特征选择方法与传统特征选择方法相比,能够有效地减少数据集中的特征数量,同时提高了数据分类的准确率。

关键词: 随机森林, 特征选择, 蚁群算法

Abstract: In the face of massive high-dimensional data,eliminating redundant features for feature selection has become one of the important issues faced by information and science and technology today.Traditional feature selection methods are not suitable for searching the whole feature space,and their performance and accuracy are low.In this paper,a me-thod of feature selection based on ant colony optimization and random forest was proposed.This method takes the importance score of random forest as the heuristic factor of ant colony optimization,uses ant colony optimization to search intelligently,and uses the result of feature selection as the evaluation index to feedback the pheromone of ant colony in real time.Experiments show that this feature selection method can effectively reduce the number of features in data sets and improve the accuracy of data classification compared with traditional feature selection methods.

Key words: Ant colony optimization, Feature selection, Random forest

中图分类号: 

  • TP391
[1]姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报(工学版),2014,44(1):137-141.
[2]刘飞飞.特征选择算法及应用综述[J].办公自动化,2018,23(21):47-49.
[3]张翠军,陈贝贝,周冲,等.基于多目标骨架粒子群优化的特征选择算法[J].计算机应用,2018,38(11):3156-3160,3166.
[4]刘依恋.模式分类中特征选择算法研究[D].哈尔滨:哈尔滨理工大学,2014.
[5]BREIMEN L.Random Forests [J].Machine Learning,2001,45(1):5-32.
[6]徐少成,李东喜.基于随机森林的加权特征选择算法[J].统计与决策,2018,34(18):25-28.
[7]杨凯,侯艳,李康.随机森林变量重要性评分及其研究进展[OL].http://www.paper.edu.cn/releasepaper/content/201507-212.
[8]ALBERTO C,MANIEZZO D.Distributed optimization by ant colonies[C]∥Proc of the First European Conf on Artificial Life.Paris:Elsevier Publishing.1991:134-142.
[9]黄丹凤,祁云嵩,许姗娜.基于粗糙集和蚁群算法的特征基因选择方法[J].计算机技术与发展,2012,22(6):68-70,74.
[10]马军建,董增川,王春霞,等.蚁群算法研究进展[J].河海大学学报(自然科学版),2005(2):139-143.
[11]杨丽.基于ReliefF和蚁群算法的特征基因选择方法分析[J].电脑知识与技术,2017,13(32):199-200.
[12]MURPHY P M,AHA D W.UCI repository of machine learning database [DB/OL].(2006-05-12).http://www.ics.uci.edu/mlearn/MLRepository.html.
[13]KIRA K,RENDELL L A.The feature selection problem:Traditional methods and a new algorithm[C]∥AAAI.1992:129-134.
[14]卜华龙,夏静,韩俊波.特征选择算法综述及进展研究[J].巢湖学院学报,2008(6):41-44.
[15]许行,张凯,王文剑.一种小样本数据的特征选择方法[J].计算机研究与发展,2018,55(10):2321-2330.
[16]朱振国,赵凯旋,刘民康.基于强化学习的特征选择算法[J].计算机系统应用,2018,27(10):214-218.
[17]闫春,李亚琪,孙海棠.基于蚁群算法优化随机森林模型的汽车保险欺诈识别研究[J].保险研究,2017(6):114-127.
[19]雷海锐,高秀峰,刘辉.基于机器学习的混合式特征选择算法[J].电子测量技术,2018,41(16):42-46.
[20]邱宁佳,周稳,王鹏,等.一种结合改进CHI和RFFS的特征选择算法研究[J].计算机工程与应用,2018,54(21):133-140.
[21]叶志伟,郑肇葆,万幼川,等.基于蚁群优化的特征选择新方法[J].武汉大学学报(信息科学版),2007(12):1127-1130.
[22]张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2019:1-5.
[23]李晓岚.基于Relief特征选择算法的研究与应用[D].大连:大连理工大学,2013.
[24]蔡萌萌,张巍巍,王泓霖.大数据时代的数据挖掘综述[J].价值工程,2019,38(5):155-157.
[25]魏茂胜.数据挖掘中的分类算法综述[J].网络安全技术与应用,2017(6):65-66.
[1] 刘鑫, 王珺, 宋巧凤, 刘家豪.
一种基于AAE的协同多播主动缓存方案
Collaborative Multicast Proactive Caching Scheme Based on AAE
计算机科学, 2022, 49(9): 260-267. https://doi.org/10.11896/jsjkx.210800019
[2] 李斌, 万源.
基于相似度矩阵学习和矩阵校正的无监督多视角特征选择
Unsupervised Multi-view Feature Selection Based on Similarity Matrix Learning and Matrix Alignment
计算机科学, 2022, 49(8): 86-96. https://doi.org/10.11896/jsjkx.210700124
[3] 高振卓, 王志海, 刘海洋.
嵌入典型时间序列特征的随机Shapelet森林算法
Random Shapelet Forest Algorithm Embedded with Canonical Time Series Features
计算机科学, 2022, 49(7): 40-49. https://doi.org/10.11896/jsjkx.210700226
[4] 胡艳羽, 赵龙, 董祥军.
一种用于癌症分类的两阶段深度特征选择提取算法
Two-stage Deep Feature Selection Extraction Algorithm for Cancer Classification
计算机科学, 2022, 49(7): 73-78. https://doi.org/10.11896/jsjkx.210500092
[5] 康雁, 王海宁, 陶柳, 杨海潇, 杨学昆, 王飞, 李浩.
混合改进的花授粉算法与灰狼算法用于特征选择
Hybrid Improved Flower Pollination Algorithm and Gray Wolf Algorithm for Feature Selection
计算机科学, 2022, 49(6A): 125-132. https://doi.org/10.11896/jsjkx.210600135
[6] 阙华坤, 冯小峰, 刘盼龙, 郭文翀, 李健, 曾伟良, 范竞敏.
Grassberger熵随机森林在窃电行为检测的应用
Application of Grassberger Entropy Random Forest to Power-stealing Behavior Detection
计算机科学, 2022, 49(6A): 790-794. https://doi.org/10.11896/jsjkx.210800032
[7] 高文龙, 周天阳, 朱俊虎, 赵子恒.
基于双向蚁群算法的网络攻击路径发现方法
Network Attack Path Discovery Method Based on Bidirectional Ant Colony Algorithm
计算机科学, 2022, 49(6A): 516-522. https://doi.org/10.11896/jsjkx.210500072
[8] 王文强, 贾星星, 李朋.
自适应的集成定序算法
Adaptive Ensemble Ordering Algorithm
计算机科学, 2022, 49(6A): 242-246. https://doi.org/10.11896/jsjkx.210200108
[9] 储安琪, 丁志军.
基于灰狼优化算法的信用评估样本均衡化与特征选择同步处理
Application of Gray Wolf Optimization Algorithm on Synchronous Processing of Sample Equalization and Feature Selection in Credit Evaluation
计算机科学, 2022, 49(4): 134-139. https://doi.org/10.11896/jsjkx.210300075
[10] 孙林, 黄苗苗, 徐久成.
基于邻域粗糙集和Relief的弱标记特征选择方法
Weak Label Feature Selection Method Based on Neighborhood Rough Sets and Relief
计算机科学, 2022, 49(4): 152-160. https://doi.org/10.11896/jsjkx.210300094
[11] 章晓庆, 方建生, 肖尊杰, 陈浜, RisaHIGASHITA, 陈婉, 袁进, 刘江.
基于眼前节相干光断层扫描成像的核性白内障分类算法
Classification Algorithm of Nuclear Cataract Based on Anterior Segment Coherence Tomography Image
计算机科学, 2022, 49(3): 204-210. https://doi.org/10.11896/jsjkx.201100085
[12] 李宗然, 陈秀宏, 陆赟, 邵政毅.
鲁棒联合稀疏不相关回归
Robust Joint Sparse Uncorrelated Regression
计算机科学, 2022, 49(2): 191-197. https://doi.org/10.11896/jsjkx.210300034
[13] 刘振宇, 宋晓莹.
一种可用于分类型属性数据的多变量回归森林
Multivariate Regression Forest for Categorical Attribute Data
计算机科学, 2022, 49(1): 108-114. https://doi.org/10.11896/jsjkx.201200189
[14] 张叶, 李志华, 王长杰.
基于核密度估计的轻量级物联网异常流量检测方法
Kernel Density Estimation-based Lightweight IoT Anomaly Traffic Detection Method
计算机科学, 2021, 48(9): 337-344. https://doi.org/10.11896/jsjkx.200600108
[15] 杨蕾, 降爱莲, 强彦.
基于自编码器和流形正则的结构保持无监督特征选择
Structure Preserving Unsupervised Feature Selection Based on Autoencoder and Manifold Regularization
计算机科学, 2021, 48(8): 53-59. https://doi.org/10.11896/jsjkx.200700211
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!