计算机科学 ›› 2019, Vol. 46 ›› Issue (11A): 212-215.
李光华1, 李俊清1,2, 张亮1, 辛衍森1, 邓华伟1
LI Guang-hua1, LI Jun-qing1,2, ZHANG Liang1, XIN Yan-sen1, DENG Hua-wei1
摘要: 面对海量的高维数据,剔除冗余特征来进行特征筛选,已成为当今信息与科学技术面临的重要问题之一。传统的特征选择方法不适合对整个特征空间进行搜索,其运行性能以及准确性低下。文中提出了一种融合蚁群算法和随机森林的特征选择方法,该方法将随机森林的重要度评分作为蚁群算法的启发式信息,然后采用蚁群算法进行智能搜索,并将特征选择结果作为评价指标实时反馈给蚁群的信息素。实验表明,该特征选择方法与传统特征选择方法相比,能够有效地减少数据集中的特征数量,同时提高了数据分类的准确率。
中图分类号:
[1]姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报(工学版),2014,44(1):137-141. [2]刘飞飞.特征选择算法及应用综述[J].办公自动化,2018,23(21):47-49. [3]张翠军,陈贝贝,周冲,等.基于多目标骨架粒子群优化的特征选择算法[J].计算机应用,2018,38(11):3156-3160,3166. [4]刘依恋.模式分类中特征选择算法研究[D].哈尔滨:哈尔滨理工大学,2014. [5]BREIMEN L.Random Forests [J].Machine Learning,2001,45(1):5-32. [6]徐少成,李东喜.基于随机森林的加权特征选择算法[J].统计与决策,2018,34(18):25-28. [7]杨凯,侯艳,李康.随机森林变量重要性评分及其研究进展[OL].http://www.paper.edu.cn/releasepaper/content/201507-212. [8]ALBERTO C,MANIEZZO D.Distributed optimization by ant colonies[C]∥Proc of the First European Conf on Artificial Life.Paris:Elsevier Publishing.1991:134-142. [9]黄丹凤,祁云嵩,许姗娜.基于粗糙集和蚁群算法的特征基因选择方法[J].计算机技术与发展,2012,22(6):68-70,74. [10]马军建,董增川,王春霞,等.蚁群算法研究进展[J].河海大学学报(自然科学版),2005(2):139-143. [11]杨丽.基于ReliefF和蚁群算法的特征基因选择方法分析[J].电脑知识与技术,2017,13(32):199-200. [12]MURPHY P M,AHA D W.UCI repository of machine learning database [DB/OL].(2006-05-12).http://www.ics.uci.edu/mlearn/MLRepository.html. [13]KIRA K,RENDELL L A.The feature selection problem:Traditional methods and a new algorithm[C]∥AAAI.1992:129-134. [14]卜华龙,夏静,韩俊波.特征选择算法综述及进展研究[J].巢湖学院学报,2008(6):41-44. [15]许行,张凯,王文剑.一种小样本数据的特征选择方法[J].计算机研究与发展,2018,55(10):2321-2330. [16]朱振国,赵凯旋,刘民康.基于强化学习的特征选择算法[J].计算机系统应用,2018,27(10):214-218. [17]闫春,李亚琪,孙海棠.基于蚁群算法优化随机森林模型的汽车保险欺诈识别研究[J].保险研究,2017(6):114-127. [19]雷海锐,高秀峰,刘辉.基于机器学习的混合式特征选择算法[J].电子测量技术,2018,41(16):42-46. [20]邱宁佳,周稳,王鹏,等.一种结合改进CHI和RFFS的特征选择算法研究[J].计算机工程与应用,2018,54(21):133-140. [21]叶志伟,郑肇葆,万幼川,等.基于蚁群优化的特征选择新方法[J].武汉大学学报(信息科学版),2007(12):1127-1130. [22]张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2019:1-5. [23]李晓岚.基于Relief特征选择算法的研究与应用[D].大连:大连理工大学,2013. [24]蔡萌萌,张巍巍,王泓霖.大数据时代的数据挖掘综述[J].价值工程,2019,38(5):155-157. [25]魏茂胜.数据挖掘中的分类算法综述[J].网络安全技术与应用,2017(6):65-66. |
[1] | 刘鑫, 王珺, 宋巧凤, 刘家豪. 一种基于AAE的协同多播主动缓存方案 Collaborative Multicast Proactive Caching Scheme Based on AAE 计算机科学, 2022, 49(9): 260-267. https://doi.org/10.11896/jsjkx.210800019 |
[2] | 李斌, 万源. 基于相似度矩阵学习和矩阵校正的无监督多视角特征选择 Unsupervised Multi-view Feature Selection Based on Similarity Matrix Learning and Matrix Alignment 计算机科学, 2022, 49(8): 86-96. https://doi.org/10.11896/jsjkx.210700124 |
[3] | 高振卓, 王志海, 刘海洋. 嵌入典型时间序列特征的随机Shapelet森林算法 Random Shapelet Forest Algorithm Embedded with Canonical Time Series Features 计算机科学, 2022, 49(7): 40-49. https://doi.org/10.11896/jsjkx.210700226 |
[4] | 胡艳羽, 赵龙, 董祥军. 一种用于癌症分类的两阶段深度特征选择提取算法 Two-stage Deep Feature Selection Extraction Algorithm for Cancer Classification 计算机科学, 2022, 49(7): 73-78. https://doi.org/10.11896/jsjkx.210500092 |
[5] | 康雁, 王海宁, 陶柳, 杨海潇, 杨学昆, 王飞, 李浩. 混合改进的花授粉算法与灰狼算法用于特征选择 Hybrid Improved Flower Pollination Algorithm and Gray Wolf Algorithm for Feature Selection 计算机科学, 2022, 49(6A): 125-132. https://doi.org/10.11896/jsjkx.210600135 |
[6] | 阙华坤, 冯小峰, 刘盼龙, 郭文翀, 李健, 曾伟良, 范竞敏. Grassberger熵随机森林在窃电行为检测的应用 Application of Grassberger Entropy Random Forest to Power-stealing Behavior Detection 计算机科学, 2022, 49(6A): 790-794. https://doi.org/10.11896/jsjkx.210800032 |
[7] | 高文龙, 周天阳, 朱俊虎, 赵子恒. 基于双向蚁群算法的网络攻击路径发现方法 Network Attack Path Discovery Method Based on Bidirectional Ant Colony Algorithm 计算机科学, 2022, 49(6A): 516-522. https://doi.org/10.11896/jsjkx.210500072 |
[8] | 王文强, 贾星星, 李朋. 自适应的集成定序算法 Adaptive Ensemble Ordering Algorithm 计算机科学, 2022, 49(6A): 242-246. https://doi.org/10.11896/jsjkx.210200108 |
[9] | 储安琪, 丁志军. 基于灰狼优化算法的信用评估样本均衡化与特征选择同步处理 Application of Gray Wolf Optimization Algorithm on Synchronous Processing of Sample Equalization and Feature Selection in Credit Evaluation 计算机科学, 2022, 49(4): 134-139. https://doi.org/10.11896/jsjkx.210300075 |
[10] | 孙林, 黄苗苗, 徐久成. 基于邻域粗糙集和Relief的弱标记特征选择方法 Weak Label Feature Selection Method Based on Neighborhood Rough Sets and Relief 计算机科学, 2022, 49(4): 152-160. https://doi.org/10.11896/jsjkx.210300094 |
[11] | 章晓庆, 方建生, 肖尊杰, 陈浜, RisaHIGASHITA, 陈婉, 袁进, 刘江. 基于眼前节相干光断层扫描成像的核性白内障分类算法 Classification Algorithm of Nuclear Cataract Based on Anterior Segment Coherence Tomography Image 计算机科学, 2022, 49(3): 204-210. https://doi.org/10.11896/jsjkx.201100085 |
[12] | 李宗然, 陈秀宏, 陆赟, 邵政毅. 鲁棒联合稀疏不相关回归 Robust Joint Sparse Uncorrelated Regression 计算机科学, 2022, 49(2): 191-197. https://doi.org/10.11896/jsjkx.210300034 |
[13] | 刘振宇, 宋晓莹. 一种可用于分类型属性数据的多变量回归森林 Multivariate Regression Forest for Categorical Attribute Data 计算机科学, 2022, 49(1): 108-114. https://doi.org/10.11896/jsjkx.201200189 |
[14] | 张叶, 李志华, 王长杰. 基于核密度估计的轻量级物联网异常流量检测方法 Kernel Density Estimation-based Lightweight IoT Anomaly Traffic Detection Method 计算机科学, 2021, 48(9): 337-344. https://doi.org/10.11896/jsjkx.200600108 |
[15] | 杨蕾, 降爱莲, 强彦. 基于自编码器和流形正则的结构保持无监督特征选择 Structure Preserving Unsupervised Feature Selection Based on Autoencoder and Manifold Regularization 计算机科学, 2021, 48(8): 53-59. https://doi.org/10.11896/jsjkx.200700211 |
|