计算机科学 ›› 2018, Vol. 45 ›› Issue (6A): 476-481.
雷雪梅,谢依彤
LEI Xue-mei, XIE Yi-tong
摘要: 文中提出用于高血压菜谱识别的基于遗传算法的改进XGBoost(eXtreme Gradient Boosting)模型。该模型主要包括3个步骤:首先,对数据集进行预处理,包括缺失值补全、数据去重和特征分析;然后,使用遗传算法自适应地优化XGBoost模型参数;最后,根据最优参数训练高血压菜谱识别模型,并将其应用于高血压菜谱识别。结果表明,在高血压菜谱识别效果方面,采用遗传算法优化的参数优于网格搜索所得到的参数。此外,所提出的基于遗传算法的改进XGBoost模型在精度、回召率、F1值和AUC评估指标方面具有不错的表现,优于其他4种(随机森林、GBDT、Bagging和AdaBooster)组合分类模型,且提高了菜谱识别模型的可解释性。
中图分类号:
[1]李小莉.浅谈社区慢性病高血压的健康管理[J].环球中医药,2013(z1):291-291,292. [2]王春利.终止高血压膳食疗法对社区高血压前期人群干预效果研究[J].中国全科医学,2015,8(23):2833-2836. [3]毕振强,梁晓峰,马吉祥,等.遏制高血压危害,减盐行动势在必行[J].中华预防医学杂志,2014,48(1):4-6. [4]刘雪梅,徐琳琳,王楠,等.日常饮用洋葱汁对高血压和高血脂患者血压、血脂影响研究[J].中国食物与营养,2015,21(8):84-87. [5]吴珊燕,许鑫.基于案例推理的菜谱推荐系统研究[J].现代图书情报技术,2013,29(12):34-41. [6]夏平平.个性化营养菜谱推荐方法的研究[D].合肥:中国科学技术大学,2015. [7]张璐,雷雪梅.基于粒子群优化BP神经网络的养肠胃菜谱判定[J].计算机科学,2016,43(11A):63-66,72. [8]章艳珍,吴岚艳,李李.膳食营养素与高血压关系的研究进展[J].中国食物与营养,2017,23(2):87-89. [9]CHEN T Q,GUESTRIN C.XGBoost:A Scalable Tree Boosting System [C]∥Acm Sigkdd International Conference on Know-ledge Discovery & Data Mining.2016:785-794. [10]XIA Y F,LIU C Z,LI Y Y,et al.A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring[J].Expert Systems With Applications,2017,78:225-241. [11]张昊,纪宏超,张红宇.XGBoost算法在电子商务商品推荐中的应用[J].物联网技术,2017,7(2):102-104. [12]叶倩怡.基于Xgboost方法的实体零售业销售额预测研究[D].南昌:南昌大学,2016. [13]樊鹏.基于优化的xgboost-LMT模型的供应商信用评价研究[D].广州:广东工业大学,2016. [14]MUSTAPHA I B,SAEED F.Bioactive Molecule Prediction Using Extreme Gradient Boosting [J].Molecules,2016,21(8):983. [15]怀浩,刘学,张龙波,等.基于梯度提升决策树的肽碎片离子强度建模[J].山东理工大学学报(自然科学版),2017,31(2):64-68. [16]胥红敏,郭湛,李晓宇,等.基于遗传算法优化BP神经网络的道口事故预测[J].铁路计算机应用,2016,25(3):8-11. [17]史峰,王辉,胡斐,等.MATLAB智能算法30个案例分析[M].北京:北京航空航天大学出版社,2011. [18]向万里,马寿峰.基于轮盘赌反向选择机制的蜂群优化算法[J].计算机应用研究,2013,30(1):86-89. [19]周治平,朱书伟,张道文.分类数据的多目标模糊中心点聚类算法[J].计算机研究与发展,2016,53(11):2594-2606. [20]李刚,高武奇,杨瑞臣.有指导机器学习超参数的交叉验证智能优化[J].西安工业大学学报,2016,36(11):906-910. [21]曲思杨,张秋菊,王文佶.多次交叉验证对PLSDA模型的影响研究[J].中国卫生统计,2017,34(1):15-17. [22]杨柳,王钰.泛化误差的各种交叉验证估计方法综述[J].计算机应用研究,2015(5):1287-1290. [23]于化龙,倪军,徐森.基于留一交叉验证的类不平衡危害预评估策略[J].小型微型计算机系统,2012,33(10):2287-2292. [24]吴学龙,徐维超.基于AUC的非参数快速变点检测算法[J].计算机与现代化,2015(7):5-8. [25]胡大一.降血压降血脂怎么吃[M].青岛:青岛出版社,2009. [26]王天华.基于改进的GBDT算法的乘客出行预测研究[D].辽宁:大连理工大学,2016. [27]DMLC[OL].http://xgboost.readthedocs.io/en/latest/para-meter.html. [28]彭长根,丁红发,朱义杰,等.隐私保护的信息熵模型及其度量方法[J].软件学报,2016,27(8):1891-1903. [29]张亮,曹华军,李汇华.膳食营养与高血压研究进展[J].中国食物与营养,2017,23(2):78-83. [30]高冰.膳食营养与高血压关系的研究进展[J].包头医学院学报,2013,29(6):114-115. [31]王健峰,张磊,陈国兴,等.基于改进的网格搜索法的SVM参数优化[J].应用科技,2012(3):28-31. [32]刘佳,施龙青,韩进,等.Grid-Search_PSO优化SVM回归预测矿井涌水量[J].煤炭技术,2015,34(8):184-186. [33]XU W,ZUO M,ZHANG M,et al.Constraint bagging for stock price prediction using neural networks [C]∥International Conference on Modelling,Identification and Control.IEEE,2010:606-610. |
[1] | 杨浩雄, 高晶, 邵恩露. 考虑一单多品的外卖订单配送时间的带时间窗的车辆路径问题 Vehicle Routing Problem with Time Window of Takeaway Food ConsideringOne-order-multi-product Order Delivery 计算机科学, 2022, 49(6A): 191-198. https://doi.org/10.11896/jsjkx.210400005 |
[2] | 孙福权, 梁莹. 基于XGBoost算法的水稻基因组6mA位点识别研究 Identification of 6mA Sites in Rice Genome Based on XGBoost Algorithm 计算机科学, 2022, 49(6A): 309-313. https://doi.org/10.11896/jsjkx.210700262 |
[3] | 李京泰, 王晓丹. 基于代价敏感激活函数XGBoost的不平衡数据分类方法 XGBoost for Imbalanced Data Based on Cost-sensitive Activation Function 计算机科学, 2022, 49(5): 135-143. https://doi.org/10.11896/jsjkx.210400064 |
[4] | 丛颖男, 王兆毓, 朱金清. 关于法律人工智能数据和算法问题的若干思考 Insights into Dataset and Algorithm Related Problems in Artificial Intelligence for Law 计算机科学, 2022, 49(4): 74-79. https://doi.org/10.11896/jsjkx.210900191 |
[5] | 沈彪, 沈立炜, 李弋. 空间众包任务的路径动态调度方法 Dynamic Task Scheduling Method for Space Crowdsourcing 计算机科学, 2022, 49(2): 231-240. https://doi.org/10.11896/jsjkx.210400249 |
[6] | 江昊琛, 魏子麒, 刘璘, 陈俊. 非均衡数据分类经典方法综述与面向医疗领域的实验分析 Imbalanced Data Classification:A Survey and Experiments in Medical Domain 计算机科学, 2022, 49(1): 80-88. https://doi.org/10.11896/jsjkx.210200124 |
[7] | 余乐章, 夏天宇, 荆一楠, 何震瀛, 王晓阳. 面向大数据分析的智能交互向导系统 Smart Interactive Guide System for Big Data Analytics 计算机科学, 2021, 48(9): 110-117. https://doi.org/10.11896/jsjkx.200900083 |
[8] | 吴善杰, 王新. 基于AGA-DBSCAN优化的RBF神经网络构造煤厚度预测方法 Prediction of Tectonic Coal Thickness Based on AGA-DBSCAN Optimized RBF Neural Networks 计算机科学, 2021, 48(7): 308-315. https://doi.org/10.11896/jsjkx.200800110 |
[9] | 陈静杰, 王琨. 不平衡油耗数据的区间预测方法 Interval Prediction Method for Imbalanced Fuel Consumption Data 计算机科学, 2021, 48(7): 178-183. https://doi.org/10.11896/jsjkx.200500145 |
[10] | 郑增乾, 王锟, 赵涛, 蒋维, 孟利民. 带宽和时延受限的流媒体服务器集群负载均衡机制 Load Balancing Mechanism for Bandwidth and Time-delay Constrained Streaming Media Server Cluster 计算机科学, 2021, 48(6): 261-267. https://doi.org/10.11896/jsjkx.200400131 |
[11] | 吴广智, 郭斌, 丁亚三, 成家慧, 於志文. 假消息认知机理研究综述 Cognitive Mechanisms of Fake News 计算机科学, 2021, 48(6): 306-314. https://doi.org/10.11896/jsjkx.201200194 |
[12] | 王金恒, 单志龙, 谭汉松, 王煜林. 基于遗传优化PNN神经网络的网络安全态势评估 Network Security Situation Assessment Based on Genetic Optimized PNN Neural Network 计算机科学, 2021, 48(6): 338-342. https://doi.org/10.11896/jsjkx.201200239 |
[13] | 张寒烁, 杨冬菊. 基于关系图谱的科技数据分析算法 Technology Data Analysis Algorithm Based on Relational Graph 计算机科学, 2021, 48(3): 174-179. https://doi.org/10.11896/jsjkx.191200154 |
[14] | 左剑凯, 吴杰宏, 陈嘉彤, 刘泽源, 李忠智. 异构无人机编队防御及评估策略研究 Study on Heterogeneous UAV Formation Defense and Evaluation Strategy 计算机科学, 2021, 48(2): 55-63. https://doi.org/10.11896/jsjkx.191100053 |
[15] | 龚追飞, 魏传佳. 基于拓扑相似和XGBoost的复杂网络链路预测方法 Complex Network Link Prediction Method Based on Topology Similarity and XGBoost 计算机科学, 2021, 48(12): 226-230. https://doi.org/10.11896/jsjkx.200800026 |
|