计算机科学 ›› 2018, Vol. 45 ›› Issue (6A): 476-481.

• 大数据与数据挖掘 • 上一篇    下一篇

用于高血压菜谱识别的基于遗传算法的改进XGBoost模型

雷雪梅,谢依彤   

  1. 北京科技大学计算机与通信工程学院 北京100083
  • 出版日期:2018-06-20 发布日期:2018-08-03
  • 作者简介:雷雪梅(1972-),女,博士,高级工程师,主要研究方向为数据分析、数据挖掘;谢依彤(1992-),女,硕士,主要研究方向为数据分析、数据挖掘,E-mail:xin9910@163.com(通信作者)。

Improved XGBoostModel Based on Genetic Algorithm for Hypertension Recipe Recognition

LEI Xue-mei, XIE Yi-tong   

  1. School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China
  • Online:2018-06-20 Published:2018-08-03

摘要: 文中提出用于高血压菜谱识别的基于遗传算法的改进XGBoost(eXtreme Gradient Boosting)模型。该模型主要包括3个步骤:首先,对数据集进行预处理,包括缺失值补全、数据去重和特征分析;然后,使用遗传算法自适应地优化XGBoost模型参数;最后,根据最优参数训练高血压菜谱识别模型,并将其应用于高血压菜谱识别。结果表明,在高血压菜谱识别效果方面,采用遗传算法优化的参数优于网格搜索所得到的参数。此外,所提出的基于遗传算法的改进XGBoost模型在精度、回召率、F1值和AUC评估指标方面具有不错的表现,优于其他4种(随机森林、GBDT、Bagging和AdaBooster)组合分类模型,且提高了菜谱识别模型的可解释性。

关键词: XGBoost, 高血压菜谱, 数据分析, 遗传算法

Abstract: A novel improved XGBoost (eXtreme Gradient Boosting) model based on genetic algorithmfor hypertension recipe recognition was proposed.The model consists of three steps.Firstly,data pre-processing is employed to handle missing values,remove duplicate data and analyze data feature.Then,the genetic algorithm is used to optimize theparameters of XGBoost model adaptively.At last,hypertension recipe identification model is trained according to the optimal parameters.The results show that the parameters optimized by genetic algorithm performs better than grid search.Moreover,the proposed model outperforms other four models (Random forest,GBDT,Bagging and AdaBooster) over four evaluation measures:accuracy,recall rate,F1 and the area under the curve (AUC) on average,and enhances the interpretability of credit scoring model.

Key words: Data analysis, Genetic algorithm, Hypertension recipes, XGBoost

中图分类号: 

  • TP181
[1]李小莉.浅谈社区慢性病高血压的健康管理[J].环球中医药,2013(z1):291-291,292.
[2]王春利.终止高血压膳食疗法对社区高血压前期人群干预效果研究[J].中国全科医学,2015,8(23):2833-2836.
[3]毕振强,梁晓峰,马吉祥,等.遏制高血压危害,减盐行动势在必行[J].中华预防医学杂志,2014,48(1):4-6.
[4]刘雪梅,徐琳琳,王楠,等.日常饮用洋葱汁对高血压和高血脂患者血压、血脂影响研究[J].中国食物与营养,2015,21(8):84-87.
[5]吴珊燕,许鑫.基于案例推理的菜谱推荐系统研究[J].现代图书情报技术,2013,29(12):34-41.
[6]夏平平.个性化营养菜谱推荐方法的研究[D].合肥:中国科学技术大学,2015.
[7]张璐,雷雪梅.基于粒子群优化BP神经网络的养肠胃菜谱判定[J].计算机科学,2016,43(11A):63-66,72.
[8]章艳珍,吴岚艳,李李.膳食营养素与高血压关系的研究进展[J].中国食物与营养,2017,23(2):87-89.
[9]CHEN T Q,GUESTRIN C.XGBoost:A Scalable Tree Boosting System [C]∥Acm Sigkdd International Conference on Know-ledge Discovery & Data Mining.2016:785-794.
[10]XIA Y F,LIU C Z,LI Y Y,et al.A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring[J].Expert Systems With Applications,2017,78:225-241.
[11]张昊,纪宏超,张红宇.XGBoost算法在电子商务商品推荐中的应用[J].物联网技术,2017,7(2):102-104.
[12]叶倩怡.基于Xgboost方法的实体零售业销售额预测研究[D].南昌:南昌大学,2016.
[13]樊鹏.基于优化的xgboost-LMT模型的供应商信用评价研究[D].广州:广东工业大学,2016.
[14]MUSTAPHA I B,SAEED F.Bioactive Molecule Prediction Using Extreme Gradient Boosting [J].Molecules,2016,21(8):983.
[15]怀浩,刘学,张龙波,等.基于梯度提升决策树的肽碎片离子强度建模[J].山东理工大学学报(自然科学版),2017,31(2):64-68.
[16]胥红敏,郭湛,李晓宇,等.基于遗传算法优化BP神经网络的道口事故预测[J].铁路计算机应用,2016,25(3):8-11.
[17]史峰,王辉,胡斐,等.MATLAB智能算法30个案例分析[M].北京:北京航空航天大学出版社,2011.
[18]向万里,马寿峰.基于轮盘赌反向选择机制的蜂群优化算法[J].计算机应用研究,2013,30(1):86-89.
[19]周治平,朱书伟,张道文.分类数据的多目标模糊中心点聚类算法[J].计算机研究与发展,2016,53(11):2594-2606.
[20]李刚,高武奇,杨瑞臣.有指导机器学习超参数的交叉验证智能优化[J].西安工业大学学报,2016,36(11):906-910.
[21]曲思杨,张秋菊,王文佶.多次交叉验证对PLSDA模型的影响研究[J].中国卫生统计,2017,34(1):15-17.
[22]杨柳,王钰.泛化误差的各种交叉验证估计方法综述[J].计算机应用研究,2015(5):1287-1290.
[23]于化龙,倪军,徐森.基于留一交叉验证的类不平衡危害预评估策略[J].小型微型计算机系统,2012,33(10):2287-2292.
[24]吴学龙,徐维超.基于AUC的非参数快速变点检测算法[J].计算机与现代化,2015(7):5-8.
[25]胡大一.降血压降血脂怎么吃[M].青岛:青岛出版社,2009.
[26]王天华.基于改进的GBDT算法的乘客出行预测研究[D].辽宁:大连理工大学,2016.
[27]DMLC[OL].http://xgboost.readthedocs.io/en/latest/para-meter.html.
[28]彭长根,丁红发,朱义杰,等.隐私保护的信息熵模型及其度量方法[J].软件学报,2016,27(8):1891-1903.
[29]张亮,曹华军,李汇华.膳食营养与高血压研究进展[J].中国食物与营养,2017,23(2):78-83.
[30]高冰.膳食营养与高血压关系的研究进展[J].包头医学院学报,2013,29(6):114-115.
[31]王健峰,张磊,陈国兴,等.基于改进的网格搜索法的SVM参数优化[J].应用科技,2012(3):28-31.
[32]刘佳,施龙青,韩进,等.Grid-Search_PSO优化SVM回归预测矿井涌水量[J].煤炭技术,2015,34(8):184-186.
[33]XU W,ZUO M,ZHANG M,et al.Constraint bagging for stock price prediction using neural networks [C]∥International Conference on Modelling,Identification and Control.IEEE,2010:606-610.
[1] 杨浩雄, 高晶, 邵恩露.
考虑一单多品的外卖订单配送时间的带时间窗的车辆路径问题
Vehicle Routing Problem with Time Window of Takeaway Food ConsideringOne-order-multi-product Order Delivery
计算机科学, 2022, 49(6A): 191-198. https://doi.org/10.11896/jsjkx.210400005
[2] 孙福权, 梁莹.
基于XGBoost算法的水稻基因组6mA位点识别研究
Identification of 6mA Sites in Rice Genome Based on XGBoost Algorithm
计算机科学, 2022, 49(6A): 309-313. https://doi.org/10.11896/jsjkx.210700262
[3] 李京泰, 王晓丹.
基于代价敏感激活函数XGBoost的不平衡数据分类方法
XGBoost for Imbalanced Data Based on Cost-sensitive Activation Function
计算机科学, 2022, 49(5): 135-143. https://doi.org/10.11896/jsjkx.210400064
[4] 丛颖男, 王兆毓, 朱金清.
关于法律人工智能数据和算法问题的若干思考
Insights into Dataset and Algorithm Related Problems in Artificial Intelligence for Law
计算机科学, 2022, 49(4): 74-79. https://doi.org/10.11896/jsjkx.210900191
[5] 沈彪, 沈立炜, 李弋.
空间众包任务的路径动态调度方法
Dynamic Task Scheduling Method for Space Crowdsourcing
计算机科学, 2022, 49(2): 231-240. https://doi.org/10.11896/jsjkx.210400249
[6] 江昊琛, 魏子麒, 刘璘, 陈俊.
非均衡数据分类经典方法综述与面向医疗领域的实验分析
Imbalanced Data Classification:A Survey and Experiments in Medical Domain
计算机科学, 2022, 49(1): 80-88. https://doi.org/10.11896/jsjkx.210200124
[7] 余乐章, 夏天宇, 荆一楠, 何震瀛, 王晓阳.
面向大数据分析的智能交互向导系统
Smart Interactive Guide System for Big Data Analytics
计算机科学, 2021, 48(9): 110-117. https://doi.org/10.11896/jsjkx.200900083
[8] 吴善杰, 王新.
基于AGA-DBSCAN优化的RBF神经网络构造煤厚度预测方法
Prediction of Tectonic Coal Thickness Based on AGA-DBSCAN Optimized RBF Neural Networks
计算机科学, 2021, 48(7): 308-315. https://doi.org/10.11896/jsjkx.200800110
[9] 陈静杰, 王琨.
不平衡油耗数据的区间预测方法
Interval Prediction Method for Imbalanced Fuel Consumption Data
计算机科学, 2021, 48(7): 178-183. https://doi.org/10.11896/jsjkx.200500145
[10] 郑增乾, 王锟, 赵涛, 蒋维, 孟利民.
带宽和时延受限的流媒体服务器集群负载均衡机制
Load Balancing Mechanism for Bandwidth and Time-delay Constrained Streaming Media Server Cluster
计算机科学, 2021, 48(6): 261-267. https://doi.org/10.11896/jsjkx.200400131
[11] 吴广智, 郭斌, 丁亚三, 成家慧, 於志文.
假消息认知机理研究综述
Cognitive Mechanisms of Fake News
计算机科学, 2021, 48(6): 306-314. https://doi.org/10.11896/jsjkx.201200194
[12] 王金恒, 单志龙, 谭汉松, 王煜林.
基于遗传优化PNN神经网络的网络安全态势评估
Network Security Situation Assessment Based on Genetic Optimized PNN Neural Network
计算机科学, 2021, 48(6): 338-342. https://doi.org/10.11896/jsjkx.201200239
[13] 张寒烁, 杨冬菊.
基于关系图谱的科技数据分析算法
Technology Data Analysis Algorithm Based on Relational Graph
计算机科学, 2021, 48(3): 174-179. https://doi.org/10.11896/jsjkx.191200154
[14] 左剑凯, 吴杰宏, 陈嘉彤, 刘泽源, 李忠智.
异构无人机编队防御及评估策略研究
Study on Heterogeneous UAV Formation Defense and Evaluation Strategy
计算机科学, 2021, 48(2): 55-63. https://doi.org/10.11896/jsjkx.191100053
[15] 龚追飞, 魏传佳.
基于拓扑相似和XGBoost的复杂网络链路预测方法
Complex Network Link Prediction Method Based on Topology Similarity and XGBoost
计算机科学, 2021, 48(12): 226-230. https://doi.org/10.11896/jsjkx.200800026
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!