摘要: 集成学习主要通过扰动训练数据集来产生较强泛化能力。研究者们提出了各种各样的方法来实现这一目标,但如何扰动训练数据集以达到最佳的泛化能力并没有被深入研究。本文中,提出了对训练数据集进行扰动的交叉分组(cross-grouping)方法,通过改变交叉因子以实现对训练数据集不同程度的扰动,从而实现当集成规模较小时,得到更强的泛化能力。实验表明,当选择合适的交叉因子时,CG-Bagging泛化能力要强于Bagging和Boosting,略优于Decorate和RandomForests。
No related articles found! |
|