论文总结5 基于Kmeans聚类的XGBoost集成算法研究

kmeans聚类;XGBoost;集成算法;泛化能力

目录

一、模型理解

1.引言

2.基于Kmeans的XGBoost集成聚类算法

2.1Kmeans算法

2.2kmeans算法步骤 

2.3XGBoost算法

2.4XGBoost算法思路​编辑

2.5Bagging集成

2.6Bagging集成原理

2.7Bagging集成步骤 

 二、模型建立与实现

 三、实验结果与分析


一、模型理解

1.引言

       XGBoost 是一种在梯度提升算法(GBDT)基础上改进的学习算法,其特点为复杂度低、并行效果好、计算精度高,但其泛化能力有待提升。选择 Bagging 多模型融合思想, 采用多个 XGBoost 基分类器,使得每个基分类器只拟合部分样本下的部分特征属性,然后用 Kmeans聚类,进而提升其泛化能力。

2.基于Kmeans的XGBoost集成聚类算法

2.1Kmeans算法

论文总结5 基于Kmeans聚类的XGBoost集成算法研究_第1张图片

2.2kmeans算法步骤 

(1)选点:从样本中随机选取k个样本作为初始中心点;

(2)归类:计算其余样本与K个样本的欧式距离并比较;并将样本与距离最近的中心点归为一类;

(3)计算:重新计算蔟中心点,一直重复前面的步骤,直到蔟中心点的位置收敛时结束。

2.3XGBoost算法

在梯度提升算法基础上,加入目标函数的二次泰勒展开项和模型复杂度的正则项,使得目标函数与实际数据相差更小,达到减少数据误差,提高预测准确度的一种算法。

2.4XGBoost算法思路论文总结5 基于Kmeans聚类的XGBoost集成算法研究_第2张图片

论文总结5 基于Kmeans聚类的XGBoost集成算法研究_第3张图片

较为复杂,难以理解!

2.5Bagging集成

经典的集成学习算法,通过综合分析多个弱学习器的学习结果,共同完成同一学习任务的过程。

2.6Bagging集成原理

有放回重复抽取N个样本集,每个样本集中有M个样本,分别训练N个学习模型,从而获得N个学习器。

2.7Bagging集成步骤 

论文总结5 基于Kmeans聚类的XGBoost集成算法研究_第4张图片

 二、模型建立与实现

论文总结5 基于Kmeans聚类的XGBoost集成算法研究_第5张图片

论文总结5 基于Kmeans聚类的XGBoost集成算法研究_第6张图片

 三、实验结果与分析

1.有无Kmenas算法的精度对比;

2.在提高训练精度的同时提高了算法的泛化能力。

你可能感兴趣的:(论文总结,聚类,算法,kmeans)