（参考：https://www.cnblogs.com/ScorpioLu/p/8296994.html）

（参考：https://www.cnblogs.com/ModifyRong/p/7744987.html）

（参考：https://blog.csdn.net/google19890102/article/details/51746402）

一、集成学习方法

（1）Bagging

对训练样本重采样来得到不同的训练样本集，在这些训练样本集上分别训练学习器，最终合并。Bagging方法中，最重要的算法是随机森林算法。

Bagging

（2）Boosting

学习器之间存在先后顺序，每个样本有权重，初始化时，每个样本的权重是相等的，训练过程中调整正确和错误样本的权重。同时，每个学习器的权重也是不一样的。Boosting中，最重要的方法包括AdaBoost和GBDT。

Boosting

二、Gradient Boosting

（1）在函数空间优化

损失函数：

首先设置初始值：

以函数F为整体，对于每一个样本Xi，对存在对应的函数值F(Xi)。与梯度下降法更新过程一致，经过M代，得到的最优函数为：

（2）Gradient Boosting

由上图可知，Boosting的学习结果是b个学习器的和：

具体过程如下：

三、Gradient Boosting Decision Tree （1st博客）

在梯度提升决策树中，基学习器是分类回归树CART，使用的是CART中的回归树。

（1）分类回归树CART

对于m个训练样本的回归问题，训练样本为：

初始时，CART树中只包含根节点：

然后计算该节点的方差的m倍：

此时，从n维特征中选择第j维特征作为划分标准，分为左子树和右子树，其中样本个数分别为m1和m2：

为了寻找最好的划分，计算左右子树的方差和：

并且选择方差和最小的划分为最终的划分，依次这样划分下去：

注：关于划分，计算过程可以进一步优化：

划分前

划分后

第一项相同，最好的划分对应于两节点的值的和的最大值：

（2）GBDT——二分类

在梯度提升决策树GBDT中，通过定义不同的损失函数，可以完成不同的学习任务，二分类是机器学习中一类比较重要的分类算法，在二分类中，其损失函数为：

套用上面的GB框架，得到下述二分类的GBDT算法：

在构建每一棵CART回归树的过程中，每一个样本的预测值应该与y-(y bar)尽可能一致，y-(y bar)计算过程如下：

在y-(y bar，通常可以称为残差，更准确应叫为梯度下降方向)上建立CART回归树。最终将每一个训练样本划分到对应的叶子结点中，计算该叶子结点的预测值：

由Newton-Raphson迭代公式可得：

代码参考：https://github.com/guestwalk/kaggle-2014-criteo

Python版本：https://github.com/liudragonfly/GBDT

三、Gradient Boosting Decision Tree （2nd博客）

（1）GBDT选择特征

GBDT的特征选择就是CART Tree生成的过程。GBDT的弱分类器默认是CART Tree，也可以是其他的弱分类器，前提是低方差和高偏差，框架服从Boosting框架即可。

CART的特征选择过程就是李航第五章中对CART Tree的描述：

（2）GBDT构建特征

GBDT能构建特征并不准确，其本身是不能产生特征的，但是可以利用GBDT产生特征的组合。

由于LR不能解决非线性问题，为了避免人为构建特征，使用GBDT构造特征

（3）GBDT用于分类

GBDT无论用于分类还是回归一直都是使用CART回归树，核心是因为GBDT每轮的训练是在上一轮的训练的残差基础上进行训练的。残差就是当前模型的负梯度值。

GBDT多分类算法流程

第一步，针对样本X每个可能的类都训练一个CART。例如，目标有三类，即K = 3，而样本 x 属于第二类，可以用向量[0, 1, 0]表示。每轮训练的时候是同时训练三棵树，第一棵树输入为(x, 0)，第二棵树输入为(x, 1)，第三棵树输入为(x, 0)。这里每棵树的训练过程就是CART生成过程。仿照多分类的逻辑回归，使用softmax来产生概率，例如属于类别1的概率为：

并且可以针对各类别求出残差：

然后开始第二轮训练，对每一类的输入分别为(x, y11)、(x, y22)和(x, y33)，继续训练三棵树。一直迭代M轮，有如下三个式子：

当训练完毕后，新来一个样本x1，我们需要预测该样本的类别，便可以由以上三个式子产生三个值，然后利用softmax函数求概率。

机器学习面试之GBDT