(参考:https://www.cnblogs.com/ScorpioLu/p/8296994.html)
(参考:https://www.cnblogs.com/ModifyRong/p/7744987.html)
(参考:https://blog.csdn.net/google19890102/article/details/51746402)
一、集成学习方法
(1)Bagging
对训练样本重采样来得到不同的训练样本集,在这些训练样本集上分别训练学习器,最终合并。Bagging方法中,最重要的算法是随机森林算法。
(2)Boosting
学习器之间存在先后顺序,每个样本有权重,初始化时,每个样本的权重是相等的,训练过程中调整正确和错误样本的权重。同时,每个学习器的权重也是不一样的。Boosting中,最重要的方法包括AdaBoost和GBDT。
二、Gradient Boosting
(1)在函数空间优化
损失函数:
首先设置初始值:
以函数F为整体,对于每一个样本Xi,对存在对应的函数值F(Xi)。与梯度下降法更新过程一致,经过M代,得到的最优函数为:
(2)Gradient Boosting
由上图可知,Boosting的学习结果是b个学习器的和:
具体过程如下:
三、Gradient Boosting Decision Tree (1st博客)
在梯度提升决策树中,基学习器是分类回归树CART,使用的是CART中的回归树。
(1)分类回归树CART
对于m个训练样本的回归问题,训练样本为:
初始时,CART树中只包含根节点:
然后计算该节点的方差的m倍:
此时,从n维特征中选择第j维特征作为划分标准,分为左子树和右子树,其中样本个数分别为m1和m2:
为了寻找最好的划分,计算左右子树的方差和:
并且选择方差和最小的划分为最终的划分,依次这样划分下去:
注:关于划分,计算过程可以进一步优化:
第一项相同,最好的划分对应于两节点的值的和的最大值:
(2)GBDT——二分类
在梯度提升决策树GBDT中,通过定义不同的损失函数,可以完成不同的学习任务,二分类是机器学习中一类比较重要的分类算法,在二分类中,其损失函数为:
套用上面的GB框架,得到下述二分类的GBDT算法:
在构建每一棵CART回归树的过程中,每一个样本的预测值应该与y-(y bar)尽可能一致,y-(y bar)计算过程如下:
在y-(y bar,通常可以称为残差,更准确应叫为梯度下降方向)上建立CART回归树。最终将每一个训练样本划分到对应的叶子结点中,计算该叶子结点的预测值:
由Newton-Raphson迭代公式可得:
代码参考:https://github.com/guestwalk/kaggle-2014-criteo
Python版本:https://github.com/liudragonfly/GBDT
三、Gradient Boosting Decision Tree (2nd博客)
(1)GBDT选择特征
GBDT的特征选择就是CART Tree生成的过程。GBDT的弱分类器默认是CART Tree,也可以是其他的弱分类器,前提是低方差和高偏差,框架服从Boosting框架即可。
CART的特征选择过程就是李航第五章中对CART Tree的描述:
(2)GBDT构建特征
GBDT能构建特征并不准确,其本身是不能产生特征的,但是可以利用GBDT产生特征的组合。
(3)GBDT用于分类
GBDT无论用于分类还是回归一直都是使用CART回归树,核心是因为GBDT每轮的训练是在上一轮的训练的残差基础上进行训练的。残差就是当前模型的负梯度值。
第一步,针对样本X每个可能的类都训练一个CART。例如,目标有三类,即K = 3,而样本 x 属于第二类,可以用向量[0, 1, 0]表示。每轮训练的时候是同时训练三棵树,第一棵树输入为(x, 0),第二棵树输入为(x, 1),第三棵树输入为(x, 0)。这里每棵树的训练过程就是CART生成过程。仿照多分类的逻辑回归,使用softmax来产生概率,例如属于类别1的概率为:
并且可以针对各类别求出残差:
然后开始第二轮训练,对每一类的输入分别为(x, y11)、(x, y22)和(x, y33),继续训练三棵树。一直迭代M轮,有如下三个式子:
当训练完毕后,新来一个样本x1,我们需要预测该样本的类别,便可以由以上三个式子产生三个值,然后利用softmax函数求概率。