机器学习面试之GBDT

(参考:https://www.cnblogs.com/ScorpioLu/p/8296994.html)

(参考:https://www.cnblogs.com/ModifyRong/p/7744987.html)

(参考:https://blog.csdn.net/google19890102/article/details/51746402)

一、集成学习方法

(1)Bagging

对训练样本重采样来得到不同的训练样本集,在这些训练样本集上分别训练学习器,最终合并。Bagging方法中,最重要的算法是随机森林算法。

Bagging

(2)Boosting

学习器之间存在先后顺序,每个样本有权重,初始化时,每个样本的权重是相等的,训练过程中调整正确和错误样本的权重。同时,每个学习器的权重也是不一样的。Boosting中,最重要的方法包括AdaBoost和GBDT。

Boosting

二、Gradient Boosting

(1)在函数空间优化

损失函数:

首先设置初始值:

以函数F为整体,对于每一个样本Xi,对存在对应的函数值F(Xi)。与梯度下降法更新过程一致,经过M代,得到的最优函数为:

(2)Gradient Boosting

由上图可知,Boosting的学习结果是b个学习器的和:

具体过程如下:

三、Gradient Boosting Decision Tree (1st博客)

在梯度提升决策树中,基学习器是分类回归树CART,使用的是CART中的回归树。

(1)分类回归树CART

对于m个训练样本的回归问题,训练样本为:

初始时,CART树中只包含根节点:

然后计算该节点的方差的m倍:

此时,从n维特征中选择第j维特征作为划分标准,分为左子树和右子树,其中样本个数分别为m1和m2:

为了寻找最好的划分,计算左右子树的方差和:

并且选择方差和最小的划分为最终的划分,依次这样划分下去:

注:关于划分,计算过程可以进一步优化:

划分前
划分后

第一项相同,最好的划分对应于两节点的值的和的最大值:

(2)GBDT——二分类

在梯度提升决策树GBDT中,通过定义不同的损失函数,可以完成不同的学习任务,二分类是机器学习中一类比较重要的分类算法,在二分类中,其损失函数为:

套用上面的GB框架,得到下述二分类的GBDT算法:

在构建每一棵CART回归树的过程中,每一个样本的预测值应该与y-(y bar)尽可能一致,y-(y bar)计算过程如下:

在y-(y bar,通常可以称为残差,更准确应叫为梯度下降方向)上建立CART回归树。最终将每一个训练样本划分到对应的叶子结点中,计算该叶子结点的预测值:

由Newton-Raphson迭代公式可得:

代码参考:https://github.com/guestwalk/kaggle-2014-criteo

Python版本:https://github.com/liudragonfly/GBDT

三、Gradient Boosting Decision Tree (2nd博客)

(1)GBDT选择特征

GBDT的特征选择就是CART Tree生成的过程。GBDT的弱分类器默认是CART Tree,也可以是其他的弱分类器,前提是低方差和高偏差,框架服从Boosting框架即可。

CART的特征选择过程就是李航第五章中对CART Tree的描述:

(2)GBDT构建特征

GBDT能构建特征并不准确,其本身是不能产生特征的,但是可以利用GBDT产生特征的组合。

由于LR不能解决非线性问题,为了避免人为构建特征,使用GBDT构造特征

(3)GBDT用于分类

GBDT无论用于分类还是回归一直都是使用CART回归树,核心是因为GBDT每轮的训练是在上一轮的训练的残差基础上进行训练的。残差就是当前模型的负梯度值。

GBDT多分类算法流程

第一步,针对样本X每个可能的类都训练一个CART。例如,目标有三类,即K = 3,而样本 x 属于第二类,可以用向量[0, 1, 0]表示。每轮训练的时候是同时训练三棵树,第一棵树输入为(x, 0),第二棵树输入为(x, 1),第三棵树输入为(x, 0)。这里每棵树的训练过程就是CART生成过程。仿照多分类的逻辑回归,使用softmax来产生概率,例如属于类别1的概率为:

并且可以针对各类别求出残差:

然后开始第二轮训练,对每一类的输入分别为(x, y11)、(x, y22)和(x, y33),继续训练三棵树。一直迭代M轮,有如下三个式子:

当训练完毕后,新来一个样本x1,我们需要预测该样本的类别,便可以由以上三个式子产生三个值,然后利用softmax函数求概率。

你可能感兴趣的:(机器学习面试之GBDT)