提升树,梯度提升树(GBDT)笔记

决策树可以分为二叉分类树或者二叉回归树,刚刚我们讲了分类树,现在介绍一下回归树。回归问题是用来处理连续值。

提升树采用了前向分布算法,模型如下:
在这里插入图片描述

公式分析:
算法目标:图中的x,y图表示的就是,曲线上的点就是这个回归树所预测到的残差的预测值,我们最后要的就是预测值接近真实的残差就是去拟合这个残差(Fitted residual),让损失函数(Loss)最小。

提升树,梯度提升树(GBDT)笔记_第1张图片

例子
初始化的10个点:
在这里插入图片描述
开始找第一课回归树,首先寻找中值(1.5, 2.5 ,3.5…)
假设以1.5为阈值,那么右边的2-10的均值就是7.5.
然后我们来(5.56-5.56) ^2 + (5.7-7.5) ^2 + (5.91-7.5) ^2+…
然后记为ms,然后分别找到 2.5, 3.5, 4.5,…的ms照到最小的ms。
用公式表示就是:
在这里插入图片描述
那么在这题中ms=6.5时最小。左右均值c1=6.24, c2=9.91
提升树,梯度提升树(GBDT)笔记_第2张图片

然后需要制作残差表,与adaboost改变权重不同。下图的竖虚线就是我们的残差。我们就是要做一个拉近,慢慢拟合我们需要的点。我们下面这一步就是需要把曲线在在残差的方向上做一个拉近。残差就是使我们直接在需要拉近的方向上做一个缩小,是我们的曲线可以更好的拟合点。
提升树,梯度提升树(GBDT)笔记_第3张图片
残差表如下:
如序号1(5.56-6.24)= -0.68
提升树,梯度提升树(GBDT)笔记_第4张图片
和之前一样的方式找到阈值3.5。就相当于我们在原有6.5的分类的基础上,进行了更细致的划分
提升树,梯度提升树(GBDT)笔记_第5张图片
然后记录下这一轮的平方损失误差:
在这里插入图片描述

使用新的阈值开始下轮。
最后当我们的平方损失误差达到我们的停止条件,或者达到了设计的迭代次数,那我们我们停止推算。这题中我们得到如下结果:
提升树,梯度提升树(GBDT)笔记_第6张图片

梯度提升(GBDT)

由于我们的损失函数是平方差损失函数所以我们可以使用残差。那么对于一般的损失函数,我们没法很好的计算残差,所以我们就需要GBDT。来帮助我们解决更普遍的问题。

L(y,f(xi))就是我们的一般损失函数
提升树,梯度提升树(GBDT)笔记_第7张图片
提升树,梯度提升树(GBDT)笔记_第8张图片

从步骤上来看,首先和提升树一样找到最好的阈值,得到初始化的模型。

给出一个例子:
例子

感觉步骤是首先

  1. 初始化弱学习器。这个例子是平方损失,所以可以直接求均值得到c
  2. 设定迭代次数M
  3. 计算残差
  4. 改变残差为真实值
  5. 寻找合适阈值
  6. 继续在子树寻找合适的阈值继续分割
  7. 给每个叶子来设置参数准备拟合提升树,梯度提升树(GBDT)笔记_第9张图片8. 更新为强学习器

你可能感兴趣的:(算法,机器学习)