对GBDT的理解

我们在优化逻辑回归的时候使用梯度下降来优化权值,那是否可以优化函数呢?即对函数进行梯度优化,迭代逼近最优值。

在GBDT中,每个树都是当前点取得最优的梯度下降的方向,我们可以求出前面n-1颗树的值,然后L(y,Fx-1)损失函数来对当前点求导,求出ri(当前点在第i个样本上的梯度),这时候我们有了当前点xj以及各个样本在当前点的梯度Rij(i为各个样本),呢我们就可以将Rij当做xj的标签,以此来建立一颗回归树模型。模型建好后,我们求出最优的一个树权重β,这个β也可以看做是学习率即在该梯度上步进多少。

上面就是一个GBDT的流程,我们不断循环上述步骤,直到达到停止条件。

例如,在GBDT里常用的回归树就是不断的寻找最佳的切分点,最终到达叶子节点我们就找到了一个数值,这个数值就是该数据接下来的截距,拿到这个截距在乘上这棵树的权值(学习率)就得到了一个数值,加上这个数,我们离正确的结果就更近了一步。

决策分类树是处理离散的数值的(确切的说是离散的标签),针对每个标签都有一个叶子节点与之对应,但是回归树是处理连续数值的,每个叶子节点不再是一个确切的数,而是一个取值范围,这个范围内,统一用一个数值代替,使用该数值不会离真实值太远,这就要求我们要找到合适的分割点将相近的数值分到一簇,同时找到这个簇内离各个点的总损失最小的点。或者说是均值。

如何找梯度?我们这里找的梯度不是参数的梯度了,而是损失函数的梯度,假设我们定义的损失函数是最小二乘loss = (y-pre)^2

我们求的梯度是loss对pre求导,即2*(y-pre)*(-1),此处的pre就是前面n-1个模型的加权之和。这样我们就求得了第i个样本在n-1处的梯度,同理可以求得m个样本在此处的梯度,我们可以得到一些组合(样本,梯度)(xi,rij),接下来我们就把样本当输入,把梯度当标签来构造回归树,回归树构造好以后,我们通过y-F(n-1)-βh(x),我们通过求解该式最小来求出一个最佳的β来作为该棵树的权重。

你可能感兴趣的:(对GBDT的理解)