05梯度提升分类树

梯度提升分类树

一、GBDT-logloss算法流程

1、公式导图

05梯度提升分类树_第1张图片

注意:
  • Fo是产生的一个起始预测值(可随机),即两个样本分类的比例的对数

  • 负梯度(即残差),其中yi表示我们的样本分类(yi也可以认为概率)。总结起来说负梯度就是距离真实值还差多少
    y ~ i \widetilde{y}_i y i

  • 我们可以根据各样本在loss函数中关于F_{0}的负梯度 的大小,来对判断F_{0}是否合适。

在这里插入图片描述
γ m j 表 示 不 同 分 支 的 预 测 值 \gamma_{mj}表示不同分支的预测值 γmj

  • 最后一个公式中的I表示符号函数,判断样本属性Xi的分类。如果是这乘以1,否则乘以0,最后进行累加。

2、逻辑斯蒂函数(sigmoid曲线函数)–对应yi负梯度里面的公式

sogmoid函数定义: Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。 [1] 在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。
公式:
在这里插入图片描述
公式导数:

在这里插入图片描述

Sigmoid函数的图形如S曲线 :

05梯度提升分类树_第2张图片

特殊符号:

y ~ i 表 示 负 梯 度 ( 残 差 ) \widetilde{y}_i表示负梯度(残差) y i()

γ m j 不 同 叶 子 ( 分 类 ) 的 预 测 值 ( 得 分 ) \gamma_{mj} 不同叶子(分类)的预测值(得分) γmj()()

3、逻辑回归

极大似然估计:

当我们对样本数据进行分类的时候,样本数据正确分类的概率会随着训练统计次数的越来越多,而接近于我们真实的一个概率。

Z = 单个试验可能结果的得分

公式推导过程

05梯度提升分类树_第3张图片

05梯度提升分类树_第4张图片

结论:如果要用一个常量来预测y,用log(sum(y)/sum(1-y))是一个最佳的选择。

你可能感兴趣的:(机器学习,逻辑回归,python,机器学习)