Xgboost PPT解析

监督学习基本元素
  • 模型
  • 参数
  • 目标函数 = 损失函数+正则化项:优化损失函数为了拟合预测模型,而正则项负责简化模型,提高模型的泛化能力


    Xgboost PPT解析_第1张图片
    Snipaste_2018-08-10_18-38-25.png

    Xgboost PPT解析_第2张图片
    Snipaste_2018-08-10_18-37-53.png

    将模型、参数和目标函数等概念分开可以带来工程化的优势。主要是为了说明提升树可以使用这种方式实现。
    集合树的目标和模型如下:


    Xgboost PPT解析_第3张图片
    Snipaste_2018-08-10_18-45-38.png
启发式vs目标函数

启发式的方式并没有合适的固定的方式,而是通过定义一系列的限制而实现,对比如下:
Xgboost PPT解析_第4张图片
Snipaste_2018-08-10_18-47-43.png

通过定义不同的优化目标而决定是用于分类、回归、排序等,可以使用最小均方差做回归,logistic函数用于分类。

提升树学习方式

因为是树的方式,而不仅仅是数字矩阵,所以不能使用随机梯度下降的方法求解目标函数,但是可以使用加法模型进行训练


Xgboost PPT解析_第5张图片
Snipaste_2018-08-10_18-55-48.png

Xgboost PPT解析_第6张图片
Snipaste_2018-08-10_18-58-18.png

使用Taylor公式展开可以近似损失函数,从而得到更加方便求解的模型,其中g和h是对前一个树损失函数的一阶导数和二阶导数,所以在计算本次迭代的树之前就需要计算出来
Xgboost PPT解析_第7张图片
Snipaste_2018-08-10_19-07-14.png

通过去除常量简化之后可以得到更加直观的形式:
Xgboost PPT解析_第8张图片
Snipaste_2018-08-10_19-11-06.png

通过重新定义树可以使用公式化的形式,方便后续的计算。
Xgboost PPT解析_第9张图片
Snipaste_2018-08-10_19-16-37.png

Xgboost PPT解析_第10张图片
Snipaste_2018-08-10_19-16-55.png

Xgboost PPT解析_第11张图片
Snipaste_2018-08-10_19-19-18.png

Xgboost PPT解析_第12张图片
Snipaste_2018-08-10_19-22-03.png

Xgboost PPT解析_第13张图片
Snipaste_2018-08-10_19-25-01.png

Xgboost PPT解析_第14张图片
Snipaste_2018-08-10_19-28-54.png

Xgboost PPT解析_第15张图片
Snipaste_2018-08-10_19-32-04.png

Xgboost PPT解析_第16张图片
Snipaste_2018-08-10_19-33-45.png

Xgboost PPT解析_第17张图片
Snipaste_2018-08-10_19-38-15.png

Xgboost PPT解析_第18张图片
Snipaste_2018-08-10_19-40-05.png

Xgboost PPT解析_第19张图片
Snipaste_2018-08-10_19-41-16.png

Xgboost PPT解析_第20张图片
Snipaste_2018-08-10_19-43-13.png

你可能感兴趣的:(Xgboost PPT解析)