xgboost学习笔记

一句话定义xgboost

很简单:Xgboost就是由很多CART树集成。

什么是CART树?

数据挖掘或机器学习中使用的决策树有两种主要类型:

分类树分析是指预测结果是数据所属的类(比如某个电影去看还是不看)
回归树分析是指预测结果可以被认为是实数(例如房屋的价格,或患者在医院中的逗留时间)
而术语分类回归树(CART,Classification And Regression Tree)分析是用于指代上述两种树的总称,由Breiman等人首先提出。

Bagging vs Boosting

Bagging 是用很多弱分类器,因为分类器都会 过 拟合。 例如,请很多 专家 来评判一个问题
Boosting是用很多弱分类器,因为分类器都会 欠 拟合。 例如,请很多小学生来评判一个问题

xgboost预处理的数据要求

xgboost 树模型其实是不建议使用one-hot编码,在xgboost上面的 issue 也提到过,相关的说明如下

提升树,基于残差的训练

1、用模型1 预测的 结果y1-真实结果y= 残差0
2、用模型2 预测 ,残差0当做真实的结果, 预测值 y2-残差0=残差1
3、用模型3 .......
xgboost学习笔记_第1张图片
xgboost学习笔记_第2张图片
xgboost学习笔记_第3张图片
xgboost学习笔记_第4张图片

你可能感兴趣的:(xgboost学习笔记)