GBDT和xgboost

gbdt(gradient boost decision tree):梯度提升决策树;由多棵决策树组成,每棵决策树都是回归树

random forest(随机森林):随机森林中的每棵树都是由从训练集中抽取的样本训练得到的;同时在构建树时随机选择特征

xgboost


集成学习
序列集成方法:所有学习器按顺序排列组合起来


并行集成方法:各个学习器并行排列

bagging,boosting,stacking
bagging:将多个模型的估计值进行平均;如随机森林,让森林中的每一棵树进行判断,根据结果平均或者投票决定最终结果。

bagging进行m次抽样,得到m个数据集,在m个数据集上训练得到m个基学习器,关注于降低方差。随机森林考虑了样本扰动和属性扰动,即进行样本抽样和属性抽样,然后进行基学习器的训练。
boosting:将弱学习器提升为强学习器,更多的权重赋值给早期训练错误分类的。
boosting训练一个基学习器后,根据基学习器调整训练集,训练误差比较大的训练样本得到更多的关注, 再进行训练得到一个基分类器;关注于降低偏差。

stacking:将不同的学习器(bagging内部的学习器是相同的)进行叠积,最终结果综合所有学习器得到。


你可能感兴趣的:(GBDT和xgboost)