机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

随机森林:

理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。

特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据 D D 中选择 N N 条数据, N<D N < D 。每次选择的特征是从总特数 P P 中,随机选择 Q Q 个特征,通常 Q<P Q < P 。重复 M M 次,生成 M M 棵树。
通过这种每次随机数据,随机特征的方式进行建树。

优点
1)训练速度快,泛化能力强,可并行建树,因为树与树相互独立;
2)能学到特征之间的相互影响,因为每次选择的特征不同;
3)可处理高维特征,因为不需要特征选择,用随机选择;
4)相比 SVM S V M ,不是很怕特征缺失,因为随机特征;
6)可以反馈哪些特征的权重,价值比较高。

随机森林和GBDT区别

1)随机森林采用的 bagging b a g g i n g 思想,而 GBDT G B D T 采用的 boosting b o o s t i n g 思想。
2)组成随机森林的树可以是分类树,也可以是回归树;而 GBDT G B D T 只能由回归树组成。
3)组成随机森林的树可以并行生成;而 GBDT G B D T 只能是串行生成。
4)对于最终的输出结果而言,随机森林采用多数投票等;而 GBDT G B D T 则是将所有结果累加起来,或者加权累加起来。
5)随机森林对异常值不敏感; GBDT G B D T 对异常值非常敏感。
6)随机森林对训练集一视同仁; GBDT G B D T 是基于权值的弱分类器的集成。
7)随机森林是通过减少模型方差提高性能; GBDT G B D T 是通过减少模型偏差提高性能。

GBDT和Xgboost区别

1) GBDT G B D T CART C A R T 作为基分类器, xgboost x g b o o s t 还支持线性分类器,这个时候 xgboost x g b o o s t 相当于带 L1 L 1 L2 L 2 正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。
2) GBDT G B D T 在优化时只用到一阶导数信息, xgboost x g b o o s t 则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。
3) xgboost x g b o o s t 在代价函数里加入了正则项,用于控制模型的复杂度。正则项降低了模型的 variance v a r i a n c e ,使学习出来的模型更加简单,防止过拟合。
4)随机特征选择。 xgboost x g b o o s t 借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是 xgboost x g b o o s t 异于 GBDT G B D T 的一个特性。对于特征的值有缺失的样本, xgboost x g b o o s t 可以自动学习出它的分裂方向。
5)信息增益计算不同, GBDT G B D T gini g i n i xgboost x g b o o s t 是优化推导公式。
6) xgboost x g b o o s t 的特征列排序后以块的形式存储在内存中,在迭代中可以重复使用;虽然 boosting b o o s t i n g 算法在构建树迭代必须串行,但是在处理每个特征列时可以做到并行。因为: xgboost x g b o o s t 在训练之前,预先对数据进行了排序,然后保存为 block b l o c k 结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个 block b l o c k 结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。

你可能感兴趣的:(机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别)