决策树与GBDT方法串讲

在梳理知识的时候,需要把知识串起来,才能更好的理解知识,因此本文的目的是结合GBDT方法与决策树方法串联起来,以更好的理解GBDT算法。
我们都知道,简单的决策树的算法有ID3,C4.5,还有CART。ID3和C4.5的决策树生成方法涉及信息增益和信息增益比两个重要方法,CART则有两种:回归使用的是MSE,分类用的是Gini系数。
决策树的缺点有过拟合和欠拟合。这两个问题都可以采用集成学习的方法来解决。采用GBDT主要解决的是欠拟合问题。

GBDT

gbdt的理解我就不班门弄斧了,这里推荐一个知乎上非常棒的讲解,讲的非常清晰。此处重点强调一下原有模型上新加上一棵树的方法
新树的损失函数是:
最小值是:
那么生成节点后的信息增益是:

image.png

因此,其实可以这么理解, 其实就是充当了gini系数或者是信息熵的角色,只不过是采用boost的方法,新构建的一个优化目标,那么boost方法其实和决策树优化的方法思路是一致的,其实还是一棵树,只不过是优化的方法提出修改而已。

你可能感兴趣的:(决策树与GBDT方法串讲)