通过源码学算法--AdaBoost: CART插播

1. 简介

CART(Classification and Regression Tree)是一个采用二分法递归划分生成的二叉树。粗略的讲,分类结果是离散的就是分类,是连续的实数就是回归树。


2. 特点

2.1 优点

本质上是无参估计(non-parametric)。就是不管待估计的参数是来自什么神奇古怪的空间,来者不拒。至于分类结果如何,呃, 那是另一回事

  • 可以处理输入变量不全的情况(miss variables)
  • 相对与一些其他机器学习的算法,CART相对比较automatic
  • 简单,易于理解。对非技术人员也很容易解释,同时又有着成熟的理论支持

2.2 缺点 

(从 http://blog.163.com/huai_jing@126/blog/static/171861983201274102921423/ copy来)

  • 有较高的方差,数据较小的变化会导致完全不同的分裂。Bagging通过对许多树求平均来降低方差
  • 预测面缺乏光滑性, 这点主要影响回归的效果,改进的方法为:MARS(多元自适应回归样条)


3. 算法步骤

一般可分为4大步:tree building, stop tree building, tree pruning and optimal tree selection

3.1 树的生成(tree building)

这一步有三个要点:

  • exhaustive search of all possibilities。所以上面说对要待检测空间不需要做任何假设,用的是最古老的笨办法!
  • 划分规则:显然每一种possibility都可以导致一种分类,自然需要一个规则来选择最佳划分。常见的准则有“误分类不纯度”、“Gini不纯度”、“熵不纯度”, 在上面的链接可以找到相应公式
  • 节点分类:因为每个节点都有成为叶节点(leaf)的可能,所以必须在划分的同时对每个节点分类。分类的方法可以用当前节点中出现最多的类别,也可以参考当前节点的分类错误或者其他更复杂的方法

3.2 终结分类

停止生长的原则很简单:分到不能再分为止。。。矫情的人还是可以列出至少三种可能:

  • 每个叶节点都只有一个输入样本了
  • 根据选定的规则,不管怎么分错误率都一样了
  • 人为限定了树的最大层数(level)

3.3 剪枝(pruning)

显然上面得到的树是完全over-fitting到输入数据集上的,是不能用的。

3.4 选取最佳树形

理想情况下是有足够多的数据可以分成训练和测试(test),直到找到对所有数据分类最佳的树形。

根据现实总是残酷的原理,我们一般找不到那么多数据。所以经常用交叉验证(Cross Validation)的方式来“模拟”理想状况


4. 总结

说起来,这个CART本身就包含很多内容。在AdaBoost里,只是比较常见的用CART来做其基本的弱分类器。既然是要求只需要slight better than random guessing,那也就不需要上面提到的完整的步骤。比如这个GML的包里就直接设定最大层数为3,其他什么pruning, optimal selection, cross-validation都没有用到。





你可能感兴趣的:(通过源码学算法--AdaBoost: CART插播)