Reduced-Error Pruning (REP,错误率降低剪枝)、
对于决策树中非叶子节点,我们尝试替换成叶子节点(使用训练样本中存在最多的那个类来代替),然后比较这两个决策树在测试集中的表现,如果错误率降低,则可以替换成叶子节点。该算法以下至上(bottom-up)遍历所有子树,直到没有任何子树可以替换,则算法终止。
优点:
1.REP 是当前最简单的事后剪枝方法之一。
2.它的计算复杂性是线性的。
3.和原始决策树相比,修剪后的决策树对未来新事例的预测偏差较小。
缺点:
REP方法趋于过拟合( overfitting) , 这是因为训练数据集中存在的特性在剪枝过程中都被忽略了, 当剪枝数据集比训练数据集小得多时
Pessimistic Error Pruning (PEP,悲观剪枝)
为了克服 R EP 方法需要独立剪枝数据集的缺点而提出的, 它不需要分离的剪枝数据集,为了提高对未来事例的预测可靠性, PEP 方法对误差估计增加了连续性校正(continuity correction)。
悲观错误剪枝法是根据剪枝前后的错误率来判定子树的修剪。该方法引入了统计学上连续修正的概念弥补REP中的缺陷,在评价子树的训练错误公式中添加了一个常数
优点:
1.PEP 方法不需要分离的剪枝数据集, 这对于事例较少的问题非常有利
2.它的计算时间复杂性也只和未剪枝树的非叶节点数目成线性关系 .
缺点:
1.PEP是唯一使用自顶向下剪枝策略的事后剪枝方法, 这种策略会带来与事前剪枝方法出 现的同样问题, 那就是树的某个节点会在该节点的子孙根据同样准则不需要剪裁时也会被剪裁。
Cost-Complexity Pruning(CCP,代价复杂度剪枝)
对于原始的CART树A0,先剪去一棵子树,生成子树A1,然后再从A1剪去一棵子树生成A2,直到最后剪到只剩一个根结点的子树An,于是得到了A0-AN一共n+1棵子树。
然后再用n+1棵子树预测独立的验证数据集,谁的误差最小就选谁,
该算法为子树Tt定义了代价(cost)和复杂度(complexity),以及一个可由用户设置的衡量代价与复杂度之间关系的参数α,其中,代价指在剪枝过程中因子树Tt被叶节点替代而增加的错分样本,复杂度表示剪枝后子树Tt减少的叶结点数,α则表示剪枝后树的复杂度降低程度与代价间的关系,定义为:
参考文献:
https://www.cnblogs.com/starfire86/p/5749334.html
https://www.cnblogs.com/luban/p/9412339.html
https://zhuanlan.zhihu.com/p/30296061
https://blog.csdn.net/zhengzhenxian/article/details/79083643