分类回归树(CART)

1 算法思想
CART既可以用于分类,也可以用于回归,也就是说,它的返回值,既可以是连续的,也可以是离散的。
CART伪代码为:
分类回归树(CART)_第1张图片
CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。
2 将CART用于回归
主要分为两个阶段:建树和剪枝
(1)建树
按照CART伪代码的流程就能建树,主要问题是,怎样实现数据集的最佳二分切分方式?切分的流程伪代码为:
分类回归树(CART)_第2张图片
(2)剪枝
如果一颗数节点过多,就会产生“过拟合”,此时,就要进行剪枝处理。所以,剪枝就是一种降低决策树复杂度来避免过拟合的过程。
剪枝分为预剪枝和后剪枝两种,预剪枝是指在建树过程中进行的修建,后剪枝是指在建树完成后,从上到下找到叶子节点,用测试集来判断将这些叶子节点合并以后是否能降低整体误差,如果能的话,就合并叶子节点,以达到剪枝的目的。后剪枝的伪代码为:
分类回归树(CART)_第3张图片
3 模型树
如果叶子节点是分段常数,就称为回归树;如果叶节点是线性回归方程,则称为模型树。

你可能感兴趣的:(机器学习)