2-6 经典机器学习算法-决策树-CART回归树构建

1、简述决策树的构建过程
2、决策树常见的决策树算法有哪些?请描述它们在进行树的生成过程中,具体的特征选择算法,以及它们的对比?
3、CART回归树构建过程
4、决策树的优缺点
5、决策树如何防止过拟合?说说具体方法。


1、简述决策树的构建过程

(1)构建根节点,将所有训练样本都放根节点

(2)选择最优的特征进行分裂,通过特征值对根节点数据集划分成子集合

(3)若子集非空或停止条件,递归(2)直到根节点数据集都被正确分类或没有特征可划分


2、决策树常见的决策树算法有哪些?请描述它们在进行树的生成过程中,具体的特征选择算法,以及它们的对比?

ID3通过信息增益划分特征,每次选信息增益最大的特征进行划分

C4.5通过最大信息增益率(信息增益比)划分特征

CART分类树,通过最小基尼指数进行特征划分

CART回归树,通过选取最优特征的最优值,将区域进行二分,每个区域用样本标签均值代表这个区域的预测值


3、CART回归树构建过程

(1)选取最优切分变量的最优切分点,划分为两个子区域

(2)求子区域上的预测值(子区域标签值的平均)

(3)对子区域进行(1)、(2)的递归操作,直至满足停止条件

(4)预测时,样本预测标签=被划到区域的预测值


4、决策树的优缺点

优点:

(1)对缺失值不敏感,对特征容忍度高,可离散可连续

(2)可解释性好,可以计算特征重要度

(3)有特征选择等辅助功能

(4)可以解决线性和非线性问题

(5)运行速度快

缺点:

(1)容易忽略特征之间的相互关联

(2)样本不均衡会影响效果

(3)单棵树容易过拟合,效果一般


5、决策树如何防止过拟合?说说具体方法。

防止模型过拟合的一般思路:数据-模型-正则化-训练方式

(1)预剪枝-限制树的深度、叶子节点的数量、子节点最少的样本树、每次分裂计算对测试集的准确率提升

(2)后剪枝-自底向上根据损失函数,计算是否剪枝

你可能感兴趣的:(AI基础知识,决策树,机器学习,CART回归树,信息增益,cart分类回归树)