Datawhale-Task3决策树算法梳理

初级算法梳理第八期 -Datawhale
【任务3 - 决策树算法梳理】时长:2天

1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
3.回归树原理
4.决策树防止过拟合手段
5.模型评估
6.sklearn参数详解,Python绘制决策树

参考:西瓜书 cs229吴恩达机器学习课程 李航统计学习
谷歌搜索 公式推导参考:http://t.cn/EJ4F9Q0

1.信息论基础
Datawhale-Task3决策树算法梳理_第1张图片
Datawhale-Task3决策树算法梳理_第2张图片
Datawhale-Task3决策树算法梳理_第3张图片
参考链接

信息增益:
选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率的定义为待分类的集合的熵和选定某个特征的条件熵之差。
Datawhale-Task3决策树算法梳理_第4张图片

基尼不纯度:
将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。
Datawhale-Task3决策树算法梳理_第5张图片

2.决策树的不同分类算法的原理及应用场景

这三个是非常著名的决策树算法。简单粗暴来说,ID3使用信息增益作为选择特征的准则;C4.5使用信息增益比作为选择特征的准则;CART使用Gini指数作为选择特征的准则。

ID3 算法:在决策树各结点上运用信息增益准则选择特征,递归的构建决策树。
熵表示的是数据中包含的信息量大小。熵越小,数据的纯度越高,也就是说数据越趋于一致,这是
我们希望的划分之后每个子节点的样子。
信息增益 = 划分前熵 - 划分后熵。信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。也就是说,用属性a来划分训练集,得到的结果中纯度比较高。
ID3仅仅适用于二分类问题。ID3仅仅能够处理离散属性。

C4.5:使用信息增益比作为划分训练数据集的特征,可以校正ID3算法偏向于选择取值较多的特征这一问题。
C4.5克服了ID3仅仅能够处理离散属性的问题,以及信息增益偏向选择取值较多特征的问题,使用信息增益比来选择特征。信息增益比 = 信息增益 /划分前熵 选择信息增益比最大的作为最优特征。
C4.5处理连续特征是先将特征取值排序,以连续两个值中间值作为划分标准。尝试每一种划分,并计算修正后的信息增益,选择信息增益最大的分裂点作为该属性的分裂点。

CART分类数:二分递归分割的技术,将当前样本分成两个子样本集,使得生成的非叶子节点都有两个分支。
CART与ID3,C4.5不同之处在于CART生成的树必须是二叉树。也就是说,无论是回归还是分类问题,无论特征是离散的还是连续的,无论属性取值有多个还是两个,内部节点只能根据属性值进行二分。
CART的全称是分类与回归树。从这个名字中就应该知道,CART既可以用于分类问题,也可以用于回归问题。

回归树中,使用平方误差最小化准则来选择特征并进行划分。每一个叶子节点给出的预测值,是划分到该叶子节点的所有样本目标值的均值,这样只是在给定划分的情况下最小化了平方误差。要确定最优化分,还需要遍历所有属性,以及其所有的取值来分别尝试划分并计算在此种划分情况下的最小平方误差,选取最小的作为此次划分的依据。由于回归树生成使用平方误差最小化准则,所以又叫做最小二乘回归树。

参考链接
参考链接
3.回归树原理:
Datawhale-Task3决策树算法梳理_第6张图片
参考链接
4.决策树防止过拟合手段:

1.合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树;
2.剪枝:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。剪枝是一个简化过拟合决策树的过程。有两种常用的剪枝方法:
(1)先剪枝(prepruning):通过提前停止树的构建而对树“剪枝”,一旦停止,节点就成为树叶。该树叶可以持有子集元组中最频繁的类;
(2)后剪枝(postpruning):它首先构造完整的决策树,允许树过度拟合训练数据,然后对那些置信度不够的结点子树用叶子结点来代替,该叶子的类标号用该结点子树中最频繁的类标记。后剪枝的剪枝过程是删除一些子树,然后用其叶子节点代替,这个叶子节点所标识的类别通过大多数原则(majority class criterion)确定。

5.模型评估:

有三种不同的方法来评估一个模型的预测质量:
estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题。
Scoring参数:使用cross-validation的模型评估工具,依赖于内部的scoring策略。
通过测试集上评估预测误差:sklearn Metric函数用来评估预测误差。

评价指标(Evaluation metrics)
评价指标针对不同的机器学习任务有不同的指标,同一任务也有不同侧重点的评价指标。
主要有分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、热门主题模型(topic modeling)、推荐(recommendation)等。
参考链接

你可能感兴趣的:(决策树算法,初级算法,机器学习)