吃瓜教程Task 3 决策树算法

本章介绍的是决策树算法,决策树算法是一类非参的模型,在学习过程中没有显式的参数训练过程。

一:如何生成决策树?

       1. 决策树的生成可以视作对样本空间反复划分成一个个区域的过程,这些区域互不相交,且并集为整个样本空间。用于分类时,每个区域返回一个类别判断或者类别判断的概率。算法采用递归这种计算机非常善于处理的操作进行。对递归来说最重要的便是设置递归的停止条件,决策树算法中体现了三个递归停止的条件。其次树的生成需要我们遵循一定的准则,选取属性划分,可以遵循最小错误率,也可以使用诸如信息增益,基尼指数等指标来进行。实验证明,遵循什么样的特征选择依据对于最后生成的树没有什么太大的区别,因此个人认为树的生成过程不是决策树模型的重点,可行的方法有多种。

       2. 回归策略树的本质与分类决策树完全相同,同样遵循的对样本空间反复划分的原理进行。可以理解为分类决策树划分后对样本空间的区域输出一个类别,而回归树则是输出一个值,这个值通常是这个区域的均值或者中位数,来作为我们的回归预测结果。

二:决策树算法特点

        1.由于决策树可以看作对样本空间的划分,相较于线性模型用线性超平面将样本空间一分为二,决策树每一个分叉都可以看作对样本空间的划分,因此样本空间可以被很多条直线划成很多个区域将样例分开,理论上说决策树可以学习到0训练误差(想象一个二维坐标系中所有样例都被划分到一个个小格子中,每个小格子的输出都是里面训练样例的输出)。所以决策树相对于线性模型拟合能力更强,更灵活,可以处理非线性可分问题,因此也很容易过拟合。

       2.真正对决策树泛化能力影响最大的过程是剪枝的方法和程度。西瓜书上给的剪枝方法需要配合验证集进行,分为预剪枝和够剪枝两种。

       3.决策树还有一大特点或者优势便是对缺失值的处理,其他模型如神经网络只能通过预处理填充的方法应对缺失值问题。而决策树采取了"权重划分,样本赋权"的方法进行。分别对应处理缺失值下的两大问题(1)如何在属性值缺少下进行属性选择(2)选好属性后,若样本在该属性上无值,如何对样本进行划分。

三:本章手写笔记

吃瓜教程Task 3 决策树算法_第1张图片

吃瓜教程Task 3 决策树算法_第2张图片 

吃瓜教程Task 3 决策树算法_第3张图片 

 

课程学习链接:​​https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70Wps
视频学习链接:https://www.bilibili.com/video/BV1Mh411e7VU

 

 

你可能感兴趣的:(机器学习,决策树)