【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合

  • 一、课业打卡六
  • 二、知识点巩固
    • 1、三个决策树算法
    • 2、三种著名的决策树
    • 3、表示属性测试条件的方法
    • 4、基于连续属性的划分 (ID3 算法 )
    • 5、选择最佳划分的度量
    • 6、不纯性的测量: GINI
    • 7、不纯性的测量: Classification Error
    • 8、不纯性的测量: Entropy(熵)
    • 9、模型过分拟合和拟合不足
    • 10、导致过分拟合的原因
    • 11、处理决策树中的过分拟合

叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
在这里插入图片描述

一、课业打卡六

一、填空题

1、已知一个数据集,其中有2个类的样本,这2个类的样本数量分别为1、2,则该数据集的熵值为____。
(说明:熵写成-(b/a)*log2(b/a)-(d/c)*log2(d/c)的形式。其中,分数b/a、d/c约分为最简形式)

正确答案:答案形式不唯一
 
–(1/3)log2(1/3)(2/3)log2(2/3);
–(2/3)log2(2/3)(1/3)log2(1/3);
-(1/3)log2(1/3)-(2/3)log2(2/3);
-(2/3)log2(2/3)-(1/3)log2(1/3)

2、已知一个数据集,其中有3个类的样本,这3个类的样本数量分别为1、1、3,则该数据集的Classification Error为____。
(结果用小数或分数表示)

正确答案:答案形式不唯一

2/5;0.4;0.40

3、已知一个数据集,其中有2个类的样本,这2个类的样本数量分别为1、4,则该数据集的GINI值为____。
(结果用小数或分数表示,小数保留小数点后2位)

正确答案:答案形式不唯一

8/25;0.32

二、判断题

1、训练误差,是分类模型在训练记录上误分类样本的比例;泛化误差,是分类模型在未知的测试记录上的期望误差。

正确答案:√

2、出现拟合不足的原因是模型尚未学习到数据的真实结构。

正确答案:√

3、当决策树很小时,训练和检验误差都很大,这种情况称为模型过分拟合。

正确答案:×

4、当决策树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型拟合不足。

正确答案:×

5、导致过分拟合的原因包括:训练数据中操作噪声、训练数据中缺乏代表性样本。

 正确答案:√

二、知识点巩固

1、三个决策树算法

Hunt 算法:

– 信息增益——Information gain (ID3 )
– 增益比率——Gain ration (C4.5 )
– 基尼指数——Gini index (SLIQ ,SPRINT)

2、三种著名的决策树

 Cart:基本的决策树算法
 Id3:利用增益比较不纯性,停止准则为当所有的记录属于同一类时,停止分裂,或当所有的记录都有相同的属性时,停止分裂。
 C4.5:id3的改进版本,也是最流行的分类算法。采用多重分支和剪枝技术。

3、表示属性测试条件的方法

怎样为不同类型的属性指定测试条件?

 依赖于属性的类型
– 标称
– 序数
– 连续
 依赖于划分的路数
– 2路划分
– 多路划分

(1)基于标称属性的分裂

 多路划分: 划分数(输出数)取决于该属性不同属性值的个数.
 二元划分: 划分数为2,这种划分要考虑创建k个属性值的二元划分的所有2 k-1 -1种方法.

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第1张图片
【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第2张图片

(2)基于序数属性的划分

 多路划分: 划分数(输出数)取决于该属性不同属性值的个数.
 二元划分: 划分数为2,需要保持序数属性值的有序性.

在这里插入图片描述
【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第3张图片
(3)基于连续属性的划分

 多路划分:v i ≤A<v i+1 (i=1,…,k)
 二元划分: (A < v) or (A  v)
– 考虑所有的划分点,选择一个最佳划分点v

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第4张图片

4、基于连续属性的划分 (ID3 算法 )

 ID3算法如何计算连续值属性的信息增益?

 假设属性A是连续值的,而不是离散值的。 (例如,假定有属性age的原始值,而不是该属性的离散化版本。)
 对于这种情况,必须确定A的“最佳”分裂点,其中分裂点是A上的阈值。

 首先,将A的值按递增序排序。典型地,每对相邻值的中点被看做可能的分裂点。
  这样,给定A的v个值,则需要计算v-1个可能的划分。
  例如,A的值ai 和ai+1 之间的中点是(ai+ai+1)/2。
 如果A的值已经预先排序,则确定A的最佳划分只需要扫描一遍这些值。
  对于A的每个可能分裂点,计算 lnfo A (D),其中分区的个数为2。
  A具有最小期望信息需求的点选做A的分裂点。
  D1 是满足A≤split_ poin 的元组集合,而D2 是满足A> split_ point 的元组集合。

5、选择最佳划分的度量

怎样选择最佳划分? —— 不纯性的度量 

 Gini(基尼指数)
 classification error
 Entropy(熵)

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第5张图片
选择最佳划分的度量通常是根据划分后子结点不纯性的程度 。不纯性的程度越低,类分布就越倾斜。
【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第6张图片

6、不纯性的测量: GINI

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第7张图片
计算实例:

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第8张图片
基于 GINI的划分:

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第9张图片

7、不纯性的测量: Classification Error

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第10张图片
计算实例:
【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第11张图片
基于 Classification Error 的划分:
【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第12张图片

8、不纯性的测量: Entropy(熵)

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第13张图片
计算实例:
【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第14张图片

9、模型过分拟合和拟合不足

分类模型的误差大致分为两种:

– 训练误差 : 是在训练记录上误分类样本比例
– 泛化误差 : 是模型在未知记录上的期望误差

一个好的分类模型不仅要能够很好的拟合训练数据,而且对未知样本也要能准确分类。
换句话说,一个好的分类模型必须具有低训练误差低泛化误差
当训练数据拟合太好的模型,其泛化误差可能比具有较高训练误差的模型高,这种情况成为**模型过分拟合**

当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出现**拟合不足**的原因是模型尚未学习到数据的真实结构

 【比如评价一个学生是不是好学生,要考虑德智体美劳多方面属性,如果只看成绩,即决策树过于简单,则分类模型不能反映数据的真实规律】

模型过分拟合:

随着决策树中结点数的增加,模型的训练误差和检验误差都会随之下降。
 当决策树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型过分拟合。

【20200415】数据挖掘DM课程课业打卡六之决策树归纳&模型的过分拟合_第15张图片

10、导致过分拟合的原因

(1 、 噪声 )
(2 、 缺乏代表性样本)

根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。
 由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然细化模型就会产生过分拟合。

11、处理决策树中的过分拟合

法一: 先剪枝 (Early Stopping Rule)

树增长算法在产生完全拟合整个训练数据集的之前就停止决策树的生长。

– 为了做到这一点,需要采用更具限制性的结束条件:
 当结点的记录数少于一定阈值,则停止生长。
 当不纯性度量的增益低于某个确定的阈值时,则停止生长 (e.g., information gain)。

– 缺点很难为提前终止选取正确的阈值:
 阈值太高,导致拟合不足
 阈值太低,导致不能充分解决过分拟合的问题。

法二:  后剪枝

在该方法中,初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底向上的方式修剪完全增长的决策树。

修剪有两种做法:
 用新的叶结点替换子树,该叶结点的类标号由子树下记录中的多数类确定。
 用子树中最常用的分支代替子树。

Ending!
更多课程知识学习记录随后再来吧!

就酱,嘎啦!

在这里插入图片描述

注:
人生在勤,不索何获。

你可能感兴趣的:(#,DM+DIP,数据挖掘)