西瓜书习题 - 4.决策树

1.决策树基本流程

1、下列选项哪个是决策树的预测过程?

  1. 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点
  2. 将测试示例从一个中间节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
  3. 将测试示例从叶节点开始,沿着划分属性所构成的“判定测试序列”上行,直到根节点
  4. 将测试示例从根节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点

2、决策树学习的策略是什么?

  1. 分而治之
  2. 集成
  3. 聚类
  4. 排序

3、决策树训练时,若当前结点包含的样本全属于同一类别,则____(需要/无需)划分

无需

2.信息增益划分

1、信息熵是度量样本集合 [填空1] 最常用的一种指标

  1. 纯度
  2. 对称差
  3. 大小
  4. 重要性

2、以下哪个选项是信息增益的定义?

  1. 划分前的信息熵-划分后的信息熵
  2. 划分后的信息熵-划分前的信息熵
  3. 划分前的信息熵/划分后的信息熵
  4. 划分后的信息熵+划分前的信息熵

3、在二分类任务中,若当前样本集合的正类和负类的数量刚好各一半,此时信息熵为____(保留一位小数)

1.0

3.其他属性划分

1、下列说法错误的是()

  1. CART算法在候选属性集合中选取使划分后基尼指数最大的属性
  2. 划分选择的各种准择对泛化性能的影响有限
  3. 划分选择的各种准择对决策树尺寸有较大影响
  4. 相比划分准则,剪枝方法和程度对决策树泛化性能的影响更为显著

2、增益率的表达式是Gain_ratio(D,a)=()

  1. Gain(D,a)+IV(a)
  2. Gain(D,a)-IV(a)
  3. Gain(D,a)*IV(a)
  4. Gain(D,a)/IV(a)

3、对西瓜数据集2.0(《机器学习》教材第76页),划分前的信息熵为0.998,若使用编号属性进行划分,则信息增益为____(保留3位小数)

0.998

4.决策树的剪枝

1、剪枝是决策树学习算法对付什么现象的主要手段?

  1. 标记噪声
  2. 数据少
  3. 过拟合
  4. 欠拟合

2、提前终止某些分支的生长,这个策略的名称是什么?

  1. 预剪枝
  2. 后剪枝
  3. 不剪枝
  4. 随机剪枝

3、决策树剪枝的基本策略有“____”和“后剪枝”

预剪枝

5.缺失值的处理

1、决策树算法一般是如何对缺失属性进行处理的?

  1. 仅使用无缺失的样例
  2. 对缺失值进行随机填充
  3. 用其他属性值预测缺失值
  4. 利用“样本赋权,权重划分”的思想解决

2、决策树处理缺失值的基本思路是“样本赋权,权重划分”,其中“权重划分”指的是以下哪个选项?

  1. 给定划分属性,若样本在该属性上的值缺失,会按进入权重最大的一个分支
  2. 给定划分属性,若样本在该属性上的值缺失,会按权重随机进入一个分支
  3. 给定划分属性,若样本在该属性上的值缺失,会按权重同时进入所有分支
  4. 给定划分属性,若样本在该属性上的值缺失,会按进入权重最小的一个分支

3、决策树处理有缺失值的样本时,仅通过____(有/无)缺失值的样例来判断划分属性的优劣

6.章节测试

1、决策树划分时,若当前结点包含的样本集合为空,则应该怎么做?

  1. 将结点标记为叶结点,其类别标记为父结点中样本最多的类
  2. 将结点标记为叶结点,其类别标记为父结点中样本最少的类
  3. 将结点标记为叶结点,其类别标记为父结点中任意一个类
  4. 从其他结点获得样本,继续进行划分

2、决策树划分时,当遇到以下哪种情形时,将结点标记为叶节点,其类别标记为当前样本集中样本数最多的类

  1. 当前属性集为空,或所有样本在所有属性上取值相同
  2. 当前属性集不为空,或所有样本在所有属性上取值相同
  3. 当前结点包含的样本集合为空,或当前属性集为空
  4. 当前结点包含的样本集合为空,或所有样本在所有属性上取值相同

3、ID3决策树划分时,选择信息增益最____(大/小)的属性作为划分属性

4、若数据集的属性全为离散值,决策树学习时,____(可以/不可以)把用过的属性再作为划分属性。

不可以

5、下列说法错误的是()

  1. 信息增益准则对可取值较少的属性有所偏好
  2. C4.5算法并不是直接选择增益率最大的候选划分属性
  3. 基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率
  4. 基尼指数越小,数据集的纯度越高

信息增益准则对可取值较多的属性有所偏好

6、对西瓜数据集2.0(《机器学习》教材第76页),属性“触感”和“色泽”,____(触感/色泽)的增益率更大

色泽

7、对西瓜数据集2.0(《机器学习》教材第76页),属性“色泽”的基尼指数为____(保留2位有效数字)

0.43

6 / 17 ∗ ( 1 − ( 1 / 2 ) 2 − ( 1 / 2 ) 2 ) + 6 / 17 ∗ ( 1 − ( 4 / 6 ) 2 − ( 2 / 6 ) 2 ) + 5 / 17 ∗ ( 1 − ( 1 / 5 ) 2 − ( 4 / 5 ) 2 ) = 0.4275 6/17*(1-(1/2)^2-(1/2)^2)+6/17*(1-(4/6)^2-(2/6)^2)+5/17*(1-(1/5)^2-(4/5)^2)=0.4275 6/17(1(1/2)21/2)2)+6/17(1(4/6)22/6)2)+5/1711/5)24/5)2=0.4275

8、随着决策树学习时的深度增加,会发生什么现象?

  1. 位于叶结点的样本越来越少
  2. 不会把数据中不该学到的特性学出来
  3. 决策树不会过拟合
  4. 叶结点一定学到一般规律

划分结点越多,叶结点样本数越少,会把数据中不该学到的特性学出来(即过拟合),学到的不是一般规律

9、只学习一颗决策树作为模型时,一般____(要/不要)选择剪枝

不剪枝容易造成过拟合

10、(本题需阅读教材79-83页中剪枝的例子)考虑如图的训练集和验证集,其中“性别”、“喜欢ML作业”是属性,“ML成绩高”是标记。假设已生成如图的决策树,用精度(accuracy)衡量决策树的优劣,预剪枝的结果____(是/不是)原本的决策树。

西瓜书习题 - 4.决策树_第1张图片

不是

首先看性别,划分之前选择标记均为“是”,验证集精度为25%;划分后性别男标记为“否”,性别女标记为“是”,验证集精度为25%,因此没有带来泛化性能的提升。剪枝后决策树为直接判定标记为“是”。

11、(本题需阅读教材79-83页中剪枝的例子)考虑如图的训练集和验证集,其中“性别”、“喜欢ML作业”是属性,“ML成绩高”是标记。假设已生成如图的决策树,用精度(accuracy)衡量决策树的优劣,后剪枝的结果____(是/不是)原本的决策树。

西瓜书习题 - 4.决策树_第2张图片

首先看喜欢,剪枝前验证集精度为50%,剪枝后该结点标记为“否”,验证集精度为25%,因此不剪枝。最终决策树为原本的决策树。

12、下列说法正确的是()

  1. 决策树处理缺失值时,仅通过无缺失值的样例来判断划分属性的优劣
  2. 若数据中存在缺失值,决策树会仅使用无缺失的样例
  3. 若数据维度很高,不容易出现大量缺失值
  4. 对决策树,给定划分属性,若样本在该属性上的值缺失,会随机进入一个分支

若数据中存在缺失值,决策树会利用无缺失的样例;若数据维度很高,容易出现大量缺失值;会按权重同时进入所有分支。

13、决策树处理有缺失值样本时,一个样本在各子节点中的权重和为____(保留一位小数)

1.0

14、关于剪枝,下列说法错误的是()

  1. 对于同一棵树,进行预剪枝和后剪枝得到的决策树是一样的
  2. 决策树的剪枝算法可以分为两类,分别称为预剪枝和后剪枝
  3. 预剪枝在树的训练过程中通过停止分裂对树的规模进行限制
  4. 后剪枝先构造出一棵完整的树,然后通过某种规则消除掉部分节点,用叶子节点替代

15、通常来说,子节点的基尼不纯度与其父节点是什么样的关系?

  1. 通常更低
  2. 通常更高
  3. 永远更高
  4. 永远更低

你可能感兴趣的:(西瓜书习题,决策树,机器学习,算法)