西瓜书chapter4简摘

基本流程和划分选择

决策树学习的关键是第 8行,即如何选择最优划分属性一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity)越来越高. 几个概念:

西瓜书chapter4简摘_第1张图片

  • 信息熵:度量样本集合纯度的一种指标,越小纯度越高
  • 信息增益:采用一种属性进行划分所带来的“最佳纯度提升”,利用信息增益对决策树的划分属性进行选择。
  • 增益率:信息增益偏好于可取数值较多的的属性,为避免这种偏好的影响提出增益率;
  • 基尼指数:另一种划分属性选择的评估指标。

剪枝处理

剪枝是去掉训练样本的一些特点,防止过拟合。决策树剪枝的基本策略有“预剪枝“”后剪枝“

  • 预剪枝 :预剪枝是在决策树的生成过程中,如果对于某个属性划分后无法提高模型的泛化能力,则将其设置为叶节点。”贪心“策略禁止划分,可能导致欠拟合
  • 后剪枝 : 自底向上逐个判断,若将非叶节点更换为叶节点,能够提高模型的泛化能力,则设置为叶节点。首先生成决策树,在进行由底向上的逐个判断,时间开销大,但泛化性能好于预剪枝。
  • 回顾:模型泛化能力的提升

数据数值的连续与缺省

  • 连续值 : 数值的划分,”二分法“将节点值设置为属性的某个值作为划分点,划分点一般选择某两个连续数据的中间值。根据不同中间值划分的信息增益,选择某属性的划分点。根据不同属性的信息增益大小,选择最佳属性作为根节点。
  • 缺省值 :对于样本而言,不能要求所有样本的属性都是完整的,因此面临两个问题:
    • 1.如何在属性缺失的情况下选择合适的划分属性?
      • 预设样本权重,利用已有的完整样本评估参数的信息增益。
    • 2.对于给定的划分属性,若某样本该属性缺失如何进行划分?
      • 根据1.确定的划分属性的取值,对该属性完整的样本进行不同子节点的归类,对于该属性缺省的样本,则将其加入所有子节点中,并根据不同子节点的属性权值*调整样本权值。
      • 公式化步骤:

西瓜书chapter4简摘_第2张图片

D~:表示具有完整参数的样本集,D为样本集,K代表样本的种类数目,V代表某一属性的K种取值。样本初始权重Wx均为1. 1.首先计算D~~的信息熵 ~~

西瓜书chapter4简摘_第3张图片

~~ 2.其次计算某属性各取值的信息熵 ~~

 

~~ 3.获得D~~上该属性的信息增益

4.获得D上该属性的信息增益

29e63382c1812b62edf0944b14495eb0.png

5.计算所有属性在D上的信息增益,选择最大的作为根节点进行划分。 6.对于缺省的样本,其进入各个子节点后样本权值变化为

45faf851e8aa79c82ff799d2099a9f42.png

多变量决策树

对于决策树划分的边界而言,若将所有属性看做一条坐标轴,其划分的边界均平行于坐标轴

西瓜书chapter4简摘_第4张图片西瓜书chapter4简摘_第5张图片

而如果将边界变为斜线,则对应的非叶节点则不再代表单一属性,而是多个属性的线性组合,提高了效率也减少了计算量。例如:

西瓜书chapter4简摘_第6张图片

西瓜书chapter4简摘_第7张图片

这样的决策树叫做多变量决策树。

你可能感兴趣的:(决策树)