** 注:本博客为周志华老师《机器学习》读书笔记,博客以西瓜书为基础写成。
2019年4月13日更新:1、订正了大家评论中的一个笔误。2、增加测试样本中属性有缺失值该如何处理。
决策树系列博客:
现实生活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量比较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有大量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了大量的样本,对于机器学习模型而言损失了大量有用的信息,训练出来的模型性能会受到影响。这篇博客就来介绍在决策树中是如何处理属性值有缺失的样本的,本篇博客使用的数据集如下(数据集来自周志华《机器学习》):
在决策树中处理含有缺失值的样本的时候,需要解决两个问题:
下面就来介绍如何解决这两个问题:(由于CSDN博客更新了博客编辑器,原来用的富文本编辑器,导致我修改完,长截图的图片压缩很严重,不得已把图片分成了三段,相比较一张图片,中间的间隙没法处理,微微影响阅读体验,请您见谅)
比较发现,“纹理”在所有属性中的信息增益值最大,因此,“纹理”被选为划分属性,用于对根节点进行划分。划分结果为:“纹理=稍糊”分支:{7,9,13,14,17},“纹理=清晰”分支:{1,2,3,4,5,6,15},“纹理=模糊”分支:{11,12,16}。如下图所示:
那么问题来了,编号为{8,10}的样本在“纹理”这个属性上是缺失的,该被划分到哪个分支里?前面讲过了,这两个样本会同时进入到三个分支里,只不过进入到每个分支后权重会被调整(前面也说过,在刚开始时每个样本的权重都初始化为1)。编号为8的样本进入到三个分支里后,权重分别调整为5/15,7/15 和 3/15;编号为10的样本同样的操作和权重。因此,经过第一次划分后的决策树如下图所示:
我们都知道构造决策树的过程是一个递归过程,原来不打算继续介绍递归过程了,但是因为权重发生了变化,所以继续介绍下递归过程。接下来,递归执行“纹理=稍糊”这个分支,样本集D = {7,8,9,10,13,14,17},共7个样本。如下图所示:
下面来看具体的计算过程:
对比能够发现属性“敲声”的星系增益值最大,因此选择“敲声”作为划分属性,划分后的决策树如下图所示:
接下来对分支{敲声 = 沉闷}即结点{9,14,17}进行划分,根据博客决策树(一)介绍的三种递归返回情形,结点{9,14,17}因为包含的样本全部属于同一类别,因此无需划分,直接把结点{9,14,17}标记为叶结点,如下图所示:
根据递归过程,接下来对分支“敲声 = 浊响”即结点{7,8,13}进行划分,计算过程和上面一样,虽然我也算过了,但是不再贴出来了,需要注意的是样本的权重是1/3。计算完比较能够知道属性“脐部”的信息增益值最大,因此选择“脐部”作为划分属性,划分完的决策树如下图所示:
接下来,继续,对于结点{13},因为就一个样本了,直接把该结点标记为叶结点,类别为“坏瓜”;递归到结点{7,8},因为样本类别相同,所以也标记为叶结点,类别为“好瓜”;递归到结点“脐部=平坦”,因为这个结点不包含任何样本为空集,因此,把该结点标记为叶结点,类别设置为父节点中多数类的类别,即为“好瓜”。因此“纹理=稍糊”这颗子树构造完毕,如下图所示:
接下来,只需递归的重复上述过程即可,即能训练出一颗完整的决策树,最终的决策树如下图所示(该图片来自西瓜书):
以上介绍了决策树在训练阶段是如何处理有缺失值的样本的,从而构造出一颗树。当我们构造完一棵树后,有新的样本过来就可以对新的样本进行分类了,那么问题来了,如果测试样本属性也有缺失值那要怎么办?这一点西瓜书上并未有涉及,下面的评论有同学问,因此去找了Quinlan的论文,Quinlan在论文《unknown attribute values in introduction》中总结了一些方法:
简单翻译下,就是:
上面的这么多方法只是提一下,C4.5中采用的方法是:测试样本在该属性值上有缺失值,那么就同时探查(计算)所有分支,然后算每个类别的概率,取概率最大的类别赋值给该样本。好像这个方法并不怎么好用语言描述,我们直接看例子吧,相信你看完例子就立刻明白了,由于这是今天(19年4月9号)新添加的内容,上面西瓜书上的例子当时计算的权重没有保留下来,因此这里直接引用Quinlan在著作《C4.5: Programs For Machine Learning》里举的例子(在该书的p31-p32),先看数据集:
注意,编号12的样本属性outlook上有缺失值,我们基于上面介绍的构造决策树的方法来构造一颗决策树(C4.5用信息增益率,除此之外,构造方法与上述方法一致),构造出来的决策树为:
上图中,红色数字表示样本编号,括号内的值表示样本12的权重。叶结点中的数值(N/E),比如no(3.38/0.38)表示这个叶子节点被标记为no也就是don't play,3.38=1+1+0.38,编号1,2的样本没有缺失值,权重为1进来的,编号12进入到这个叶结点时权重为0.38。
如果,此时我们有一条样本:outlook=sunny, temperature=70, humidity=?, windy=false 能够看出这条样本的属性humidity是缺失的,那么构建好的决策怎么对这个样本分类?
首先这个样本的outlook为sunny,肯定会进入到“humidity”这个节点里,因为该样本humidity属性值缺失,两个分支都有可能进入:
大家肯定有一点疑惑,就是上面humidity>75里,明明叶结点的label为no啊,那应该是don't play啊,怎么还有don't play和paly的概率,这是Quinlan的定义,上面的(N/E)中,N,E的定义分别是:
那么根据上面介绍的,此时同时探查(计算)所有分支,然后算每个类别的概率,取概率最大的类别赋值给该样本。这里humidity下就有两个分支,<=75 => yes 和 >75 =>no。下面分别计算这两个类别的概率:
yes(play):2.0/5.38 * 100% + 3.38/5.38 * 11.3% = 44.27%
no(don't play): 3.38/5.38 * 88.7% = 55.73%
因此no的概率更大,所以该测试样本的类别被指派为no,即don't play。
关于决策树缺失值的处理介绍到这,欢迎大家讨论交流。另:近期发现有人公然复制我的博客当做原创,且未注明原文出处和作者,这种行为是令人讨厌的,写博客甚是耗费精力和时间,希望转载的同学尊重下原作者的心血。
参考文献: