【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5

推荐阅读:纯度;信息熵;信息增益

关键词: 纯度;信息熵;信息增益;增益率;ID3;C4.5;基尼指数;预剪枝;后剪枝

4.1基本流程

关键词:决策树(decision tree)
决策树是一种分类方法,其优点:计算量小,可解释性强,比较适合处理有缺失属性值的样本以及类别不均衡的数据集。缺点:容易过拟合,数值必须是离散型。
一棵决策树包括:根结点,内部结点和叶结点。整个训练过程就是从根结点出发,经过若干个内部结点,最终达到若干个叶结点的过程。即:根结点—-内部结点—–叶结点。 叶结点就是分类的类别,根结点中包含的是整个训练样本,而内部结点就是一个个划分属性(判别)。具体如图所示:
【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5_第1张图片
【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5_第2张图片

4.2 划分选择

关键词:纯度;信息熵;信息增益;增益率;ID3;C4.5;基尼指数。
对于决策树来说首要问题是寻找决定性属性(特征),即当前数据集上哪个属性(特征)在划分数据分类时起决定性作用。如何称之为起决定性作用呢? 也就是说通过该属性,可以把样本划分得更“纯”, “纯”是啥意思呢?“纯度”(purity)指的是在中间结点(分支结点)所包含的样本尽可能属于同一类别。我们在众多属性中优先找一个起决定性的属性来划分样本,划分得越纯越好。那么纯怎么度量呢? 就要用到信息熵(information entropy),信息熵可以理解为信息的不确定性,信息熵越大,表明越不确定的东西。我们要“纯”,就是要信息很确定,即要信息熵小。信息熵衡量的是一个结点当中的纯度,而我们要的是当一个属性把样本划分到分支结点时,要让这个“纯度”更纯, 如何衡量这个“纯度”的变化呢? 这里就要用到信息增益(information gain),也就是说,信息增益是衡量一个属性把当前样本集进行划分之后,这个纯度的变化量,我们希望的时越纯越好,所以要信息增益越大越好。
有点绕,理一下,信息熵是针对单一结点而言,一个结点有它的信息熵,而信息增益是针对某一属性而言,指的是通过这个属性划分之后的那些结点的“纯度”相对于原结点的“纯度”的变化量,注意是变化量喔! 看一下公式就好理解了:
信息熵 Ent(D)=Kk=1pklog2pk ,在结点中的样本集为D,样本集D总共有K个类别, 表示第k个类别占样本集D中的比例。

信息增益 Gain(D,a)=Ent(D)Vv=1|Dv||D|Ent(Dv) ,其中a是属性,a的属性有V个取值,∑后的第一项( |Dv||D| )是第v个属性的权重,所以这是计算样本集D,经过属性a的划分之后的那V个子结点的“纯度”的变化量

所以决策树的训练过程就是,基于当前结点的样本,要找一个起到决定性的属性来对当前样本进行划分,而怎么比较各个属性的决定性大小呢?
著名的ID3(Iterative Dichotomiser ,迭代二分类器)决策树学习算法中,就采用信息增益来衡量的。

而在著名C4.5算法则采用增益率来衡量。为什么采用增益率呢? 我们回头看看信息增益的公式,发现属性的可能取值种类有V种,这个V的数量会严重影响决策树的性能。具体来说就是,信息增益准则对可取数值(例如V种取值)较多的属性(属性a)有所偏好,当属性a的取值可能有20种,而别的属性仅2,3种可能的时候,那么这棵树就偏好属性a,显然这是不合理的,因此,C4.5(Quinlan,1993)采用增益率来衡量各个属性之间的决定性作用大小

增益率公式就不写了,翻书吧,但是增益率准则对 可取值数目较少的属性有偏好,这点与信息增益准则有所不同。
基尼指数(Gini index):CART(classification and Regression Tree)决策树,采用基尼指数来选择划分属性。基尼指数Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此,Gini(D)越小,则数据集D的纯度越高。

4.3 剪枝处理(pruning)

关键词:预剪枝;后剪枝。
剪枝(pruning)是决策树算法对付“过拟合”的主要手段。基本策略分为“预剪枝”(prepruning),“后剪枝”(post-pruning)。预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分,将当前结点标记为叶结点。后剪枝是先训练生成一棵树,然后自底向上对非叶结点进行考察,若将该结点对应的子树替换为叶结点能提升决策树泛化性能,则将该子树替换为叶结点。

你可能感兴趣的:(machine,learning,机器学习,决策树,id3决策树)