决策树CART,ID3,C4.5

  • CART算法

CART分类回归树,离散变量和连续变量均可处理。采用基尼指数较小的特征作为分类标准。既可以用于分类也可以用于回归。
二叉树,采用二元切分法,每次把数据分成两份,分别进入左子树和右子树。相比ID3和C4.5,CART应用要多一些,通过基尼指数选择最优特征,同时决定该特征的最优二值切分点,而ID3和C4.5直接选择最优特征,不用划分。
基尼值
决策树CART,ID3,C4.5_第1张图片
对于给定样本集合D,基尼指数
决策树CART,ID3,C4.5_第2张图片
如果样本集合D根据特征A是否取某一可能值a被分割为D1和D2两部分。在特征A下,集合D的基尼指数定义为
决策树CART,ID3,C4.5_第3张图片
基尼指数越大,样本集合不确定性越大。因此在候选属性中选择基尼系数最小的属性作为最优划分属性。

  • ID3算法

    ID3可处理离散变量。采用信息增益作为分类标准。可用于分类。
    ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用,所以有观点认为这种切分方式过于迅速。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。
    信息熵是度量样本集合纯度最常用的一种指标。假设样本集合D中第k类样本所占的比重为pk,那么信息熵的计算则为下面的计算方式。
    这里写图片描述
    当这个Ent(D)的值越小,说明样本集合D的纯度就越高
    有了信息熵,当我选择用样本的某一个属性a来划分样本集合D时,就可以得出用属性a对样本D进行划分所带来的“信息增益”
    这里写图片描述
    一般来讲,信息增益越大,说明如果用属性a来划分样本集合D,那么纯度会提升,因为我们分别对样本的所有属性计算增益情况,选择最大的来作为决策树的一个结点,或者可以说那些信息增益大的属性往往离根结点越近,因为我们会优先用能区分度大的也就是信息增益大的属性来进行划分。当一个属性已经作为划分的依据,在下面就不在参与竞选了,而经过根结点下面属性各个取值后样本又可以按照相应属性值进行划分,并且在当前的样本下利用剩下的属性再次计算信息增益来进一步选择划分的结点,ID3决策树就是这样建立起来的。

  • C4.5算法

C4.5可处理离散变量。采用信息增益率作为分类标准。用于分类
C4.5是ID3的基础上改进而提出的。.ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大).为了避免这个不足C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。除此之外,C4.5还弥补了ID3中不能处理特征属性值连续的问题。但是,对连续属性值需要扫描排序,会使C4.5性能下降
增益比率度量是用前面的增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)来共同定义的,如下所示:
这里写图片描述
其中,分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀):
这里写图片描述
其中S1到Sc是c个值的属性A分割S而形成的c个样例子集。注意分裂信息实际上就是S关于属性A的各值的熵。这与我们前面对熵的使用不同,在那里我们只考虑S关于学习到的树要预测的目标属性的值的熵。

C4.5算法中几个重要概念的表达,如下:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

你可能感兴趣的:(决策树CART,ID3,C4.5)