决策树的使用

什么是决策树?

        分类决策树模型是一种描述对实例进行分类的树形结构。 决策树由结点和有向边组成。结点有两种类型:内部结点和叶节点。内部结点表示一个特征或属性,叶节点表示一个类。

决策树如何做决策?

                       决策树的使用_第1张图片

         上边中有3个哈密瓜的属性,如何综合利用这些属性去判断哈密瓜的好坏?决策树的做法是每次选择一个属性进行判断,如果不能得出结论,继续选择其他属性进行判断,直到能够“肯定地”判断出哈密瓜的好坏或者是上述属性都已经使用完毕。比如说我们要判断一个哈密瓜的好坏,我们可以先根据哈密瓜的气味进行判断,如果不能得出结论,再根据形状相似的瓜重量作判断,这样以此类推,直到可以得出结论为止。

        决策过程中提出的每个判定问题都是对某个属性的“测试” ;每个测试的结果或是导出最终结论,或者导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内 ;从根结点到每个叶结点的路径对应了一个判定测试序列。

决策树的使用_第2张图片

如何选择最优划分属性。

        一般而 言,随着划分过程不断进行,我们希望决策树的分支结点 所包含的样本尽可能属于同一类别,即结点的“纯度 ”(purity)越来越高。

经典的属性划分方法:

         1.信息增益: ID 3( ID3决策树学习算法以信息增益为准则来选择划分属性。

                  离散属性a有V个可能的取值{a1 , a2 , ..., aV},用a来进行划分,则会产 生V个分支结点,其中第v个分支结点包含了D中所有在属性a上取值为 av的样本,记为Dv 。则可计算出用属性a对样本集D进行划分所获得的 “信息增益” :

 

                    • 一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的 “纯度提升”越大

                

             2.增益率:C 4.5(C4.5 采用了一个启发式方法:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选取增益率最高的。

                        可定义增益率:决策树的使用_第3张图片

 

         称为属性a的“固有值” ,属性a的可能取值数 目越多(即V越大),则IV(a)的值通常就越大。

      

3.基尼指数:CART

        分类问题中,假设D有K个类,样本点属于第k类的概率为pk, 则概率 分布的基尼值定义为

 

Gini(D)越小,数据集D的纯度越高;给定数据集D,属性a的基尼指数定义为

 

在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最有划分属性。

 

 

你可能感兴趣的:(决策树,算法)