决策树主要包括ID3,C4.5以及CART。下面给出三种算法的说明:
CART
首先看下面表格中的示例数据(随机生成,仅供参考)。其中年龄,身高,月收入为连续变量,学历,工作为离散变量。
分类树
D3算法使用信息增益来选择特征,信息增益大的优先选择,这种方式会使得特征值较多的特征容易被选择【示例数据中的学历可能会比工作优先选择,因为学历有3个值,而工作有2个值】。
在C4.5算法中,采用了信息增益比来选择特征,改进了ID3容易选择特征值多的特征的问题。C4.5也是优先选择较大的。
上述2者都是基于信息论的熵模型的,这里面会涉及对数运算,因此计算成本较大。
CART分类树算法使用基尼系数,既减少了计算成本,又保留了熵这种运算形式的优点。基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。
对于一个样本集合S,假设其包含m个不同的值,这m个值可看作m个不同的类。其中由类i组成的集合为Si,那么对于属于类i的样本点k而言,其概率为P(k)=集合Si的样本个数除去集合S的样本个数。则基于概率分布的基尼指数定义如下:
其中符号**“||”**为计算集合内元素个数的符号,对于m等于2的情况,上面的式子等价与
如果样本集合S,被某个规则R划分为n个数据子集,分别为S1, S2,……, Sn,则此时的计算基尼系数公示如下:
在CART算法中,上述n的值一定为2。因为每一次分裂,都是把数据集合一分为二。示例计算说明可点击。
叶子节点数据集中,目标变量中占多数的类别,为这个叶子节点的输出类别。如果把上面给定的示例数据集看作一个叶子节点的话,如果某条数据正好落在这个数据集内,则这个数据的分类为N,因为这个数据集中有6条数据为N,多于为Y的数据条数。
回归树
以上面给出的示例数据为例,下面说明生成回归树的方式。将数据集合定义为D。
将数据集合D分为Dsp1=D(学历=专科)以及Dsp2=D(学历!=专科),其中Dsp1中动心度构成的集合为Msp1,均值为asp1;Dsp2中动心度构成的集合为Msp2,均值为asp2;计算2个数据子集合的误差序列方差的和值:
类似于MSE(sp),遍历所有学历中的值,得到下面的MSE(ms),MSE(dr)。
其中数据集Dms1=D(学历=硕士) 以及 Dms2=D(学历!=硕士),Dms1中动心度构成的集合为Mms1,均值为ams1;Dms2中动心度构成的集合为Mms2,均值为ams2;
Ddr1=D(学历=博士) 以及 Ddr2=D(学历!=博士),Ddr1中动心度构成的集合为Mdr1,均值为adr1;Ddr2中动心度构成的集合为Mdr2,均值为adr2。
将身高的所有值去重后按照从小到大的顺序排列,得到集合H=[166,173,175,180], 取相邻两个数的中间值得到集合MH=[169.5,174,177.5],接下来的计算就类似于离散变量的情况,挨个遍历,把数据分为小于、大于这2个数据子集。以169.5为例,把数据集分为Dn169.5=D(身高<169.5)和Dm169.5=D(身高>169.5),数据子集相应的动心度组成的集合分别为Mn169.5,Mm169.5,集合相应的均值为an169.5, am169.5。详细计算过程可点击。
树的输出
树是通过一个个叶子节点决定输出的。输出的方式也包括2种:
回归树:叶子节点代表的数据子集中目标变量的均值,就作为输出值。例如示例中的叶子节点,其输出值为0.56+0.52=0.54。当要预测的某条数据恰好属于这个数据子集,则针对这条数据的动心度的预测值就是0.54。
模型树:对于一个叶子节点来说,有输入,也有对应的输出。根据输入和输出的关系,建立模型,这个模型可以是线性回归,也可以通过神经网络来建立。这个叶子节点的输出值是所建立的模型的输出值。当要预测的某条数据恰好属于这个数据子集,则针对这条数据的动心度的预测值就是将数据带入建立的模型中得到的值。
树到了这里还没有完,关于树的剪枝算法以及实例代码可点击。下面给出结果图展示:
实例代码:回归树,分类树,扫描下方二维码或者微信公众号直接搜索”Python范儿“,关注微信公众号pythonfan, 获取更多实例和代码。