决策树的Cart算法及案例

数据挖掘中使用的决策树有两种类型:
1.分类树指预测结果是数据所属的类别
2.回归树值预测结果可是是实数(例如:房子的价格,患者在医院逗留的时间等)
Cart是二分类算法,将每个特征二分(这里包括离散值和连续值),并经过最优二分特征及最优二分特征值选择、切分,二叉树生成。在最优特征选择上,Cart算法采用基尼系数增益率作为判别标准(这里区别于ID3的信息增益和C4.5的信息增益率)。
基尼系数和分类数算法流程:
基尼系数是一种度量,指从集合中随机选择元素被标记错误的度量,基尼系数可以通过将带有标签i的元素被抽取的概率*在分类i元素时被标记错误的概率来表示
在这里插入图片描述为了计算一个带有J个类别元素集合的基尼系数,我们假定i∈{1,2,…,J}
,并且Pi为元素中标记为i类元素的占比,则有下式:
在这里插入图片描述1表示为所有类别占比加起来为1
假设Sk是集和S中属于第k 类的样本子集,则S基尼指数为在这里插入图片描述通过基尼系数我们可以定义基尼系数增益:
对于含有N个样本的样本集S,根据属性A的第i个属性值,将数据集S分割成S1i、S2i两部分(a>=a_i,a在这里插入图片描述其中,n1,i、n2,i分别为样本子集S1,i、S2,i的样本个数。

选择具有最小基尼系数增益率作为最优的属性值和特征,作为最优分割属性以及最优属性分割值

案例:
序号 是否有房 婚姻状况 年收入 是否拖欠贷款
1 是 单身 12.5 否
2 否 已婚 10 否
3 否 单身 7 否
4 是 已婚 12 否
5 否 单身 9.5 否
6 否 已婚 6 否
7 是 已婚 22 否
8 否 单身 8.5 是
9 否 已婚 8.5 否
10 否 单身 9 是

共有10的样本,4个特征。
特征1:计算是否有房的基尼系数

在这里插入图片描述有房的占比3/10,拖欠贷款的为0,不拖欠贷款3人
有房的基尼系数:
1- (0/3)**2 - (3/3)**2 = 0
无房的基尼系数:
决策树的Cart算法及案例_第1张图片没有放的占比7/10,拖欠贷款2人,不拖欠贷款的5人
1-(2/7)**2 - (5/7)**2 = 0.409
是否有房的基尼系数:
3/100 + 7/100.409 = 0.2863

其他的自己算一下吧,实在不想算了!!!!

你可能感兴趣的:(分类算法,决策树)