机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法

机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法_第1张图片

C4.5和C5.0的区别:
C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。

CHAID算法

  • 根节点的选取:
    每个输入变量和输出变量(标签)做独立性检验,卡方值最大(P值最小)的为父节点,也就是说,跟输出变量相关的显著性最高的变量作为根节点。

  • 节点的分裂:
    一、连续型输入变量:

1、先将输入变量进行区间划分,比如输入变量为价格,价格的最小单位是1元,那么,组距为1,划分区间为[1]、[2]、[3]、…,计算每个区间里面的频数,再算出与输出变量的交叉表。
机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法_第2张图片
机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法_第3张图片

2、计算两两相邻区间和输出变量的卡方值。
比如[1]和[2],如下表,对其进行独立性检验,如果卡方值<临界值,P值大于显著水平,说明价格是1或者是2,对是否购买产品没有影响,则把这两个区间合并,变成[1,2],接下来再对[3],[4]进行检验。
在这里插入图片描述
3、两两检验完之后,在重复这个合并的动作,直到任何两个区间都无法合并(卡方值大于临界值,P小于显著水平)。
比如[1]、[2]合并成[1,2],[3]、[4]合并成[3,4],则对[1,2]和[3,4]进行检验。

4、最后我们得到的所有无法合并的区间,其实就是对连续型变量处理成离散型,根据区间进行分裂。

ps:任何具有太少观测值(用户设定的最小个案数)的区间都将自动跟相邻区间进行合并

二、离散型变量:

如同连续型变量,只是不用对变量进行离散化,直接对变量中两两元素进行卡方检验及合并,直到无法合并为止。如果是顺序型分类变量,只能合并相邻的元素。

  • 算法特点:
    根据独立性检验的特点,要求样本量必须足够大,特别是每个单元中的期望频数不能过小。如果只有两个单元格,每个单元格的期望频数必须是5或者5以上。CHAID算法也应该满足期望频数必须>=5(上面的例子就是一个错误的例子)

  • spss中可控制的值:
    机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法_第4张图片
    机器学习【1】决策树中ID3、C4.5、C5.0、CART、CHAID、QUEST算法_第5张图片

QUEST算法

输入变量:分类型、数值型变量
输出变量:分类变量(两个水平,如果超过两个水平,则先进行预处理,合并成为两个超类)

如果输入变量是定类,采用卡方检验(独立性检验)
如果属性变量为定距,采用F检验(相关性检验)
选择P值最小,且小于显著水平的输入变量作为当前最佳的分支变量。

你可能感兴趣的:(机器学习)