(14)监督学习-分类问题-决策树

    决策树算法分为ID3,C4.5,CART几种。其主要区别在于特征选择的方法不同。

    1、 ID3

        特征选择方法:信息增益  

             熵H(X) = -plog(p)求和,g(D,A) = H(D)-H(D,A),g越大,说明某一条件下,减少数据不确定性的程度越大。越适合做分类条件

        特点是:只有树的生成,容易产生过拟合。只能处理离散性数据

    2、 C4.5

        特征选择方法:信息增益率; 信息增益大小没有绝对意义,使用比例对其进行矫正。

             g1(D,A) = g(D,A)/H(D);属性a可取值的数目越大H(D)越大。(比如一些数据 中,序号增益最大,但无用)可处理连续性数据。

    3、 CART (又叫树回归或者分类回归树)

        特征选择方法:基尼系数,表示集合的不确定程度,基尼系数越大,不确定程度越大。(从一个数据集中取数据,其被分到别的分组中的概率)选择基尼系数最小的作为划分点。(按每个特征,特征中的各个属性求其基尼系数);也有采用香农商作为不纯度的度量,也有用误差不纯度,不同的不纯度度量对结果影响不大。

        算法流程包括:特征选择、树的生成,剪枝;可以处理连续性数据和离散性数据

        在生成树的基础上,进行剪枝。(根据损失函数,如果删除某一个节点可以使得损失函数的值变小,则减去)剪枝方法分为预剪枝和后剪枝,后剪枝效果更好,根据是否可以减少损失来决定节点是否合并。预剪枝就是在树的构建过程(只用到训练集),设置一个阈值,使得当在当前分裂节点中分裂前和分裂后的误差超过这个阈值则分列,否则不进行分裂操作。

    后剪枝效果最好,因为在构建树时信息被充分利用了。预剪枝有欠拟合的风险,采用的是贪心思想。

    特点:连续数据,二叉树,划分标准。

    用样本类型上讲,ID3只能处理离散型数据,C4.5和CART都可以处理连续型数据。

    从应用上讲,ID3和C4.5都只能用于分类,CART也可以用于回归任务(使用最小平方误差准则)。


    

你可能感兴趣的:((14)监督学习-分类问题-决策树)