C4.5决策树

C4.5算法

使用信息增益率选取划分数据集的特征

C4.5算法(增益率准则)偏好于取值数目少的特征


C4.5决策树算法流程:

简单版:

1.计算每个特征的信息增益率

2.选择增益率最高的特征,根据其特征值对数据划分

3.去除上步被选择的特征,在每个分支数据集中,重复1,2,3直到数据集不能或不用再次划分


详细版:

1.计算整个数据集的熵Ent

2.选取最好的数据集划分方式(这里指选取信息增益率最高的特征,亦为去除该特征后数据集增益率最高的特征)

    a.计算除去已经被使用的特征正在被计算的特征的数据集的熵Ent(Dv)(v为当前被计算熵特征取值为v的样本集),将其该特征每个特征值计算的Ent(Dv)进行加和按比例即得到使用该特征值进行划分之后,数据集的信息熵Ent(D)

    b.计算各个特征值的熵增(Ent-Ent(D))

    c.计算所有特征信息增益的均值,选取信息增益高于均值的特征

    d.计算被选取的特征的固有值IV(a)

    e.使用各个特征的信息增益和固有值分别计算其增益率,选择最高的特征作为划分特征

3.根据选取的特征,根据其取值对数据集进行划分,构建分支

4.去除已使用的特征,在每个数据分支中重复步骤2,3,4直到(满足下列条件之一)

    a.每个分支中所有数据的类别都相同

    b.所有特征都已被使用(都已经用来划分了数据集(此情况下通常使用投票的方式选择数据类型,即选择类别的数量多的类型)

5.C4.5决策树构建完毕



增益率计算:

各个特征的固有值IV(a)


特征a的取值数量越多,则IV(a)越大

信息增益及信息熵增:


a:样本集中的某一特征

Dv:某特征所有取值为v 的样本的集合


信息熵计算:


pk:k类样本所占的比例



你可能感兴趣的:(算法,学习笔记,机器学习)