决策分类算法-C4.5算法原理

与ID3的不同之处

(1)分支指标采用增益比例,而不是ID3所使用的信息增益;

(2)按照数值属性值的大小对样本排序,从中选择一个分割点,划分数值属性的取值区间,从而将ID3的处理能力扩充到数值属性上来。

(3)将训练样本集中的位置属性值用最常用的值代替,或者用该属性所有取值的平均值代替,从而处理缺少属性值的训练样本。

(4)使用k次迭代交叉验证,评估模型的优劣程度

(5)根据生成的决策树,可以产生一个if-then规则的集合,每一个规则代表从根节点到叶节点的一条路径。

增益比例

信息量(熵)split_info(S,A),其中,S代表训练样本集;A代表属性,这个信息量是与样本的类别无关的,计算公式如下:

                                                            

表示根据属性A划分的第i个样本子集,样本在A上的取值分布越均匀,split_info的值越大。split_info用来衡量属性分裂数据的广度和均匀性。属性A的增益比例计算如下:

                                                                =   

备注:gain(S,A)为信息增益


 C4.5处理数值属性的过程如下:

(1)按照属性值对训练数据进行排序;

(2)用不同的阈值对训练数据进行动态划分

(3)当输入改变时确定一个阈值

(4)取当前样本的属性值和前一个样本属性值的中点作为新的阈值

(5)生成两个划分,所有的样本分布到这两个划分中

(6)得到所有可能的阈值、增益和增益比例


C4.5未知属性的处理:

(1)用最常用的值代替

(2)用该属性所有取值的平均值代替

(3)采用概率


优点:产生的分类规则易于理解,准确率较高。

缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法效率降低。

你可能感兴趣的:(数据挖掘)