第八章 数据决策分析算法——基于C4.5算法的决策树

8.2 基于C4.5算法的决策树

C4.5是J.Ross Quinlan基于ID3算法改进后得到的另一个分类决策树算法。C4.5算法继承了ID3算法的优点,且改进后的算法产生的分类规则易于理解,准确率高。同时,该算法也存在一些缺点,如算法效率低,只适合于能驻留于内存的数据集。

改进:

1、用信息增益率来选择属性,客服了ID3算法选择属性时偏向选择取值多的属性的不足。

2、在决策树构造过程中进行剪枝,不考虑某些具有很少元素结点。

3、能够完成对连续属性的离散化处理。

4、能够对不完整数据进行处理。

信息增益率:

V表示属性集合A中的一个属性的全部取值;

1、计算出样本集合D的信息熵。

2、对属性集A中的每个属性分别计算信息熵。

3、根据步骤2中计算出的数据,计算选择第一个根结点所依赖的信息增益值Gain(V)。

4、计算分裂信息度量H(V)。

5、利用公式IGR(V)=Gain(V)H(V)计算信息增益率。

你可能感兴趣的:(第八章 数据决策分析算法——基于C4.5算法的决策树)