【决策树算法】{2} —— C4.5算法

什么是 C 4.5 C4.5 C4.5 算法?

C 4.5 C4.5 C4.5 算法是基于 I D 3 ID3 ID3 算法的改良, C 4.5 C4.5 C4.5 算法不直接使用信息增益,而是使用“信息增益率”来选择最优划分属性。
基于 I D 3 ID3 ID3 算法的优化:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 在树构造过程中进行剪枝;

3) 能够完成对连续属性的离散化处理;

4) 能够对不完整数据进行处理。

信息增益率

信息增益准则对可取值数目较多的属性有所偏好,然而这样的决策树显然不具有泛化能力,无法对新样本进行有效预测。而 C 4.5 C4.5 C4.5 算法不直接使用信息增益,而是使用“信息增益率”来选择最优划分属性,假定当前样本集合为 D D D,信息增益率定义为:
G a i n _ r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} Gain_ratio(D,a)=IV(a)Gain(D,a)
其中
I V ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ IV(a)=-\sum^V_{v=1}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|} IV(a)=v=1VDDvlog2DDv
称为属性 a a a 的“固有值”。它的定义与信息熵类似,信息熵衡量的是样本集在类别上的混乱程度,而 固有值衡量的是样本集在某个属性上的混乱程度。若属性 a a a 的可能取值数目 V V V 越大, I V ( a ) IV(a) IV(a) 的值通常会越大,即该属性混乱程度越高。

需要注意的是,信息增益率准则对可取值数目较少的属性有所偏好。因此, C 4.5 C4.5 C4.5 算法并不是直接选择信息增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的


C 4.5 C4.5 C4.5 的不足之处:
  • C 4.5 C4.5 C4.5 生成的是多叉树,一个父节点可以有多个子节点,运算效率没有二叉树高;
  • C 4.5 C4.5 C4.5 使用了熵模型,里面有大量的对数运算。如果有连续值的属性,还涉及到排序运算,运算量很大。

Reference:《机器学习》

你可能感兴趣的:(【机器学习】,机器学习,决策树,算法,python)