机器学习算法——决策树2(C4.5决策树算法)

著名的C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。

选择信息增益率的目的是:克服ID3算法中用信息增益选择属性时偏向选择取值多的属性。

增益率定义如下:

{\color{Red} Gain\_ratio=\frac{Gain(D,a)}{IV(a)}}

{\color{Red} IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}}

其中,D: 样本集合,a: 离散属性,IV(a):属性a的“固有值”(intrinsic value)。D^v:属性a上取值为a^v的样本。

属性a的可能取值数目越多(即V越大),IV(a)的值通常会越大。

注意:增益率准则对可取值数目较少的属性有所偏好(从上述公式中得出)。

因此,C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用一个启发式:

从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

下一章讲解CART决策树算法。

你可能感兴趣的:(决策树算法,决策树,机器学习,算法)