决策树 C4.5 公式流程

决策树 C4.5 公式流程

决策树 C4.5 公式流程_第1张图片
注意! 这里由2种成分组成:属性(年龄、有工作、有自己的房子、信贷情况)和类别组成。

那么:

  1. 决策类别的信息熵: I n f o ( D ) = ∑ − 每 个 类 别 总 占 比 ∗ ( l o g 2 每 个 类 别 总 占 比 ) Info(D)=\sum - 每个类别总占比 * (log_2每个类别总占比) Info(D)=(log2) 例如: Info(类别)= -6/15x(log26/15) - 9/15x(log29/15)
  2. 每个属性的信息熵: I n f o ( a t t r ) = ∑ a t t r 属 性 每 个 分 类 总 占 比 ∗ [ − a t t r 属 性 每 个 分 类 中 每 个 类 别 的 占 比 ] Info(attr) =\sum attr属性每个分类总占比 * [- attr属性每个分类中 每个类别的占比 ] Info(attr)=attr[attr] 例如:Info(年龄)= 5/15 x (-3/5log23/5 - 2/5log22/5) + 5/15 x (-2/5log22/5 -3/5log23/5) + 5/15 x (-1/5log21/5 - 4/5log24/5)
  3. 信息增益:Gain(attr) = Info(D)-Info(attr) 例如:Info(类别)-Info(年龄)
  4. 内在信息(惩罚): H ( a t t r ) = ∑ − a t t r 每 个 分 类 总 占 比 ∗ l o g 2 a t t r 每 个 分 类 总 占 比 H(attr)=\sum - attr每个分类总占比 * log_2attr每个分类总占比 H(attr)=attrlog2attr 例如H(年龄) = -5/15 x log25/15 - 5/15 x log25/15 -5/15 x log25/15
  5. 信息增益率: IGR(attr) = Gain(attr) / H(attr) 例如:IGR(年龄)=Gain(年龄)/H(年龄)

你可能感兴趣的:(ᕦ,机器学习,ᕤ,决策树,C4.5,信息增益,信息熵)