遥感之机器学习树集成模型-C4.5算法

本文继续在前面几种决策树的基础上对C4.5进行说明。
本文主要分为:

  1. c4.5算法介绍
  2. 信息增益率
  3. 连续属性处理
  4. 缺失值处理
  5. 决策树可视化方法
  6. 几种经典决策树总结

c4.5是在id3的基础上加以改进的,关于其中涉及到的有关概念和公式,可参考前面几种决策树介绍:遥感之机器学习树集成模型

1 C4.5算法介绍

C4.5是由Ross Quinlan开发的,是对他的早期的ID3算法的扩展。C4.5生成的也是分类决策树。
2011年,Weka机器学习软件的作者将C4.5算法描述为“一个具有里程碑意义的决策树程序,可能是迄今为止在实践中应用最广泛的机器学习主力算法”。
C4.5是ID3的继承者,相对于ID3算法,C4.5算法的改进主要有:
●增加了对连续特征属性的处理,通过排序连续属性值并挑选阈值,将连续特征属性值划分为高于阈值的属性和小于或等于阈值的属性。
●增加了对属性值缺失的训练数据的处理。
●挑选特征属性依据信息增益率,而不是信息增益。
●创建树后进行修剪,试图通过用叶子节点进行替换来删除那些没有帮助的分支。

2 信息增益率

对于离散随机变量X和样本数据集合S,给定另一个随机变量A,它代表样本数据集合S的另一个属性,它的取值可能是{a1,a2,a3,…,aw},这样根据随机变量A的取值,样本集合S被划分为w个子集合SA࿰

你可能感兴趣的:(遥感之机器学习树集成模型,机器学习,算法,人工智能,arcgis,图像处理)