《机器学习实战》学习笔记-[3]-决策树_1_基础

决策树是一种容易理解的分类算法,它可以认为是if-then规则的一个集合。主要的优点是模型具有可读性,且分类速度较快,不用进行过多的迭代训练之类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。比较常用到的算法有ID3、C4.5和CART。

基本概念和应用参考:统计学习方法(五)——决策树

决策树构建基本步骤

第一步:决策特征值的选择(能够最好分类)

第二步:递归构建决策树

 

以上分类的基本原则是信息熵(将无序变得更加有序)



通过以上可知:每次分类节点,都要选择最佳的特质值,如何选择最佳特征值,已信息增益最高为原则

最优划分数据集方式

  1. 选取特征划分数据集,计算最好的划分数据集的特征
  2. 默认列表形式存储数据,最后一个元素为类别标签,其余为特征
  3. 先计算原始的信息熵,用于和划分之后比较
  4. 遍历计算用每一个特征划分数据的信息增益,取增益最大的特征为最好的数据
代码实现与测试: GitHub

你可能感兴趣的:([18]机器学习)