Chapter 3 决策树学习

第3章 决策树学习

3.1 决策树学习的适用问题

决策树学习是一种逼近离散值目标函数的方法,对噪声数据有很好的鲁棒性且能够学习析取表达式。在这种方法中学习到的函数被表示为一棵决策树,它最合适具有以下特征的问题:

  • 实例是由“属性-值”对表示的;
  • 目标函数具有离散的输出值;
  • 可能需要析取的描述(Disjunctive Description);
  • 训练数据集可以包含错误;
  • 训练数据可以包含缺少属性值的实例。

3.2 基本的决策树学习算法(ID3算法)

  1. 主要思想:通过自顶向下构造决策树来进行学习。使用统计测试来确定每一个实例属性单独分类训练样例的能力,分类能力最好的属性选作树的根节点的测试。然后,以根节点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支。重复整个过程,用每个分支节点关联的训练样例来选取在该点被测试的最佳属性。这形成了对合格决策树的贪婪搜索(Greedy Search)。
  2. 信息增益(Information Gain)— 衡量属性价值的定量标准
    • 熵(Entropy):刻画任意样例集的纯度(Purity)。给定关于目标概念的正反样例的样例集 S ,那么 S 相对这个布尔型分类的熵为:
      Entropy(S)=p+log2p+plog2p

      其中 p+ S 中正例的比例, p S 中反例的比例,并规定 0log20=0 。 更一般的,如果目标属性有 c 个不同的值,那么样例集 S 相对于 c 个状态的分类的熵定义为:
      Entropy(S)=i=1cpilog2pi
    • 信息增益:一个属性的信息增益就是由于使用这个属性分割样例集而导致的期望熵降低。属性 A 相对样例集 S 的信息增益定义为:
      Gain(S,A)Entropy(S)vValues(A)|Sv||S|Entropy(Sv)

其中, Sv={sS|A(s)=v}
3. 优势与不足:
通过观察ID3的搜索空间和搜索策略,可知,
* 假设空间包含所有的决策树,避免了搜索不完整的假设空间;
* 仅维护单一的当前假设,失去了表示所有一致假设所带来的优势;
* 搜索中不进行回溯,易收敛到局部最优;
* 每一步搜索都使用当前所有训练样例,大大降低了对个别训练样例错误的敏感性。
4. 决策树学习的归纳偏置
近似的ID3算法的归纳偏置:较短的树比较长的树优先;高信息增益的属性更靠近根节点的树优
ID3算法与Candidate-Elimination算法的归纳偏置的差异:
* ID3的搜索范围是一个完整的假设空间,但它不彻底地搜索这个空间;
* Candidate-Elimination算法的搜索范围是不完整的假设空间,但它彻底地搜索这个空间;
* ID3的归纳偏置来自它的搜索策略,Candidata-Elimination算法的归纳偏置来自于它对搜索空间的定义。
5. 优选偏置和限定偏置
* 优选偏置(搜素偏置):对某种假设胜过其他假设的一种优选,对最终可列举的假设没有硬性限制。如ID3算法。
* 限定偏置(语言偏置):对待考虑的假设有一种限定。如Candidate-Elimination算法。
通常,优选偏置比限定偏置更符合需要,因为它允许学习器工作在完整的假设空间上,保证了未知的目标函数被包含在内。一些学习系统同时包含二者,如使用LMS算法的线性回归,线性函数引入了限定偏置,LMS算法引入了优先偏置(所有可能参数值空间上的顺序搜索)。
著名的归纳偏置——奥坎姆剃刀:优先选择拟合数据的最简单的假设。

3.3 关于过拟合

  1. 过度拟合(Overfit):给定一个假设空间 H ,一个假设 hH ,如果存在其他的假设 hH ,使得在训练样例上 h 的错误率比 h 小,但在整个实例分布上 h 的错误率比 h 小,那么就说假设 h 过度拟合训练数据。
  2. 过度拟合产生的原因:
    • 训练样例含有随机错误或噪声;
    • 训练样例的数量太少,不能产生目标函数的有代表性的采样。

你可能感兴趣的:(Chapter 3 决策树学习)