决策树是应用最广的归纳推理算法之一,它是一种逼近离散函数方法,对噪声数据有很好的鲁棒性,能够学习析取表达式,广为应用的算法有ID3,ASSISTANT和C4.5。
通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。树根到树叶的每一条路径对应一组属性测试的合取,而整棵树是这些合取的析取。
基本的ID3算法是通过自顶向下构造决策树进行学习的。首先考虑的问题是哪一个属性将在树的根节点测试。为解决这一问题,使用统计测试来确定每一个实例属性单独分类训练样本的能力。将分类能力最好的属性作为树的跟节点,之后根节点属性的每一个可能值会产生一个分支,然后把训练样例排列到适当的分支下,重复整个过程,用每个分支结点关联的训练样本来选择最佳属性。这是对合格决策树的贪婪搜索,也就是说算法从不回溯重新考虑以前的选择。
那么,如何确定哪一个属性具有最佳分类能力呢?衡量属性价值的好的定量标准是什么?我们使用“信息增益(information gain)”来作为衡量标准,用来衡量属性分类样本的能力。ID3算法在增长树的每一步使用这个标准来选择最佳分类的属性。
为精确定义信息增益,我们先定义信息论中广泛使用的一个度量标准——熵(entropy),它刻画了任意样本集的纯度。给定包含关于某个目标概念的正反样本的样本集 S ,那么 S 相对这个布尔型分类的熵为:
上面说到的是目标分类时布尔类型的情况,更一般的情况,如果目标属性具有 c 个不同的值,那么 S 相对于 c 个状态分类的熵为:
现在已经有了熵作为衡量训练样本集合纯度的标准,我们就可以定义属性分类训练数据能力的度量标准了,也就是上面说到的“信息增益”,一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低,一个属性 A 相对样本集合 S 的信息增益 Gain(S,A) 为:
信息增益度量存在一个内在偏置,它偏袒具有较多值的属性,那日期(Date)属性来说,它会在所有属性中有最大的信息增益,这是因为单独Date就可以完全预测训练数据的目标属性,于是这个属性会被作为树的根结点并成为一棵深度为一级但非常宽的树,它可以理想地分类训练数据,但是对于后来的数据性能会非常差。
为了避免这个问题,可以使用其他方式来度量最佳分类属性,这里我们使用增益比率(gain ratio),它通过加入一个称作分裂信息(split information)的项来惩罚类似Date这样的属性,分裂信息用来衡量属性分裂数据的广度和均匀性:
增益比率由前面的信息增益和分裂信息共同定义:
然而使用增益比率也会带来一些问题,当某个子集非常接近整个样本集时,分裂信息会非常下或者为0。如果某个属性对于 S 的所有样本有几乎相同的值,那么会导致增益比率未定义或非常大。为了避免这样的情况,可以结合前面提到的两种方法,先计算每个属性的增益,然后对那些有较高信息增益的属性计算增益比率。