机器学习第八课

2.1 学习的目标和本质

假设给定训练数据集，其中为输入实例（特征向量），n为特征个数，，，为类标记（label），，，，，N为样本容量

学习目标：根据给定的训练数据集构建一个决策模型，使它能够对实例进行正确的分类。

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能是0个或多个。我们需要找到一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。

从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该不仅对训练数据有很好地拟合，而且对未知数据有很好地预测。

2.2 决策树损失函数

与其他模型相同，决策树学习用损失函数表示这一目标。决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。

关于极大似然函数：极大似然法是属于数理统计范畴，旨在由果溯因。把“极大似然估计”拆成三个词：极大（最大的概率）、似然（看起来是这个样子的）、估计（就是这个样子的），连起来就是：大概率看起来是这样的，那就是这样。

比如扔一枚骰子(骰子每个面上只标记1或2)，现在告诉你扔了n次骰子其中有k次朝上的是1；然后问你这个骰子标记为1的面所占的比例w是多少?极大似然法的思想就是估计当w取值为多少的时候，k次朝上的可能性最大。具体计算方法就是对表达式求最大值，得到参数值估计值：一般就是对这个表达式求一阶导=0(二阶导<0)；

这就是极大似然估计方法的原理：用使概率达到最大的那个概率值w来估计真实参数w。决策树生成的过程可以理解成对决策树模型的参数估计(就是基于特征空间划分的类的概率模型),根据训练数据的特征分布，选择使得模型最契合当前样本分布空间时的条件概率模型。

当损失函数确定以后，学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优决策树是NP完全问题，所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题。这样得到的决策树是次最优的。

决策树通常有三个步骤：

[if !supportLists]· [endif]

特征选择

[if !supportLists]· [endif]

决策树的生成

[if !supportLists]· [endif]

决策树的修剪

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。

这一过程对应着对特征空间的划分，也对应着决策树的构建。

[if !supportLists]1. [endif]

开始：构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。

[if !supportLists]2. [endif]

如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶子节点去。

[if !supportLists]3. [endif]

如果还有子集不能够被正确的分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点，如此递归进行，直至所有训练数据子集被基本正确的分类，或者没有合适的特征为止。

[if !supportLists]4. [endif]

每个子集都被分到叶节点上，即都有了明确的类，这样就生成了一颗决策树。

以上方法就是决策树学习中的特征选择和决策树生成，这样生成的决策树可能对训练数据有很好的分类能力，但对未知的测试数据却未必有很好的分类能力，即可能发生过拟合现象。我们需要对已生成的树自下而上进行剪枝，将树变得更简单，从而使其具有更好的泛化能力。具体地，就是去掉过于细分的叶结点，使其回退到父结点，甚至更高的结点，然后将父结点或更高的结点改为新的叶结点，从而使得模型有较好的泛化能力。。

决策树生成和决策树剪枝是个相对的过程，决策树生成旨在得到对于当前子数据集最好的分类效果(局部最优)，而决策树剪枝则是考虑全局最优，增强泛化能力。

在对此有一定了解之后，我们先看看，如何在sklearn中将决策树用起来。然后再学习其中的细节。

4.3 总结&问题

对于上图的数据可视化结果，我们可以直观地看到。y=1.75这条直线为一条决策边界，y大于1.75属于A类；y小于1.75的区域，被y=0.8划分，y<1.75||y>0.8属于B类；y<0.8属于C类。

决策树是一个非参数的决策算法，决策树可以解决分类问题，且天然支持多分类问题。决策树也可以解决回归问题，按照树的路径追踪到叶子结点，最终叶子节点对应一个数值，且回归问题的结果是一个具体的数值，就可以落在叶子结点的所有样本的平均值，作为回归的预测结果。

并且决策树具有非常好的可解释性。

那么提出一个问题：在构建决策树，进行特征选择划分时，究竟选择哪个特征更好些？

这就要求确定选择特征的准则。直观上，如果一个特征具有更好的分类能力，或者说，按照这一特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就更应该选择这个特征。比如身高、长相、收入等。在找到特征维度之后，还要确定划分阈值，如收入定在多少，作为划分标准比较合适？

因此，首先找到一个维度，然后在维度上找到一个阈值。然后以这个维度的这个阈值为依据进行划分。核心问题是：

每个节点在哪个维度做划分？选好了维度，如何确定阈值呢？

决策树学习算法有三个步骤：

[if !supportLists]· [endif]特征选择

[if !supportLists]· [endif]决策树生成

[if !supportLists]· [endif]决策树剪枝

特征选择，就是决策树的构造过程。

为了找到最优的划分特征，我们需要先了解一些信息论的知识。

[if !supportLists]· [endif]信息熵(information entropy)

[if !supportLists]· [endif]条件熵(conditional entropy)

[if !supportLists]· [endif]信息增益(information gain)

[if !supportLists]· [endif]信息增益率(information gain ratio)

[if !supportLists]· [endif]基尼指数(Gini index)

4.1 为什么需要信息增益率

我们已经知道，选取信息增益大的特征，可以得到更好的划分。那么为什么要用信息增益比呢？信息增益比优于信息增益的地方在哪呢？

这是因为，信息增益偏向于选择取值较多的特征，容易过拟合。

假设在信用卡逾期风险预测场景中，有如下数据：

信用级别工资级别是否逾期

11是

21否

32是

42否

那么此时我们分别计算“信用级别”和“工资级别”条件下“预期”的条件熵。

B = H(是否逾期|工资级别) = p(工资级别=1)H(是否逾期|工资级别=1) + p(工资级别=2)H(是否逾期|工资级别=2)

很显然 B > A，也就是说，对于增益信息：g(D|信用级别) > g(D|工资级别)。很明显，信息增益偏向于选择取值较多的特征，但是根据熵的公式可知，特征越多，熵越大。

那么有什么办法呢？是在信息增益的基础之上乘上一个惩罚参数，对树分支过多的情况进行惩罚，抵消了特征变量的复杂程度，避免了过拟合的存在。

4.2 信息增益率的定义

特征A对训练数据集D的信息增益比定义为：其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比，即：

注意，其中的HA(D)是：对于样本集合D，将当前特征A作为随机变量（取值是特征A的各个特征值），求得的经验熵。（之前是把集合类别（年龄、长相）作为随机变量，现在把某个特征作为随机变量，按照此特征的特征取值对集合D进行划分，计算熵HA(D)）

其中，$H_A(D)=−\sum_i=1}^n\frac {(D_i|)log\frac$ ，n是特征AA取值的个数。注意区别H(D|A)和HA(D)。

信息增益比本质：是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

信息增益比 = 惩罚参数 * 信息增益

所谓惩罚参数，是数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中（之前所说数据集的熵是依据类别进行划分的）。

信息增益比的缺点是：偏向取值较少的特征。原因：当特征取值较少时HA(D)的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征。

基于以上特点，在使用增益信息比时，并不是直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。

机器学习第八课_决策树

你可能感兴趣的:(机器学习第八课_决策树)