决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。
决策树由结点和有向边组成,结点包括内部结点和叶节点,内部结点表示一个特征或属性,叶节点表示一个类。
决策树学习本质是从训练数据集中归纳出一组分类规则;决策树学习的损失函数通常是正则化的极大似然函数,学习策略是由训练数据集估计条件概率模型。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征进行分割。这一过程对应着决策树的构建,也对应着特征空间的划分。使得划分之后的各个子集能够被基本分类,那么构建叶节点;否则继续递归划分。
决策树可能发生过拟合,因此需要剪枝,从下而上进行,减去过于细分的结点,使其会退到父结点。
通常特征选择的准则是信息增益或信息增益比。我们选择信息增益最大的那个分割。
在信息论和概率统计中,熵是表示随机变量不确定性的度量。熵越大,随机变量的不确定性就越大。
设X是一个取有限个值的离散随机变量,其概率分布为:P(X=xi) = pi , i=1,2…n
则随机变量X的熵的定义为:
随机变量X给定的条件下随机变量Y的条件熵H(Y|X).
定义为X给定的条件下Y的条件概率分布的熵对X的数学期望。
H(Y|X) = 对n求和 pi*H(Y|X=xi),这里pi = P(X = xi),i = 1,2…n
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即
g(D,A) = H(D) - H(D|A)。
决策树学习中的信息增益等价于训练数据中类与特征的互信息。
决策树学习应用信息增益准则选择特征,给定数据集D和特征A,经验熵H(D)表示对数据集D进行分类的不确定性,而经验条件熵H(D|A)表示在特征A给定的条件下而使得数据集D的分类的不确定性减少的程度。显然,信息增益更大的特征具有更强的分类能力。
特征A对训练数据集D的信息增益比定义为信息增益g(D,A)与训练数据集D关于特征A的值的熵Ha(D)之比,即
信息增益比 = g(D,A) / H(A)
选择信息增益最大的特征
用信息增益比来选择特征
用基尼指数来选择特征
过拟合的原因在于构建决策树时过于复杂。
决策树的剪枝通过极小化决策树整体的损失函数或代价函数来实现。
通过两个随机性,构造不同的次优树
1.随机选择样本,通过有放回的采样,重复的选择部分样本来构造树
2.构造树的过程中,每次随机考察部分特征,不对树进行裁剪
对于森林中的单棵树,分类强度越大越好;对于森林中的多棵树,树之间的相关度越小越好。
在生成一定数目的次优树之后,随机森林的输出采用简单的多数投票机制(针对分类)或采用单棵树输出结果的简单平均(针对回归)得到。
当然可以使用决策树作为基本分类器,但也可以使用SVM、Logistic回归等其他分类器,习惯上,这些分类器组成的“总分类器”,仍然叫做随机森林。