过适-维基百科:
在统计学中,过适现象(英语:overfitting,或称:过度拟合)是指在调适一个统计模型时,使用过多参数。对比于可取得的资料总量来说,一个荒谬的模型模型只要足够复杂,是可以完美地适应资料。过适一般可以识为违反奥卡姆剃刀原则。当可选择的参数的自由度超过资料所包含资讯内容时,这会导致最后(调适后)模型使用任意的参数,这会减少或破坏模型一般化的能力更甚于适应资料。过适的可能性不只取决于参数个数和资料,也跟模型架构与资料的一致性有关。此外对比于资料中预期的噪声或错误数量,跟模型错误的数量也有关。
过适现象的观念对机器学习也是很重要的。通常一个学习算法是借由训练范例来训练的。亦即预期结果的范例是可知的。而学习者则被认为须达到可以预测出其它范例的正确的结果,因此,应适用于一般化的情况而非只是训练时所使用的现有资料(根据它的归纳偏向)。然而,学习者却会去适应训练资料中太特化但又随机的特征,特别是在当学习过程太久或范例太少时。在过适的过程中,当预测训练范例结果的表现增加时,应用在未知资料的表现则变更差。
在统计和机器学习中,为了避免过适现象,须要使用额外的技巧(如交叉验证、early stopping、贝斯信息量准则、赤池信息量准则或model comparison),以指出何时会有更多训练而没有导致更好的一般化。人工神经网络的过适过程亦被认知为过度训练(英语:overtraining)。在treatmeant learning中,使用最小最佳支援值(英语:minimum best support value)来避免过适。
相对于过适是指,使用过多参数,以致太适应资料而非一般情况,另一种常见的现象是使用太少参数,以致于不适应资料,这则称为乏适(英语:underfitting,或称:拟合不足)现象。
过拟合-百度百科
overfitting
overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。
百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。
..........................
以下概念由本人摘自《数据挖掘-概念与技术》
P186 过分拟合 即在机器学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不在一般数据集中出现。
P212 由于规则可能过分拟合这些数据,因此这种评论是乐观的。也就是说,规则可能在训练数据上行能很好,但是在以后的数据上九不那么好。
............................
补充c4.5算法中的介绍 这个通俗易懂
决策树为什么要剪枝?原因就是避免决策树“过拟合”样本。前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现堪称完美,它可以100%完美正确得对训练样本集中的样本进行分类(因为决策树本身就是100%完美拟合训练样本的产物)。但是,这会带来一个问题,如果训练样本中包含了一些错误,按照前面的算法,这些错误也会100%一点不留得被决策树学习了,这就是“过拟合”。C4.5的缔造者昆兰教授很早就发现了这个问题,他作过一个试验,在某一个数据集中,过拟合的决策树的错误率比一个经过简化了的决策树的错误率要高。那么现在的问题就来了,如何在原生的过拟合决策树的基础上,通过剪枝生成一个简化了的决策树?
源:http://blog.csdn.net/fengzhe0411/article/details/7165549