机器学习(2)模型评估与选择其一

机器学习(2)模型评估与选择其一

模型评估这一块知识较多,将分为几篇博文。
  • 经验误差与过拟合

概念辨析:

错误率——分类错误的样本数占样本总数的比例
精度——分类正确的样本数占样本总数的比例
误差——学习器的实际预测输出与样本的真实输出之间的差异
训练误差——学习器在训练集上的误差,又被称为经验误差 泛化误差——学习器在新的样本上的误差

从概念上来看,我们需要的是泛化误差小的机器,但是由于最终应用时我们对新样本并不知情,所以能够做的是尽可能优化经验误差。
但是,经验误差很小甚至为0的学习器,泛化误差就会很小吗?这两者之间并不是简单的线性关系。

  • 拟合问题

我们的目标,是让学习器能够在训练集样本上学习出所有潜在样本之间的普遍规律,从而能够在遇到新样本的时候能够做出正确的判决。而一个经验误差很小的学习器,往往会将训练样本本身的特点当做所有样本的普遍规律,从而导致泛化性能下降。这种现象称之为“过拟合”。相对而言的“欠拟合”则是对潜在样本的一般特性并没有学习透彻。
相较而言,欠拟合问题比较容易解决,例如可以增加神经网络的深度加深,增加学习轮数等等。而过拟合则是机器学习面临的关键障碍。大部分算法都有一定的避免过拟合的措施,然而需要认识到的是,过拟合是无法避免的,我们能够做的只是缓解或者减小风险。
一般化的理解是:有效的机器学习算法符合算法的有限性特点,但是机器学习是一个NP难问题,使用机器学习获得最优解就意味着“P=NP”。在大部分认知下," P ≠ N P P\neq NP P=NP“”始终是欧变认知,所以过拟合是无法避免的。

你可能感兴趣的:(机器学习,机器学习,人工智能,算法)