每天5分钟机器学习:什么是过拟合?推荐两种解决过拟合的方式

本文重点

我们前面已经学习了线性回归算法和逻辑回归算法,它们能够有效地解决回归或分类问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过度拟合的问题,可能会导致算法模型的效果很差。

回归中的过拟合的问题

每天5分钟机器学习:什么是过拟合?推荐两种解决过拟合的方式_第1张图片

对于同一数据集,我们有三种情况来拟合这些数据,但是这三种情况究竟哪种情况更好呢?

情况一:一条直线拟合这些数据,但是很多样本并没有落在这条直线上,所以这并不是一个很好的模型,我们把这种情况成为欠拟合,也称为高偏差。

情况三:这个曲线完全拟合了五个样本数据,是一个四次方的模型,但是它过于强调拟合原始数据,但是它依然不是一个很好的模型,每个样本都落在那条线上,我们称它为过拟合,也称为高方差。

过拟合问题常常发生在特征变量过多的时候发生,这个时候训练出来的方程总能很好的拟合训练数据,很有可能使得模型的损失函数J(θ)≈0,它千方百计地拟合训练数据,导致它无法泛化到新地数据样本中。

情况二:情况二看起来更合适一些

分类中的过拟合的问题

每天5分钟机器学习:什么是过拟合?推荐两种解决过拟合的方式_第2张图片

我们可以看出分类的三种情况,也是一个欠拟合,一个过拟合,中间的看起来还算不错,虽然有个别样本的分

你可能感兴趣的:(每天五分钟玩转机器学习算法,机器学习,人工智能,算法,回归,python)