每天五分钟机器学习:如何才能构造出一个非常好的算法模型?

本文中点

数据在机器学习中是非常重要的,因为当模型处于过拟合状态的时候,可以使用更多的数据输入到模型中,以此来解决过拟合的问题。但是当模型处于欠拟合的问题的时候,此时喂给模型更多的数据反而不好。

所以,如果有一个过拟合的模型,并且此时具有大量的数据就很好了。

如何构造出一个好的算法模型

假设特征值有足够的信息来预测y的值,假设使用一种需要大量参数的学习算法,比如有许多隐藏单元的神经网络,因为参数很多,这些学习算法能够拟合非常复杂的函数,如果我们用大量训练集数据运行这些算法,这种算法能很好地拟合训练集,因此,训练误差就会很低了。

在这种情况下,尽管模型有很多参数,但是如果训练集比参数的数量还大,甚至是更多,那么这些算法就不太可能会过度拟合,也就是说训练误差有希望接近测试误差。训练误差很小,而测试误差又接近训练误差,所以可以说测试误差也会很小。

我们希望算法模型不要有高的偏差和方差。对于偏差问题,我们可以通过确保有一个具有很多参数的学习算法来解决,以便我们能够得到一个较低偏差的算法,并且通过用非常大的训练集来保证没有方差问题,那么这两个放到一起就可以得到一个低偏差和低方差的算法了。

你可能感兴趣的:(每天五分钟玩转机器学习算法,机器学习,算法,人工智能,深度学习,神经网络)