每天五分钟机器学习:通过交叉验证集和测试集寻找最佳模型参数

本文重点

现在有一个数据集,现在我们面临模型选择的问题,需要选择最合适的多项式的次数是几次?怎样选用正确的特征来构造学习算法?如何正确选择学习算法中的正则化参数λ?以上这些问题我们称之为模型选择的问题。

多项式次数选择

每天五分钟机器学习:通过交叉验证集和测试集寻找最佳模型参数_第1张图片

 

如上所示有十个模型,我们用d来表示应该选择的多项式次数。那么现在的情况是除了你要确定的参数θ之外,我们还需要考虑一个参数d,我们如何来确定这个多项式的θ和d呢?

如何选择?

我们可以这样做:

选择第一个模型,然后求出训练集误差最小值J(θ),这样我们就会得到一个参数向量θ。

然后选择第二个模型,同样进行类似的过程,这样你就会得到另外一个参数θ。

同理,第十个模型也会得到一个参数θ

接下来我们就对这十个模型来求测试集误差,测试误差最小的那个模型来确定d,假如d=5的模型的测试集的误差最小,那我们就选择第五个模型,这样可以吗?

还是会有问题

不幸的是虽然测试集的误差最小,但是将第五个假设推广到新样本中的时候效果可能也一般。

因为θ是通过最小化训练集来确定的,而d是通过最小化测试集来确定的。所以d肯定会努力拟合测试集,所以它不能预测出将这个假设推广到新样本上的效果,为了解决这个问题,在模型选择中,

你可能感兴趣的:(每天五分钟玩转机器学习算法,1024程序员节,人工智能,算法,神经网络,深度学习)