ML笔记:ML的模型选择,交叉验证。

目录

一、训练集(training set)

二、验证集(validatiion set)

三、测试集(test set)

四、交叉验证(Cross validation)

五、交叉验证的实现

六、模型的选择(吴恩达机器学习中的)


如果给定的样本数据充足,我们通常使用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集,这三个集合不能有交集,常见的比例是8:1:1。需要注意的是,通常都会给定训练集和测试集,而不会给验证集。这时候验证集该从哪里得到呢?一般的做法是,从训练集中均匀随机抽样一部分样本作为验证集。

一、训练集(training set)

训练集用来训练模型,即确定模型的权重和偏置这些参数,通常我们称这些参数为学习参数。

二、验证集(validatiion set)

而验证集用于模型的选择,更具体地来说,验证集并不参与学习参数的确定,也就是验证集并没有参与梯度下降的过程。验证集只是为了选择超参数,比如网络层数、网络节点数、迭代次数、学习率这些都叫超参数。比如在k-NN算法中,k值就是一个超参数。所以可以使用验证集来求出误差率最小的k。

三、测试集(test set)

测试集只使用一次,即在训练完成后评价最终的模型时使用。它既不参与学习参数过程,也不参数超参数选择过程,而仅仅使用于模型的评价。
值得注意的是,千万不能在训练过程中使用测试集,而后再用相同的测试集去测试模型。这样做其实是一个欺骗,使得模型测试时准确率很高。

四、交叉验证(Cross validation

交叉验证用于防止模型过于复杂而引起的过拟合有时亦称循环估计是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize)

交叉验证一般要尽量满足:

1)训练集的比例要足够多,一般大于一半
2)训练集和测试集要均匀抽样

之所以出现交叉验证,主要是因为训练集较小。无法直接像前面那样只分出训练集,验证集,测试就可以了(简单交叉验证)。 
需要说明的是,在实际情况下,人们不是很喜欢用交叉验证,主要是因为它会耗费较多的计算资源。一般直接把训练集按照50%-90%的比例分成训练集和验证集。但这也是根据具体情况来定的:如果超参数数量多,你可能就想用更大的验证集,而验证集的数量不够,那么最好还是用交叉验证吧。至于分成几份比较好,一般都是分成3、5和10份。

五、交叉验证的实现

图上面的部分表示我们拥有的数据,而后我们对数据进行了再次分割,主要是对训练集,假设将训练集分成5份(该数目被称为折数,5-fold交叉验证),每次都用其中4份来训练模型,粉红色的那份用来验证4份训练出来的模型的准确率,记下准确率。然后在这5份中取另外4份做训练集,1份做验证集,再次得到一个模型的准确率。直到所有5份都做过1次验证集,也即验证集名额循环了一圈,交叉验证的过程就结束。算得这5次准确率的均值。留下准确率最高的模型,即该模型的超参数是什么样的最终模型的超参数就是这个样的。

六、模型的选择(吴恩达机器学习中的)

  1. 使用训练集训练模型10个模型(这里假设有10个)
  2. 用10个模型分别对交叉集验证计算得出交叉验证误差(代价函数的值)
  3. 选出代价函数最小值的模型
  4. 用3中选出的模型对测试集计算得出泛化误差(代价函数的值)

参考:

  • https://blog.csdn.net/Chaolei3/article/details/79270939
  • https://blog.csdn.net/lhx878619717/article/details/49079785

你可能感兴趣的:(Machine,Learning,深度学习,机器学习)