交叉验证

交叉验证是机器学习建立模型和验证模型参数时常用的方法。使用该方法就是为了在数据量较小的情况下重复使用数据,将得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,测试集来评估模型预测的好坏。

简单交叉验证:随机将样本数据分为两部分(70%训练集,30%测试集),然后用训练集来训练模型,在测试集上验证模型及参数。接着

       再把样本打乱,重新选择训练集和测试集,继续训练数据和验证模型。最后选择损失函数评估最优的模型和参数。

S折交叉验证:将样本数据随机分成S份,每次随机选择S-1份作为训练集,剩下的一份作为测试集。当这一轮完成后,重新随机选择

       S-1份训练。若干轮(小于S)后,选择损失函数评估最优的模型和参数。

留一交叉验证:是S折的一个特例,即S等于样本数N时,这样对于N个样本,每次随机选择N-1个样本来训练数据,留一个样本来验证

       模型预测的好坏。适用于样本量极少的情况。


如果只是对数据做一个初步的模型建立,不是要做深入分析,简单交叉验证就可以。否则就用S折交叉验证。在样本量少时,使用留一交叉验证。

你可能感兴趣的:(交叉验证)