机器学习 :训练集、验证集、测试集分配比例

根据《统计学习方法》中的观点:
“如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set)。训练集用来训练模型,验证集用来模型选择,而测试集用于最终对学习方法的评估。”

训练集较小

如果数据集较小时,一般采用简单交叉验证的方法,即不设置验证集,而只设置训练集和测试集,根据西瓜书的观点,训练集和测试集的比例设置一般为 2:1 ~ 4:1 。根据目前我所看到的方法,大多数人将比例设置为7:3。

训练集较大

如果数据量较大时(有人说是数据集以万为单位),一般训练集、验证集、测试集的分配比例为 6:2:2。

训练集非常大

如果数据量更大时,例如百万级的数据集,一般划分比例在 98:1:1 以上(即根据情况再提高训练集的占比)。

你可能感兴趣的:(机器学习)