【重磅】数据分割:训练集、验证集、测试集

理论上 随机分割成 训练集、验证集、测试集,

但是由于每次随机都不同,所以 训练集、验证集用交叉验证的分配方式,进行训练和选出较优超参数。

(什么是超参数?之后会另起一篇说明)

 

一般 训练集:测试集 = 8:2 

随机分配,若想复现,可采取:

1. 设定随机种子,洗牌指数

2. 对每个样本设置特定ID,计算每个ID的哈希值,提取20%。

(补:SKlearn)

重要:生成测试集时,使用 分层抽样。

尽量保持:

总数据集、训练集、测试集 的 0-1 比例要一致。

总数据集、训练集、测试集 的 预测范围 比例要一致。

(这篇想法很多,先mark 占个位)

你可能感兴趣的:(模型算法相关)