为什么先划分训练集和测试集后归一化?

先对数据划分训练集和测试集后归一化和对数据归一化后划分测试集和训练集,两者的区别:

理论上还是应该先划分数据集,然后对训练数据做预处理,并且保存预处理的参数,在用同样的参数处理测试集。

因为划分训练集和测试集就是假设只知道训练集的信息,而认为测试集数据是来自未来的,不可得知。如果之前统一做预处理之后再划分的话就利用了测试集的信息。

要归一都归一,不归一的话都不归一。分布相同的情况下,测试才有效。

有些模型归不归一效果都一样,比如决策树。有些必须归一,比如回归分析

参考资料

为什么先划分训练集和测试集后归一化?_CDA答疑社区

(8 封私信 / 35 条消息) 数据预处理中测试集和训练集都需要归一化么? - 知乎 (zhihu.com) 

你可能感兴趣的:(#,深度学习疑难杂症,人工智能,python,算法)