深度学习理论——数据预处理(逐样本减去均值)

大家好,继续深度学习的理论日记,本次介绍数据预处理相关内容。

在深度学习中,大家都会发现训练集,验证集合测试集划分好之后会有减去均值的一步操作,但很多人都是只跟着做,并没有探究为什么要做这一步处理。

其主要原理是我们默认自然图像是一类平稳的数据分布(即数据每一维的统计都服从相同分布),此时,在每个样本上减去数据的统计平均值可以移除共同的部分,凸显个体差异。其效果如下所示:

深度学习理论——数据预处理(逐样本减去均值)_第1张图片

可以看到天空的纹理被移除了,凸显了汽车和高楼等主要特征。

最值得注意的一点是,在计算均值之前就要预先划分好训练集验证集和测试集,然后只针对训练集计算均值,否则就违背了深度学习的原则:模型训练过程仅能从训练模型中获取信息。得到训练集的均值后,对训练集验证集和测试集分别减去该均值。


你可能感兴趣的:(深度学习)