数据预处理问题

归一化/标准化的目标

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。

1 把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
2 把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

法一:min-max归一化(Min-max normalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
在这里插入图片描述
  其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
​ 用处:脏值数据处理好之后,进行min-max归一化处理,然后输入到网络中预测降雨。

法二:z-score 标准化(zero-mean normalization)

也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
在这里插入图片描述
  其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

————————————————————————————————————————————
(2020.6.12更新)

问题情景:对于数据的大值预测不准,优化方案:首先加归一化方法,然后模型调优,由于激活函数用的是sigmoid,故用归一化

用法:

如果对输出结果范围有要求,用归一化
如果数据较为稳定,不存在极端的最大最小值,用归一化
如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响

一般来说,建议优先使用标准化。在对输出有要求时再尝试别的方法,如归一化或者更加复杂的方法。很多方法都可以将输出调整到 0-1,如果我们对于数据的分布有假设的话,更加有效方法是使用相对应的概率密度函数来转换

你可能感兴趣的:(算法)