机器学习之归一化

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

为什么需要归一化

假设我们现在有一组样本数据,我们需要拟合的目标函数如下:

其中X1和X2为样本中两个特征。

  • 当X1和X2数值相差过大时,如下图:
    其中X1取值为1,2.....,X2取值为100,200.......。可以看出W2的微调会对Y值产生巨大影响。代价函数的轮廓如下:
  • 当X1和X2数值相差很小时,如下图:
    其中X1取值为1,2.....,X2取值为1,2.......。W2的微调并不会对Y值产生巨大影响。代价函数的轮廓如下:

由以上图片我们可以看出,当两个特征数值相差过大时,代价函数的轮廓是扁长的,梯度下降的过程曲折且耗时。当两个特征数值相差不大时,代价函数的轮廓会是偏圆的,梯度下降过程更加笔直且收敛速度更快。

常见的归一化方法

  1. Standardization
    Standardization又称为Z-score normalization,量化后的特征将服从标准正态分布:

    其中,μ和δ分别为对应特征的均值和标准差。量化后的特征将分布在[-1, 1]区间。

  2. Min-Max Scaling
    Min-Max Scaling又称为Min-Max normalization, 特征量化的公式为:

    量化后的特征将分布在[0,1]区间。

参考资料:
1.https://blog.csdn.net/leiting_imecas/article/details/54986045
2.李宏毅机器学习视频

你可能感兴趣的:(机器学习之归一化)