中心化和标准化

1 为什么会谈到中心化和标准化呢?

因为在阅读《推荐系统》一书,学习“改进余弦相似度”和“Pearson”相关系数时,都谈到了减去均值(当然两者中用到的,是不同的均值)。这便是“中心化(Zero-centered或者Mean-subtraction(subtraction表示减去)),至于标准化(Standardization或Normalization),是在搜索中心化的内容附带学习的,以这种比较的方式拓展知识面,也是比较有效的。

2 中心化和标准化是什么?—— 定义

中心化
根据侯杰泰的话:所谓中心化, 是指变量减去它的均值(即数学期望值)。对于样本数据,将一个变量的每个观测值减去该变量的样本平均值,变换后的变量就是中心化的。[3]

标准化
数值减去均值,再除以标准差

处理结果
(1)中心化(零均值化)后的数据均值为零。
(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)。

3 为什么要提出中心化和标准化的方法?

  • 中心化
    1 变量单位 —— 统一单位
    在是为了统一单位,例如有数据集1, 2, 3, 6, 3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。数据中心化是为了消除量纲对数据结构的影响,因为不同变量之间单位不一样,会造成各种统计量的偏误。
    2 模型构建 —— 多重共线
    中心化可以解决模型运行不稳定,最重要的是解决交互项变量和主变量之间的多重共线问题。[4]
    3 增加基向量的正交性
    举例分析
    以PCA为例说下中心化的作用。
    下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0)。
    中心化和标准化_第1张图片
    在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点(1,2)的一个向量。如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
    中心化和标准化_第2张图片
    黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才能比较好的“概括”原来的数据。
  • 标准化
    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
    对数据进行标准化,消除特征之间的差异性,也便于一心一意学习权重
    举例分析
    在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的样本点又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
    .
    下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动到原点周围;右图将中心化后的数据除以标准差,得到标准化后的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
    中心化和标准化_第3张图片
    图片解释:
  • 左图表示的是原始数据。
  • 中间的是中心化后的数据,可以看出就是一个平移的过程,平移后中心点是(0,0)。同时中心化后的数据对向量也容易描述,因为是以原点为基准的。
  • 右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度,右图中的红色横线和竖线,两者长度相等),而没有处理之前的数据是不同的尺度标准。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

4 中心化和标准化的实际应用有哪些?

理论研究:
回归问题、一些机器学习算法,以及训练神经网络的过程中,通常需要对原始数据进行中心化处理和标准化处理。

[1] 中心化和标准化_CSDN博客
[2] 数据的中心化和标准化_CSDN博客
[3] 怎样进行中心化处理_百度知道
[4] 数据中心化处理的原因Stata专版经管之家(原人大经济论坛)
[5] 统计学里面的中心化是什么意思知乎_百度知道
[6] 数据什么时候需要中心化和标准化处理?- 知乎

你可能感兴趣的:(推荐系统,数学)