数据归一化、标准化、正则化

数据归一化、数据标准化、数据正则化

数据归一化:将数据集中某一列数值特征的值缩放到0-1区间内

数据标准化:将数据集中某一列数值特征的值缩放成平均值为0,标准差为1的状态

 数据归一化、标准化、正则化_第1张图片数据归一化、标准化、正则化_第2张图片

数据正则化:将数据集中某一个样本缩放成单位标准

              数据归一化、标准化、正则化_第3张图片

归一化特点:

对不同特征维度进行伸缩变换,把有量纲表达式变为无量纲表达式;

改变原始数据的分布,使得各个特征维度对目标函数的影响权重归于一致

最大值与最小值非常容易受异常点影响,鲁棒性较差。

标准化特点:

对不同特征维度的伸缩变换使其不同度量之间的特征具有可比性;

不改变原始数据的分布,保持各个特征维度对目标函数的影响权重

对目标函数的影响体现在几何分布上。

应用场景:

1. 数据归一化

不涉及距离度量、协方差计算、数据不符合正态分布的时候,可以使用归一化方法

2. 数据标准化:

分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化(Z-score standardization)表现更好

  1. 聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。
  2. 主成分分析PCA之前,对变量进行标准化至关重要。这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而标准化原始数据会产生相同的方差,因此高权重不会分配给具有较高方差的变量。
  3. SVM中,使用所有跟距离计算相关的kernel都需要对数据进行标准化。
  4. 在选择岭回归和Lasso时候,标准化是必须的。原因是正则化是有偏估计,会对权重进行惩罚。在量纲不同的情况,正则化会带来更大的偏差
  5. 当采用普通的线性回归的时候,是无需标准化的。因为标准化前后,不会影响线性回归预测值。
  6. 标准化不会影响logistic回归,决策树及其他一些集成学习算法:such as random forest and gradient boosting。

数据归一化、标准化、正则化_第4张图片

 

3. 数据正则化:

主要应用于文本分类和聚类中。

就实际应用而言,数据归一化、标准化(预处理)使用较多。

参考:

https://blog.csdn.net/abcdefg90876/article/details/108395986

https://blog.csdn.net/u014381464/article/details/81101551

https://blog.csdn.net/shwan_ma/article/details/80154888

https://blog.csdn.net/qq_22690765/article/details/84837540

https://blog.csdn.net/Anne033/article/details/107489208

 

你可能感兴趣的:(数据分析,数据挖掘,机器学习)