机器学习 00 归一化/标准化

目录

一、归一化/标准化

1.1 为什么我们要进行归一化/标准化?

二、归一化

2.1 定义

2.2 公式

 2.3 归一化总结

三、标准化

3.1 定义

3.2 公式

3.3 标准化总结


一、归一化/标准化

1.1 为什么我们要进行归一化/标准化?
 

特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。


举例:约会对象数据
相亲约会对象数据,这个样本时男士的数据,三个特征(玩游戏所消耗时间的百分比、每年获得的飞行常客里程数、每周消费的冰淇淋公升数)。然后有一个所属类别,被女士评价的三个类别(不喜欢didnt、魅力一般small、极具魅力large),也许也就是说飞行里程数对于计算结果或者说相亲结果影响较大,但是统计的人觉得这三个特征同等重要。

机器学习 00 归一化/标准化_第1张图片

二、归一化

2.1 定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间。

2.2 公式


那么怎么理解这个过程呢?我们通过一个例子

1、作用于每一列,max为一列的最大值,min为一列的最小值,那么X”为最终结果。

2、mx,mi分别为指定区间值,如制定区间[mx,mi]。 默认mx为1,mi为0。 

 机器学习 00 归一化/标准化_第2张图片

 2.3 归一化总结

注意最大值最小值是变化的,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差;

只适合传统精确小数据场景;

三、标准化

3.1 定义

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内。

3.2 公式

 作用于每一列,mean为平均值,o为标准差,x为当前值 

对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变;

对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

3.3 标准化总结

在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

你可能感兴趣的:(机器学习,机器学习,线性回归,算法)