归一化/特征缩放(Feature Scaling) 笔记

归一化/特征缩放 Feature Scaling

    • 为什么要做归一化?
    • 如何进行归一化?
      • 1.最大值最小值归一化
      • 2.方差归一化
      • 3.均值归一化
      • 4.==标准归一化StandardScaler==

归一化的目的:将所有特征缩放到0~1之间,使梯度下降法能更快的收敛。(其中0和1并不是定值,只是一个范围。)



为什么要做归一化?

各个特征 x i x_{i} xi θ i \theta_{i} θi能同步收敛,使梯度下降法能更快地收敛,从而达到快速求得MSE。

假设有一MSE有两个特征 x 1 , x 2 x_{1},x_{2} x1,x2。        y = θ 1 x 1 + θ 2 x 2 y=\theta_{1}x_{1}+\theta_{2}x_{2} y=θ1x1+θ2x2
其中 x 1 x_{1} x1远小于 x 2 x_{2} x2
g 1 = ( y − y ^ ) x 1 g_{1}=(y-\hat{y})x_{1} g1=(yy^)x1
g 2 = ( y − y ^ ) x 2 g_{2}=(y-\hat{y})x_{2} g2=(yy^)x2
( y − y ^ ) (y-\hat{y}) (yy^)是个定值,所以 g 1 g_{1} g1远小于 g 2 g_{2} g2
θ 1 t + 1 = θ 1 t − α g 1 \theta_{1}^{t+1}=\theta_{1}^{t}-\alpha g_{1} θ1t+1=θ1tαg1
θ 2 t + 1 = θ 2 t − α g 2 \theta_{2}^{t+1}=\theta_{2}^{t}-\alpha g_{2} θ2t+1=θ2tαg2
所以(a) θ 1 \theta_{1} θ1远大于 θ 2 \theta_{2} θ2
⟹ \Longrightarrow (b) θ 1 调 整 幅 度 \theta_{1}调整幅度 θ1 远小于 θ 2 调 整 幅 度 \theta_{2}调整幅度 θ2
由(a)可知 θ 1 \theta_{1} θ1距离长 θ 2 \theta_{2} θ2距离短
由(b)可知 θ 1 \theta_{1} θ1步子小 θ 2 \theta_{2} θ2步子大

归一化/特征缩放(Feature Scaling) 笔记_第1张图片
未归一化 a 归一化/特征缩放(Feature Scaling) 笔记_第2张图片
归一化后 a≈b

如何进行归一化?

1.最大值最小值归一化

x − m i n m a x − m i n \frac{x-min}{max-min} maxminxmin
优点:所有数据都能缩放到0~1之间
缺点:当min,max为离群值或异常值时,缩放后数据分布不均匀

2.方差归一化

x 方 差 \frac{x}{方差} x
优点:可减小异常值当影响
缺点:不一定所有数据都缩放到0~1之间

3.均值归一化

x − 均 值 x-均值 x ( 有 正 有 负 ) (有正有负) ()
将所有数据缩放至0两边

4.标准归一化StandardScaler

x − 均 值 方 差 \frac{x-均值}{方差} x
一般都选用标准归一化。




训练集进行归一化处理,预测集也同样要进行归一化处理!
归一化处理并不影响数据实际意义,计算机不能理解实际意义,只是进行拟合特征的权重拟合。

你可能感兴趣的:(机器学习,笔记,机器学习,归一化,特征缩放,笔记)