L2正则化原理 / 特征值剖析

特征值

特征分解是常见的矩阵分解的一种,是将矩阵分解成一组特征向量和特征值的操作。定义一个矩阵为 A :

Av=λv A v = λ v

v v 为矩阵 A 的特征向量, λ λ 为矩阵 A 的特征值。求解特征向量和特征值的过程就是特征分解。在不涉及非实数的情况下来进行特征分解,每个实对称矩阵都可以分解成实特征值和实特征向量:

A=QΛQT A = Q Λ Q T

Q 是矩阵的特征向量组成的正交矩阵, Λ Λ 是对角矩阵。对角矩阵对应的值对应特征向量矩阵的列。在正交矩阵中,任意一组特征向量和对应的特征值组成的集合在二维平面上都可以表示为一个圆在这组正交向量的方向上进行特征值倍数的伸展压缩。

L2正则化

正则化的是通过对目标函数添加一个参数惩罚项限制模型的学习能力。在L2正则里,这个惩罚项被设定为 L2 L 2 (欧几里得范数)参数范数惩罚,使惩罚对象更加接近原点。在神经网络中,通常只对权重做正则惩罚,将目标函数中的权重 w w 标注为参数 θ θ ,将未被正则处理的最优权重 w w ∗ 标注为 θ θ ∗ 后:

J(θ)=J(θ)+αΩ(θ) J ( θ ) ∗ = J ( θ ) + α Ω ( θ )

用泰勒公式处理,在最优权重处做函数的近似二阶泰勒级数,并展开惩罚项后:

J(θ)=J(θ)+(θθ)Tg+12(θθ)TH(θθ)+α2θTθ J ( θ ) ∗ = J ( θ ∗ ) + ( θ − θ ∗ ) T g + 1 2 ( θ − θ ∗ ) T H ( θ − θ ∗ ) + α 2 θ T θ

g g 为最优权重处的梯度, H H 为在最优权重处计算的黑塞矩阵。因为 θ θ ∗ 被定义为最优点,所以 g g 梯度为0:

J(θ)=J(θ)+12(θθ)TH(θθ)+α2θTθ J ( θ ) ∗ = J ( θ ∗ ) + 1 2 ( θ − θ ∗ ) T H ( θ − θ ∗ ) + α 2 θ T θ

继续对函数求偏导后,得到 J J ∗ 的梯度:

θJ(θ)=H(θθ)+αθ ∇ θ J ( θ ) ∗ = H ( θ − θ ∗ ) + α θ

因为函数取最小值,其梯度为零:

H(θθ)+αθ=0 H ( θ − θ ∗ ) + α θ = 0

可得:

θ=(H+αI)1Hθ θ = ( H + α I ) − 1 H θ ∗

黑塞矩阵是实对称矩阵,之前提到过实对称矩阵都可以分解成特征向量和特征值的组合:

θ=(QΛQT+αI)1QΛQTθ θ = ( Q Λ Q T + α I ) − 1 Q Λ Q T θ ∗
=Q(Λ+αI)1ΛQTθ = Q ( Λ + α I ) − 1 Λ Q T θ ∗

其中的 (Λ+αI)1Λ ( Λ + α I ) − 1 Λ 可以看做是将原有黑塞矩阵的特征值变为 λλ+α λ λ + α ,根据之前的特征向量和特征值的说明,会根据黑塞矩阵的特征向量进行对应的最优权重值缩放。对特征值求lim,沿着特征值较大的方向正则化影响较小,反之会收缩到几乎为零,也就是说这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。

你可能感兴趣的:(机器学习,深度学习,正则化)