tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)

7.1 参数范数惩罚

许多正则化方法通过对目标函数

添加一个
参数范数惩罚
,限制模型(如神经网络、线性回归和逻辑回归)的学习能力。将正则化后的目标函数记为:

其中

是权衡范数惩罚项
和标准目标函数
相对贡献的超参数。

在神经网络中,参数包括每一层仿射变换的权重和偏置,我们通常只对权重做惩罚而不对偏置做正则惩罚。

  • 精确拟合偏置所需的数据通常比拟合权重少得多
  • 每个权重会指定两个变量如何相互作用。而每个偏置仅控制一个单变量。这意味着不对偏置进行正则化也不会导致太大的方差
  • 正则化偏置参数可能会导致明显的欠拟合。

因此,我们使用向量

表示所有应受范数惩罚的权重,而
表示所有参数(包括
和无须正则化的参数)。

7.1.1

参数正则化

权重衰减(weight decay):

参数范数惩罚。向目标函数添加一个正则项
,使权重更加接近原点。在其他学术圈,
又被称为岭回归或Tikhonov正则。

通过研究正则化后目标函数的梯度,洞察一些权重衰减的正则化表现。

对应梯度为:

使用单步梯度下降更新权重,即执行以下更新:

换种写法:

我们可以看到,加入权重衰减后会引起学习规则的修改,即在每步执行通常的梯度更新之前先收缩 权重向量(将权重向量乘以一个常数因子

)。这是单个步骤发生的变化。在训练的整个过程会发生什么呢?

1.

未正则化的目标函数最小训练误差时的权重向量

未正则化的目标函数取得最小训练误差时的权重向量,即

并在

的领域对
未正则化的目标函数做二次近似 [1]。如果目标函数确实是二次的(如以均方误差拟合线性回归模型的情况),则该近似是完美的。近似的
如下:

其中

处计算的Hessian矩阵(关于
)。
  • 因为
    被定义为最优,即梯度消失为
    ,所以该二次近似中没有一阶项。
  • 同样地,因为
    的一个最优点,我们可以得出
    是半正定
    [2]的结论。

取最小时,其梯度

为0。

2.

正则化后的目标函数最小训练误差时 的权重向量

趋向于
时,正则化的解
会趋向于

增加时会发生什么呢?
开始高危操作:因为Hessian
是实对称
[3]的,所以可以分解为一个对角矩阵
和一组特征向量的标准正交基
。并且有
,所以:

equation?tex=%5Cbegin%7Balign%7D+%26%5Ctilde+w%3D%28H%2B%5Calpha+I%29%5E%7B-1%7DHw%5E%2A++%5C%5C+%26%3D%28Q%5CLambda+Q%5E%5Ctop%2B%5Calpha+I%29%5E%7B-1%7D+Q%5CLambda+Q%5E%5Ctop+w%5E%2A+%5C%5C+%26%3D%28Q%5CLambda+Q%5E%5Ctop%2BQ%5Calpha+I+Q%5E%5Ctop%29%5E%7B-1%7D+Q%5CLambda+Q%5E%5Ctop+w%5E%2A+%5C%5C+%26%3D%28Q%28%5CLambda%2B%5Calpha+I%29+Q%5E%5Ctop%29%5E%7B-1%7D+Q%5CLambda+Q%5E%5Ctop+w%5E%2A+%5C%5C+%26%3DQ%28%5CLambda%2B%5Calpha+I+%29%5E%7B-1%7D+%5CLambda+Q%5E%5Ctop+w%5E%2A+%5Cend%7Balign%7D+%5C%5C

注意:

  • 推导过程需要严谨,待确认

我们可以看到权重衰减的效果是沿着

的特征向量所定义的轴缩放
。具体来说,我们会根据
因子缩放与
个特征向量对齐的
的分量。(可查看图2.3,回顾这种缩放的原理)

7.1.2

正则化

权重衰减是 权重衰减最常见的形式;

限制参数的规模;

形式地,对模型参数

正则化定义为,即各个参数的绝对值之和:

正则化的目标函数:

对应的梯度(实际上是次梯度)

其中

只是简单地取
各个元素的正负号,例如:

观察式(7.20),我们立刻发现

的正则化效果与
大不一样。具体来说,正则化对梯度的影响不再是线性地缩放每个
;而是添加了一项与
同号的常数。使用这种形式的梯度之后,我们不一定能得到
二次近似的直接算术解(
正则化时可以)。

假设1:简单的线性模型具有二次代价函数,我们可以通过泰勒级数表示。或者我们可以设想,这是逼近更复杂模型的代价函数的阶段泰勒级数。在这个 设定 下,梯度由下式给出:

假设2:由于

惩罚项在完全一般化的Hessian的情况下,无法得到直接清晰的代数表达式,因此我们将进一步简化假设Hessian是对角的,即
,其中每个
。如果线性回归问题中的数据已被预处理(如可以使用PCA),去除了输入特征之间的相关性,那么这一
假设 成立。

正则化目标函数的二次近似分解成关于参数的求和:

其中:

是常数项

如下列形式的解析解(对每一维

)可以最小化上面这个近似代价函数

equation?tex=%5Cbegin%7Balign%7D+%26%5Csum_i%5B%5Cfrac%7B1%7D%7B2%7DH_%7Bi%2Ci%7D%28w_i-w_i%5E%2A%29%5E2%2B%5Calpha%7Cw_i%7C%5D+%5C%5C+%26+%5CRightarrow%5Cfrac%7B1%7D%7B2%7D%28w_i-w_i%5E%2A%29%5E2%2B%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D%7Cw_i%7C+%5C%5C+%26%3D%5Cfrac%7B1%7D%7B2%7D%5B%28w_i%29%5E2-2w_iw_i%5E%2A%2B%28w_i%5E%2A%29%5E2%5D%2B%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D%7Cw_i%7C+%5C%5C+%26%3D%5Cfrac%7B1%7D%7B2%7D%5B%28w_i%29%5E2%2B%28w_i%5E%2A%29%5E2%5D%2B%5Cfrac%7B%5Calpha%7D%7BH_%7Bi%2Ci%7D%7D%7Cw_i%7C-w_iw_i%5E%2A++%5Cend%7Balign%7D

如果:

  • 推导过程需要严谨,待确认

,求
最小值,去掉绝对值号,无非两种情况:
  • a肯定大于0
  • 对b分情况讨论
    • b>0
      • a-b>0,最为值
      • a-b<0,
    • b<0
      • a+b>0
      • a_b<0

相比

正则化,
正则化会产生更
稀疏(sparse)的解。
正则化有可能通过足够大的
实现稀疏。由
正则化导出的稀疏性质已经被广泛地用于
特征选择

正则化的目标函数:

标准目标函数:

正则化目标函数的近似:

泰勒级数

定义:如果

在点
具有任意阶导数,则幂级数

称为

在点
处的泰勒级数。

在泰勒公式中,取

,得到的级数
称为麦克劳林级数。函数
的麦克劳林级数是
的幂级数,那么这种展开是唯一的,且必然与
的麦克劳林级数一致。

半正定

在线性代数里,正定矩阵 (positive definite matrix) 有时会简称为正定阵。在线性代数中,正定矩阵的性质类似复数中的正实数。

  • 复数:我们把形如
    均为实数)的数称为复数。
  • 实数:实数,是有理数和无理数的总称。数学上,实数定义为与数轴上的实数,点相对应的数。
  • 正定矩阵广义定义:设
    阶方阵,如果对任何非零向量
    ,都有
    ,其中
    表示
    的转置,就称
    为正定矩阵。
  • 半正定矩阵:是正定矩阵的推广。实对称矩阵
    称为半正定的,如果二次型
    半正定,即对于任意不为0的实列向量
    ,都有

参考

  1. ^泰勒公式
  2. ^半正定
  3. ^实对称矩阵

你可能感兴趣的:(tikhonov正则化,matlab)