《神经网络与深度学习》 邱希鹏 学习笔记(二)

  • 正则化 所有损害优化的方法都是正则化。增加优化约束,干扰优化过程

  • 优化约束包括 L1/L2约束,数据增强

  • 干扰优化包括 随机梯度下降 权重衰减 提前停止
    《神经网络与深度学习》 邱希鹏 学习笔记(二)_第1张图片
    在上式中 y ( n ) 为样本 n ,其展开形式为 y^{(n)}为样本n,其展开形式为 y(n)为样本n,其展开形式为,其中 n n n为第n个样本,N+1是样本的维度
    y ( n ) = [ y 1 ( n ) y 2 ( n ) y 3 ( n ) . . . y N + 1 ( n ) ] (3) y^{(n)} = \left[ \begin{matrix} y_1^{(n)} \\ y_2^{(n)} \\ y_3^{(n)} \\ . \\ . \\ . \\ y_{N+1}^{(n)} \end{matrix} \right] \tag{3} y(n)= y1(n)y2(n)y3(n)...yN+1(n) (3)
    x N + 1 ( n ) x^{(n)}_{N+1} xN+1(n)的维度是N+1,是第n组输入的样本
    x N + 1 ( n ) = [ x 1 ( n ) x 2 ( n ) x 3 ( n ) . . . x N + 1 ( n ) ] (3) x^{(n)}_{N+1} = \left[ \begin{matrix} x_1^{(n)} \\ x_2^{(n)} \\ x_3^{(n)} \\ . \\ . \\ . \\ x_{N+1}^{(n)} \end{matrix} \right] \tag{3} xN+1(n)= x1(n)x2(n)x3(n)...xN+1(n) (3)

    w = [ w 1 ( n ) w 2 ( n ) w 3 ( n ) . . . w N + 1 ( n ) ] (3) w=\left[ \begin{matrix} w_1^{(n)} \\ w_2^{(n)} \\ w_3^{(n)} \\ . \\ . \\ . \\ w_{N+1}^{(n)} \end{matrix} \right] \tag{3} w= w1(n)w2(n)w3(n)...wN+1(n) (3)
    w T = [ w 1 ( n ) w 2 ( n ) w 3 ( n ) . . . w N + 1 ( n ) ] (3) w^T=\left[ \begin{matrix} w_1^{(n)} & w_2^{(n)} & w_3^{(n)} & . & . & . & w_{N+1}^{(n)} \end{matrix} \right] \tag{3} wT=[w1(n)w2(n)w3(n)...wN+1(n)](3)

《神经网络与深度学习》 邱希鹏 学习笔记(二)_第2张图片

∂ ∂ w R ( w ) = ∂ 1 2 ∣ ∣ y − X T w ∣ ∣ 2 ∂ w \frac{\partial}{\partial w}R(w)=\frac{\partial\frac{1}{2}||y-X^Tw||^2}{\partial w} wR(w)=w21∣∣yXTw2

  • 逆矩阵充要条件

    • 矩阵行列式不等于0
    • 矩阵是满秩矩阵
    • 矩阵的标准合同型是单位矩阵
  • 单位阵: 单位阵是单位矩阵的简称,它指的是对角线上都是1,其余元素皆为0的矩阵。在矩阵的乘法中,有一种矩阵起着特殊的作用,如同数的乘法中的1,我们称这种矩阵为单位矩阵,简称单位阵。它是个方阵,除左上角到右下角的对角线(称为主对角线)上的元素均为1以外全都为0。可用将系数矩阵转化成单位矩阵的方法解线性方程组。

  • 矩阵的秩: 用初等行变换将矩阵A化为阶梯形矩阵, 则矩阵中非零行的个数就定义为这个矩阵的秩, 记为r(A)。根据这个定义, 矩阵的秩可以通过初等行变换求得。需要注意的是, 矩阵的阶梯形并不是唯一的, 但是阶梯形中非零行的个数总是一致的。

  • 满秩矩阵(non-singular matrix): 设A是n阶矩阵, 若r(A) = n, 则称A为满秩矩阵。满秩矩阵是一个很重要的概念, 它是判断一个矩阵是否可逆的充分必要条件。

  • 非奇矩阵:指的是方阵的行列式不为零的矩阵。如果用A表示该矩阵,那么非零矩阵可表示为│A│≠0。

  • X X T XX^T XXT不是一个满秩矩阵,那么就可以采用随机梯度下降方法(SGD)或者降维方法来让 X X T XX^T XXT成为满秩矩阵。

  • 结构风险最小化: 当特征之间存在共线性时, X X T XX^T XXT不可逆。结构风险就是在经验风险的基础上引入正则化项。如下所示: 1 2 ∣ ∣ y − X T w ∣ ∣ 2 \frac{1}{2}||y-X^Tw||^2 21∣∣yXTw2为经验风险,而 1 2 λ ∣ ∣ ω ∣ ∣ 2 \frac{1}{2}\lambda||\omega||^2 21λ∣∣ω2为正则化项,KaTeX parse error: Expected 'EOF', got '}' at position 1: }̲\lambda为正则化系数。KaTeX parse error: Expected 'EOF', got '}' at position 1: }̲\lambda越大,对正则化限制的越狠。然后再对结构风险求最小值。

  • 岭回归是指本来矩阵是非满秩矩阵,通过在对角线上加入很小的 λ \lambda λ使其可以成为满秩矩阵。

2.7 多项式回归

泰勒展开只是多项式逼近,神经网络每一层不一定是多项式的

控制过拟合的方法除了增加正则化系数 λ \lambda λ还有就是增加训练样本数量。为什么增加正则化系数能够防止模型过拟合,原因在于通过正则化系数能够约束参数,使参数不能过大。

  • 似然函数(Likelihood)
  • 似然函数是关于统计模型 p ( x , w ) p(x,w) p(x,w)的参数 w w w的函数
    • 概率p(x;w)是描述参数w固定,随机变量x的分布情况
    • 似然p(x,w)是描述已知随机变量x时不同的参数w对齐分布的影响。
      似然函数和概率从形式上是一样的,主要是看关于谁的函数。
      最大似然估计是指找到一组参数 w w w使得似然函数p(y|X;w, σ \sigma σ)最大。
      最大似然估计的解等效于最小二乘的解。即 w W L = ( X X T ) − 1 X y w^{WL} = (XX^T)^{-1}Xy wWL=(XXT)1Xy

贝叶斯的视角

  • 贝叶斯学习,就是将参数w也看成随机变量(x是随机变量)《神经网络与深度学习》 邱希鹏 学习笔记(二)_第3张图片
  • 是观测之后求分布,也就是给定了X之后,看W的分布,就是后验分布。
    这里我们将w看成随机变量,将x看成观测量,那么p(x|w)就是后验。如果是x固定了,关于w的分布情况,也就是p(x|w)就是似然。然后就是p(w),它不条件到任何的观测量上面,我们就称之为先验。
    《神经网络与深度学习》 邱希鹏 学习笔记(二)_第4张图片
    那么我们就得到了后验,似然和先验之间的关系,也就是后验正比于似然乘以先验。
    《神经网络与深度学习》 邱希鹏 学习笔记(二)_第5张图片
    与结构风险最小化类似。 R ^ ( w ) ∝ \hat R(w) \varpropto R^(w)

MAP(最大后验估计)
《神经网络与深度学习》 邱希鹏 学习笔记(二)_第6张图片
找到一个w,取得最大后验估计。

四种准则

平方误差

经验风险最小化 ( X X T ) − 1 X y (XX^T)^{-1}Xy (XXT)1Xy
结构风险最小化 ( X X T + λ I ) − 1 X y (XX^T+\lambda I)^{-1}Xy (XXT+λI)1Xy 引入先验 正则化

概率

最大似然估计 ( X X T ) − 1 X y (XX^T)^{-1}Xy (XXT)1Xy
最大后验估计 ( X X T + λ I ) − 1 X y (XX^T+\lambda I)^{-1}Xy (XXT+λI)1Xy 引入先验 p(w)

你可能感兴趣的:(深度学习,深度学习,神经网络,学习)