TimsonShi

神经翻译笔记3扩展d. 神经网络的泛化

文章目录

神经翻译笔记3扩展d. 神经网络的泛化

数据增强
参数范数惩罚

$L^2$正则化
$L^1$正则化
在TensorFlow中使用参数范数惩罚

提前终止

方法概览
提前终止与$L^2$正则的关系

集成方法

集成方法概览
参数平均
Dropout

原理
实现与使用

批归一化

原理
使用与实现
进一步探索
扩展

权重归一化
层归一化
组归一化

参考文献

神经翻译笔记3扩展d. 神经网络的泛化

机器学习模型的正则化是一个老生常谈的问题，毕竟模型训练出来的目的是让它在未知数据上表现良好，而不是死记硬背已有的数据——就像我们准备高考的时候大量刷题不是为了能在高考时遇见自己做过的题，而是为了能运用已有知识做出新题（当然咯，碰上是一件好事，但是这不是目标。况且以一般人的记忆力，遇到旧题还是会忘的，这个时候考试体验就更差了……）。而神经网络（尤其是比较深的神经网络）其模型复杂度会更高，因此过拟合的风险会更大，也就更有必要采取一些正则化手段，使得模型有更好的泛化能力。本节介绍的泛化手段基本均来自于花书第7章，不过会有详略之分——一些想法比较直接，或者已经介绍过很多遍的，就不会再浪费笔墨了。此外，以下方法由于各种原因，在这里略过

作为约束的范数惩罚（7.2节）。好像并不常用
噪声鲁棒性，向权重加入噪声（7.5节）。用得也不多了
半监督学习（7.6节）。展开可能能写出一篇文章……
多任务学习（7.7节）。在NLP里展开几乎必定能写出一篇文章……
参数绑定和参数共享（7.9节）。书里都说了最佳范例就是CNN，个人感觉RNN也包含类似思想
稀疏表示（7.10节）。神经元稀疏可以用ReLU做到，强制隐层稀疏好像用得不多了
对抗训练（7.13节）。展开可能能写出一篇文章……
切面距离、正切传播和流形正切分类器（7.14节）。基本没人用了……

因此以下主要整理一些常见的方法

数据增强

模型不能泛化的表现是在各种数据集上有比较大的方差，而这种现象出现的原因有一种可能是数据集里数据太“纯”，以至于模型没有看到一些只出现在验证集和测试集里的数据模式。解决方法是对输入数据做一些增强：普适的方法是增加一些噪声（常见的是加入高斯噪声），而对于与图像相关的问题，可能平移几个像素点、旋转图像、缩放图像、裁剪图像等都是有效的。需要注意的这种变换不能改变类别，比如OCR任务需要认识到“b“和”d“的区别，以及”6“和”9“的区别，此时水平翻转和旋转180°就不是合适的数据增强方式

不过在NLP领域，似乎缺少一些通用的数据增强手段——对不同的具体任务，可能需要一种具体的方法。例如，对于机器翻译，可以使用back translation的方法[Sennrich2015]。其它一些文章采用了同义词替换的方法：[Wang2015]是对给定的某个单词，在训练出的词向量里选择k个距离最近的词做替换，而[Zhang2015]则是使用词典做同义词替换

参数范数惩罚

对模型参数施加 $L^2$ 范数惩罚使得不重要的参数接近于0，或者施加 $L^1$ 范数惩罚淘汰不重要的特征让解变得稀疏，已经是介绍过很多次的正则化方法了，因此这里对概念不多做介绍，仅对花书中的一些重要结论做一记录

$L^2$ 正则化

假设原始目标函数为 $J(\boldsymbol{w}; \boldsymbol{X}, \boldsymbol{y})$ ，那么加入 $L^2$ 正则化以后的目标函数改变为
$\tilde{J}(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y}) = \frac{\alpha}{2}\boldsymbol{w}^\mathsf{T}\boldsymbol{w} + J(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y})$
与之对应的梯度为
$\nabla_{\boldsymbol{w}}\tilde{J}(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y}) = \alpha \boldsymbol{w} + \nabla_{\boldsymbol{w}}J(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y})$
记 $\boldsymbol{w}^\ast = \mathop{\rm arg\ min}_{\boldsymbol{w}}J(\boldsymbol{w})$ ，并在 $\boldsymbol{w}^\ast$ 的邻域内对 $J$ 做二次近似，则
$\hat{J}(\boldsymbol{w}) = J(\boldsymbol{w}^\ast) + \frac{1}{2}(\boldsymbol{w}-\boldsymbol{w}^\ast)^\mathsf{T}\boldsymbol{H}(\boldsymbol{w}-\boldsymbol{w}^\ast)$
其中 $\boldsymbol{H}$ 是 $J$ 在 $\boldsymbol{w}^\ast$ 处计算的关于 $\boldsymbol{w}$ 的Hessian矩阵。上式的梯度为
$\nabla_\boldsymbol{w}\hat{J}(\boldsymbol{w}) = \boldsymbol{H}(\boldsymbol{w}-\boldsymbol{w}^\ast)$
因此新目标函数 $\tilde{J}$ 的解 $\tilde{\boldsymbol{w}}$ 满足
$\alpha\tilde{\boldsymbol{w}} + \boldsymbol{H}(\tilde{\boldsymbol{w}} - \boldsymbol{w}^\ast) = 0$
解得
$\tilde{\boldsymbol{w}} = (\boldsymbol{H} + \alpha\boldsymbol{I})^{-1}\boldsymbol{Hw}^\ast$
由于 $\boldsymbol{H}$ 是实对称矩阵，因此可以将其分解为一个对角矩阵 $\boldsymbol{\Lambda}$ 和一组正交向量的标准正交基 $\boldsymbol{Q}$ （证明），并且有 $\boldsymbol{H} = \boldsymbol{Q\Lambda Q}^\mathsf{T}$ 。代入上式，有
$\begin{aligned} \tilde{\boldsymbol{w}} &= (\boldsymbol{Q\Lambda Q}^\mathsf{T}+\alpha\boldsymbol{I})^{-1}\boldsymbol{Q\Lambda Q}^\mathsf{T}\boldsymbol{w}^\ast \\ &= [\boldsymbol{Q}(\boldsymbol{\Lambda}+\alpha\boldsymbol{I})\boldsymbol{Q}^\mathsf{T}]^{-1}\boldsymbol{Q\Lambda Q}^\mathsf{T}\boldsymbol{w}^\ast \\ &= \boldsymbol{Q}(\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\boldsymbol{\Lambda Q}^\mathsf{T}\boldsymbol{w}^\ast \tag{1} \end{aligned}$
因此 $L^2$ 正则的意义是沿着由 $\boldsymbol{H}$ 的特征向量定义的轴缩放 $\boldsymbol{w}^\ast$ 。更具体地，对 $\boldsymbol{w}^\ast$ 的第 $i$ 个分量 $w^\ast_i$ ，缩放系数为 $\frac{\lambda_i}{\lambda_i + \alpha}$ ，其中 $\lambda_i$ 是 $\boldsymbol{H}$ 的第 $i$ 个特征值。对于 $\boldsymbol{H}$ ，其在有助于减小目标函数的方向上特征值大，在无助于减小目标函数的方向上特征值小，因此对 $\boldsymbol{w}^\ast$ 来说不重要的分量会被显著缩小。假设正则项系数 $\alpha$ 设为100，而且对某些方向 $\lambda_i <\!\!< \alpha$ ，那么 $w_i^\ast$ 就会是原来的百分之一

在神经网络里， $L^2$ 正则通常也被称为权重衰减法

$L^1$ 正则化

对模型参数的 $L^1$ 正则化被定义为
$\Omega(\boldsymbol{w}) = \|\boldsymbol{w}\|_1 = \sum_{i}|w_i|$
与 $L^2$ 正则化类似的，假设原始目标函数为 $J(\boldsymbol{w}; \boldsymbol{X}, \boldsymbol{y})$ ，那么加入 $L^1$ 正则化以后的目标函数改变为
$\tilde{J}(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y}) =\alpha\|\boldsymbol{w}\|_1 + J(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y})$
与之对应的梯度为
$\nabla_{\boldsymbol{w}}\tilde{J}(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y}) = \alpha {\rm sign}(\boldsymbol{w}) + \nabla_{\boldsymbol{w}}J(\boldsymbol{w}; \boldsymbol{X},\boldsymbol{y})$
记 $\boldsymbol{w}^\ast = \mathop{\rm arg\ min}_{\boldsymbol{w}}J(\boldsymbol{w})$ ，简化假设 $\boldsymbol{H}$ 是对角的，且 $H_{i,i} > 0$ （这个假设在线性回归问题中，若数据已被预处理，去除了输入特征之间的相关性，则假设成立）。在 $\boldsymbol{w}^\ast$ 的邻域内对 $\tilde{J}$ 做二次近似，则
$\hat{J}(\boldsymbol{w}) = J(\boldsymbol{w}^\ast) + \sum_i \left[\frac{1}{2}H_{i,i}(w_i - w_i^\ast)^2 + \alpha|w_i|\right]$
上式右侧只有求和项与 $w_i$ 有关，记为 $f(w_i)$ 。 $f$ 可以重写为
$f(w_i) = \frac{1}{2}H_{i,i}(w_i - w_i^\ast)^2 + \alpha {\rm sign}(w_i)\cdot w_i$
令 $f'(w_i) = 0$ ，得到
$w_i = w_i^\ast - \frac{\alpha}{H_{i,i}}{\rm sign}(w_i)$
因此最优的 $w_i$ 有
$f(w_i) = \frac{\alpha^2}{2H_{i,i}} + \alpha|w_i|$
又
$\frac{1}{2}H_{i,i}{w_i^\ast}^2 + \alpha|w_i|$
可知当 $w_i^\ast < \alpha/H_{i,i}$ 时，0是极值点。又 $w_i^\ast = {\rm sign}(w_i^\ast)\cdot |w_i^\ast|$ ，因此当 $w_i$ 取如下值时，最小化 $\hat{J}$
$w_i = {\rm sign}(w_i^\ast)\max\left\{|w_i^\ast| - \frac{\alpha}{H_{i,i}}, 0\right\}$
对每个 $i$ ，假设 $w_i^\ast > 0$ ，有两种情况。一种是 $w_i^\ast \le \alpha / H_{i,i}$ ，此时最好的 $w_i$ 为0；另一种 $w_i^\ast > \alpha / H_{i,i}$ ，这个参数还会被保留，因此 $L^1$ 正则化会产生更稀疏的解

在TensorFlow中使用参数范数惩罚

在TensorFlow中，若要使用参数范数惩罚，通常是在定义损失函数时手动加上正则化项，例如（代码片段取自HAR-stacked-residual-bidir-LSTMs）

l2 = lam * sum(
            tf.nn.l2_loss(tf_var)
                for tf_var in tf.trainable_variables()
                if not ("noreg" in tf_var.name or "Bias" in tf_var.name)
        )
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred_y, Y)) + l2

注意这里的lam是上述推导里正则化系数 $\alpha$ 的倒数

提前终止

方法概览

假设训练一个表示能力很强的模型，很有可能出现这样的情况：模型在训练集上的损失值一直下降，但是在验证集上先下降后上升。一种自然的想法是返回使验证集误差最低的参数设置，保存使验证误差最低的模型。由于通常来讲验证集与测试集分布相同，而且不参与训练，因此使验证误差最低的模型，很大可能也会使测试误差最低。这种方法称为提前终止法。提前终止法可以说是深度学习里最简单的正则化方法，实现也很简单，几乎不需要对训练过程做什么改动

由于提前终止法需要一部分数据做验证集，因此有一部分数据没有参与训练。为了更好地利用这些数据，需要使用所有数据重新训练。书里给出了两种方法：一种是重新初始化模型，然后用所有数据训第一轮训练的那么多步数；另一种是保持参数不变，继续训练，直到低于第一轮模型得到的损失值。两种方法各有各的问题，需要在实践中根据实际情况适当调整，而且在数据量太大，训练集规模远大于验证集规模时，验证集是否需要参与训练个人觉得也不是非常重要，影响不大

提前终止与 $L^2$ 正则的关系

如果使用平方误差做误差函数，模型设定为简单的线性模型，使用普通的梯度下降法，则可以说明提前终止相当于 $L^2$ 正则化。假设参数里没有偏置项，最佳值仍然为 $\boldsymbol{w}^\ast$ ，在 $\boldsymbol{w}^\ast$ 的邻域内对 $J$ 做二次近似，则
$\hat{J}(\boldsymbol{w}) = J(\boldsymbol{w}^\ast) + \frac{1}{2}(\boldsymbol{w}-\boldsymbol{w}^\ast)^\mathsf{T}\boldsymbol{H}(\boldsymbol{w}-\boldsymbol{w}^\ast)$
其中 $\boldsymbol{H}$ 是 $J$ 在 $\boldsymbol{w}^\ast$ 处计算的关于 $\boldsymbol{w}$ 的Hessian矩阵。上式的梯度为
$\nabla_\boldsymbol{w}\hat{J}(\boldsymbol{w}) = \boldsymbol{H}(\boldsymbol{w}-\boldsymbol{w}^\ast)$
假设学习率为 $\eta$ ，训练步数为 $t$ ， $\boldsymbol{w}$ 初始化为 $\boldsymbol{0}$ （尽管在神经网络里不能这么做，但是普通线性模型是可以的），分析 $\hat{J}$ 上的梯度下降可以近似研究 $J$ 上的梯度下降
$\begin{aligned} \boldsymbol{w}^{(t)} &= \boldsymbol{w}^{(t-1)} - \eta\nabla_{\boldsymbol{w}}\hat{J}(\boldsymbol{w}^{(t-1)}) \\ &= \boldsymbol{w}^{(t-1)} - \eta \boldsymbol{H}(\boldsymbol{w}^{(t-1)}-\boldsymbol{w}^\ast) \\ \boldsymbol{w}^{(t)} - \boldsymbol{w}^\ast &= (\boldsymbol{I}-\eta\boldsymbol{H})(\boldsymbol{w}^{(t-1)}-\boldsymbol{w}^\ast) \end{aligned}$
将 $\boldsymbol{H}$ 做特征分解 $\boldsymbol{H} = \boldsymbol{Q\Lambda Q}^\mathsf{T}$ ，代入上式，并两边同时左乘 $\boldsymbol{Q}^\mathsf{T}$ ，有
$\boldsymbol{Q}^\mathsf{T}(\boldsymbol{w}^{(t)}-\boldsymbol{w}^\ast) = (\boldsymbol{I} - \eta \boldsymbol{\Lambda})\boldsymbol{Q}^\mathsf{T}(\boldsymbol{w}^{(t-1)}-\boldsymbol{w}^\ast)$
将 $\boldsymbol{Q}^{\mathsf{T}}(\boldsymbol{w}^{(t)}- \boldsymbol{w}^\ast)$ 记为 $\boldsymbol{a}^{(t)}$ ，则
$\boldsymbol{a}^{(t)} = (\boldsymbol{I} - \eta\boldsymbol{\Lambda})\boldsymbol{a}^{(t-1)}$
是一个等比数列，因此有
$\boldsymbol{a}^{(t)} = (\boldsymbol{I}-\eta\boldsymbol{\Lambda})^t\boldsymbol{a}^{(0)}$
带回 $\boldsymbol{a}^{(t)}$ 的定义，有
$\boldsymbol{Q}^{\mathsf{T}}(\boldsymbol{w}^{(t)}-\boldsymbol{w}^\ast) = (\boldsymbol{I}-\eta \boldsymbol{\Lambda})^t\boldsymbol{Q}^\mathsf{T}(-\boldsymbol{w}^\ast)$
整理可得
$\boldsymbol{Q}^\mathsf{T}\boldsymbol{w}^{(t)} = [\boldsymbol{I}-(\boldsymbol{I}-\eta\boldsymbol{\Lambda})^t]\boldsymbol{Q}^\mathsf{T}\boldsymbol{w}^\ast \tag{2}$
前面介绍 $L^2$ 正则化时有个式子(1)：
$\tilde{\boldsymbol{w}} = \boldsymbol{Q}(\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\boldsymbol{\Lambda Q}^\mathsf{T}\boldsymbol{w}^\ast$
两边左乘 $\boldsymbol{Q}^\mathsf{T}$ ，有
$\boldsymbol{Q}^\mathsf{T}\tilde{\boldsymbol{w}} = (\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\boldsymbol{\Lambda Q}^\mathsf{T}\boldsymbol{w}^\ast$
由于 $(\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\boldsymbol{\Lambda} + (\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\alpha = \boldsymbol{I}$ ，因此上式可以写为
$\boldsymbol{Q}^\mathsf{T}\tilde{\boldsymbol{w}} = [\boldsymbol{I} - (\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\alpha] \boldsymbol{Q}^\mathsf{T}\boldsymbol{w}^\ast\tag{3}$
将(3)式与(2)式比较，可以发现，如果满足
$(\boldsymbol{I}-\eta\boldsymbol{\Lambda})^t = (\boldsymbol{\Lambda} + \alpha\boldsymbol{I})^{-1}\alpha$
则提前终止与 $L^2$ 可以看作是等价的。如果将上式两边取对数，做 $\log(1+x)$ 的级数展开（ $\log(1+x) = x - \frac{x^2}{2} + \frac{x^3}{3} - \frac{x^4}{4} + \ldots$ ），则可以得出结论：如果所有 $\lambda_i$ 都是小的，满足 $\eta \lambda_i <\!\!< 1$ 且 $\lambda_i /\alpha <\!\!< 1$ ，有
$\approx \frac{1}{\eta \alpha},\ \ \ \ \ \alpha\approx\frac{1}{\eta t}$
即在满足所有假设的情况下，训练迭代次数 $t$ 起着和 $L^2$ 参数成反比的作用

集成方法

集成方法概览

模型组合，或者称“集成学习”（ensemble learning），其核心思想是通过结合几个模型来降低泛化误差，因为不同的模型通常不会在测试集上产生完全相同的误差，或者说，它们产生的误差可以相互抵消掉

假设有 $k$ 个回归模型，假设每个模型 $i$ 在每个例子上误差是 $\epsilon_i$ ，这个误差服从均值 $\mathbb{E}[\epsilon_i] = 0$ ，方差 ${\rm Var}[\epsilon_i] = \mathbb{E}[\epsilon_i^2] =v$ 且协方差 $\mathbb{E}[\epsilon_i\epsilon_j] =c$ 的多维正态分布。模型集成（通常是平均所有被集成模型的预测结果）得到的平均误差是 $\frac{1}{k}\sum_i \epsilon_i$ ，集成预测器的平方误差的期望是
$\begin{aligned} \mathbb{E}\left[\left(\frac{1}{k}\sum_i \epsilon_i\right)^2\right] &= \frac{1}{k^2}\mathbb{E}\left[\sum_i \left(\epsilon_i^2 + \sum_{j\not= i}\epsilon_i\epsilon_j\right)\right] \\ &= \frac{1}{k}v + \frac{k-1}{k}c \end{aligned}$
假设所有模型误差完全相关， $c = v$ ，上式结果是 $v$ ，与之前没有变化，模型平均没有什么帮助，但是也没有扯后腿；假设所有模型误差完全不相关， $c = 0$ ，那么平方误差的期望仅仅为 $v / k$ ，因此模型越多，集成规模越大，平方误差的期望就会越小。这说明如果各个成员的误差是独立的，集成将显著提高模型效果

常见的模型集成方法包括

装袋法（bagging），核心思想是对 $N$ 个样本组成的测试集做 $k$ 次有放回采样（bootstrap），训练 $k$ 个模型，对它们的预测结果求平均。具体可参考哥大机器学习讲义：随机森林和台大机器学习讲义：装袋法
提升法（boosting），核心思想是训练 $k$ 个比较弱的基分类器，对每个基分类器，着重使用前面分类器效果不好的数据做训练。具体可参考哥大机器学习讲义：Boosting和台大机器学习讲义：自适应提升算法
堆叠法（stacking）。具体做法是将训练集划分为两个不相交的集合，用第一部分数据训练基分类器，将这些基分类器在第二部分数据上做推断，然后将推断结果作为输入，正确标签做输出，训练一个更高级分类器。堆叠法通常会使用各种非常不一样的分类器（例如SVM、LR等等混杂）（Ensemble Learning）

对于神经网络，即便其结构相同，由于权重初始化往往是从某个分布中随机抽样取值，每个batch选取的数据可能不一样，以及其它超参数设置不同，使用同一个训练集训练出的不同模型往往就有部分独立的误差，可以做集成

常见的集成方法一般包括投票（常见于分类问题）、对结果求平均等等。对于NMT等seq2seq任务，在解码的时候通常使用beam search，此时模型集成的方法通常是将各个子模型给出的各单词得分做一个平均，取出top k结果，然后将这k个结果发送给各个子模型做下一步搜索。这种集成过程比较复杂，在TensorFlow里也不是特别容易实现（例如OpenNMT-tf就没有实现这个过程，目前只在OpenNMT-py里用PyTorch实现了）

参数平均

对于深度学习，有一个更加方便普适，易于实现的集成方法：每隔若干个step就保存一个检查点checkpoint，然后将每个检查点的权重加起来求平均，即对参数求平均。需要注意的是，参数平均要求被平均的模型至少有同样的结构和同样的随机初始化参数（不只是随机分布要相同，连随机的结果都要相同！），甚至初始若干个训练步骤都要相同。此时独立初始化的模型反而不能用作参数平均的输入

参数平均的思想在[Junczys-Dowmunt2016]中首先被验证有效，在[Izmailov2018]中得到了理论说明。简而言之，在若干简化条件下，使用恒定学习率运行SGD算法，等效于从一个期望为最佳参数（使损失函数取得最小值），协方差由学习率控制的正态分布中随机抽样的过程。SGD得到的解倾向于分布在一个平坦的局部极值区域（而不是一个点），因此将不同时间步得到的参数求平均会将最后得到的解落入到这个极值区域的内部，更接近最优解。下图给出了在CIFAR-100上训练ResNet-164（在预训练模型基础上微调）得到的误差函数表面，损失函数使用的是交叉熵函数，并采用了正则化。

其中三个黑叉代表了微调开始、中期和结束时得到的参数位置。文章也采取了最近新提出的学习率调整策略（周期性调整学习率，学习率先变小再变大）做了同样的实验，得到了类似效果（不过新策略得到的三个点比固定学习率得到的点要明显靠近中心很多）

另一个值得注意的现象是，同一个模型的训练误差平面和测试误差平面形状相似，但不能完全对齐。下图给出了使用SGD在CIFAR-100上经过125个epoch训练ResNet-164得到的训练误差平面和测试误差平面， $w_{\rm SGD}$ 是SGD给出的最优解， $w_{\rm SWA}$ 是参数平均得到的解。可以看到，参数平均得到的解尽管在训练集上效果不那么好，但是有更强的泛化能力

参数平均是一种非常高效的模型集成方法，它不需要额外时间训练若干个模型，也不需要在推断时花费多余的时间产生若干个结果。此外，其实现也非常简单，可以参考OpenNMT-tf的实现

Dropout

原理

在计算资源无限的前提下，要正则化一个固定大小的模型，最好方法是对模型所有可能的参数组合都算出各自的预测值，然后对预测值做加权平均，其中权重是给定训练数据后每组参数组合的后验概率。这种也是模型集成的方法，但是要完全达到这个目的，需要训练指数多个模型，代价太大了

Dropout的目的是防止过拟合，以及对“组合指数多个不同神经网络”这一遥不可及的目标给出一个近似而且有效的方法。其基本思想比较直观，即在训练时的每一批次，对网络中的每个神经元（输入神经元和隐藏神经元都可以）独立地以概率 $p$ 保留之。如果随机数落到了 $[1 - p, 1)$ 的区间，就将它连同其入边和出边一起临时删掉。这样，对神经网络做dropout类似于从原始网络抽样出一个“苗条版”的子网络，因此对有 $n$ 个节点的网络，可以看做其包含了 $2^n$ 个子网络（每个节点都可能被保留/丢弃），对其使用dropout训练就像是训练了 $2^n$ 个权重共享的小网络

在测试时，很难让所有小网络都给出预测值，然后做加权平均，不过可以使用一种方法来取得近似的效果，就是在测试/推断时使用没有dropout的网络，只不过每个节点出边的权重都乘以 $p$ ，使得节点在训练时输出的期望与测试时的实际输出相匹配，以达到聚合模型的目的

Dropout这种思想的提出还受到了生物进化过程中有性繁殖这一过程的启发。因为在有性繁殖的过程中，父代个体的基因只有一般可能性会传给子代（而且可能还会变异），这就使得每个基因都要有一定鲁棒性，能力够强，能够跟其他随机一组基因很好地合作，不能每时每刻都依赖很多个同伴。类似地，使用dropout得到的每个隐藏神经元必须可以与随机分配的其它单元都能很好合作，能靠自己创造有用的特征，而不是依赖其它单元纠正它的错误。或者说，dropout更像是从一些成功的阴谋活动中吸取到了经验：每5个人完成一个小的阴谋，一共完成10个，总容易过让50个人一起完成一个大的阴谋

Dropout的形式化描述比较简洁。假设神经网络共有 $L$ 个隐藏层，编号 $\in \{1, \ldots , L\}$ 。 $\boldsymbol{z}^{(l)}$ 是第 $l$ 层的输入向量， $\boldsymbol{y}^{(l)}$ 是第 $l$ 层的输出向量（ $\boldsymbol{y}^{(0)} = \boldsymbol{x}$ 是整个网络的输入）。 $\boldsymbol{W}^{(l)}$ 和 $\boldsymbol{b}^{(l)}$ 是第 $l$ 层的权重和偏置，对 $\in \{0, \ldots, L-1\}$ 的每个节点 $i$ ，普通的前向传播有
$\begin{aligned} z_i^{(l+1)} &= \boldsymbol{w}_i^{(l+1)}\boldsymbol{y}^{l}+b_i^{(l+1)} \\ y_i^{(l+1)} &= f(z_i^{(l+1)}) \end{aligned}$
其中 $f$ 是激活函数。加入dropout以后，传播操作变为
$\begin{aligned} r_j^{(l)} &\sim {\rm Bernoulli}(p) \\ \tilde{\boldsymbol{y}}^{(l)} &= {\bf r}^{(l)} \otimes \boldsymbol{y}^{(l)} \\ z_i^{(l+1)} &= \boldsymbol{w}_i^{(l+1)}\tilde{\boldsymbol{y}}^{l}+b_i^{(l+1)} \\ y_i^{(l+1)} &= f(z_i^{(l+1)}) \end{aligned}$
在测试/推断时，有
$\boldsymbol{W}_{\rm test}^{(l)} = p\boldsymbol{W}^{(l)}$
原始论文推荐的参数是对隐藏节点， $p$ 设为0.5；对输入节点，设为0.8。此外，原始论文推荐将dropout和参数范数限制一起使用（即在优化时加上 $\|\boldsymbol{w}\| \le c$ 的限制），不过现在（2018年）已经很少有人这么提了。另外有一些文章指出dropout在线性模型上可以起到L2正则化的效果，尽管花书指出这种推理不适用于神经网络，但是最新的文章 [Hara2016] 仍然（从效果上）对这个结论给予了支持。需要注意的是，尽管dropout在大多数网络上都有效，但是它不适用于规模比较小的网络

实现与使用

TF在实现dropout时，没有使用原始的dropout方法，而是使用了一种称为”inverted dropout“的技巧：训练时，所有没有被丢弃掉的神经元权重都除以 $p$ ，这样测试时就不需要修改网络的权重了。具体实现在tf.nn.dropout中，伪代码如下

def dropout(x, p):
    # x中的每个元素以概率p保留，概率1-p设置为0
    mask = random_uniform(x.shape)
    # mask中的元素在0-1之间均匀分布，加p以后就是p-1+p之间均匀分布。
    # 取整以后，每个元素正好有1-p的概率为0，p的概率为1
    keep_flags = floor(mask + p) 
    return x / p * keep_flags

应用时，在构建计算图的代码里，通常使用placeholder来接收外部传进来的keep_prob值（因为训练时和推断时的keep_prob值不同，推断时keep_prob值必须为1——这是一个很容易被忽视的地方！）

with graph.as_default():
    ...
    keep_prob = tf.placeholder(tf.float32)
    
    hidden = tf.nn.relu(tf.matmul(x, w_hidden) + b_hidden)
    dropout_hidden = tf.nn.dropout(hidden)
    out = tf.matmul(dropout_hidden, w_out) + b_out
    ...

使用高阶API，例如Estimator时，建议使用tf.layers.dropout。它实际使用了keras对dropout的封装，可以通过开关判断是否需要dropout，所以与ModeKeys搭配使用尤其好，例如

dense = tf.layers.dense(inputs=x, units=1024, activation=tf.nn.relu, name='dense')
dropout = tf.layers.dropout(inputs=dense1, rate=0.4, training=mode == tf.estimator.ModeKeys.TRAIN)

批归一化

Ioffe和Szegedy两人在[Ioffe2015]中对神经网络难以训练的原因提出了一个新的猜想：每一层的输入都由前面所有层的参数共同决定，因此随着网络的变深，一点小的变化也会被一直放大，即各层的输入所属的分布会发生变化，称为经历了“共变量偏移”（covariate shift）。将每一层输入的分布固定住可以让训练过程变得更有效：假设神经网络使用sigmoid函数作为激活函数 $g$ ，根据前面提到过多次的结论，当某一层的输入 $x$ 的绝对值很大时，会有 $\rightarrow 0$ ，发生梯度消失，训练变慢。但是这个 $x$ 由前面所有层的参数算出来，因此参数发生变化以后 $x$ 向饱和区域内移动的可能性是很大的。尽管这种情况可以通过使用ReLU激活或者好的初始化方法（见前一篇文章）来缓解，但是如果能让输入的分布保持稳定，也可以加速训练过程。文章称这种在训练过程中内部结点分布发生变化的现象为“内部共变量偏移”（internal convariate shift），并提出了一种减少这种偏移现象的方法——批归一化（batch normalization）

原理

批归一化操作的思想一部分来源于“白化”（whitening）操作，不过白化只是将神经网络的整体输入归一化，使其均值为0方差为1，而批归一化是对每一层的输入都如此做。但是，如果归一化参数是在梯度下降过程之外计算，会导致参数一直涨而损失值变化不大的情况，因为优化过程“不知道”归一化已经发生。所以正确的对策是让网络产生的激活值总是满足期望的分布，然而，对每一层的输入都做白化，会导致大量的计算而且可能不是处处可导

批归一化对此作了两个关键简化

不是联合白化输入和输出，而是对每个特征标量独立归一化。假设某一层的输入 $\boldsymbol{x}$ 有 $d$ 个维度， $\boldsymbol{x} = \left(x^{(1)}, \ldots , x^{(d)}\right)$ ，则对每个维度都做如下归一化
$\hat{x}^{(k)} = \frac{x^{(k)} - {\rm E}[x^{(k)}]}{\sqrt{ {\rm Var}[x^{(k)}]}}$
其中期望和方差是在整个训练集上求得。注意这个操作会改变这一层所能提取的特征，例如如果激活函数是sigmoid，那么做这个变换以后会把输入都集中在非饱和区域，因此需要保证这样的变化可以表示恒等变化。为了做到这一点，需要对每个激活值 $x^{(k)}$ 引入一对变量 $\gamma^{(k)}$ 和 $\beta^{(k)}$ ，前者用来缩放，后者用来偏移。这两个变量也是通过训练学到，它们的作用的是保持网络的表示能力
由于神经网络通常都是使用小批量SGD做优化，很难得到整个数据集的均值和方差，因此批归一化做了一个近似：使用每个小批量的均值和方差近似整个数据集的对应指标

由于对于特征 $x^{(k)}, k \in \{1, \ldots, d\}$ ，归一化都是各自独立的，因此对某个特征 $x^{(k)}$ ，可以简记为 $x$ 。假设对由 $m$ 条数据组成的某个小批量数据集 $\mathcal{B} = \{x_{1\ldots m}\}$ ，归一化得到 $\hat{x}_{1\ldots m}$ ，线性转换的结果为 $y_{1\ldots m}$ ，称变换 ${\rm BN}_{\gamma, \beta}:x_{1\ldots m} \rightarrow y_{1\ldots m}$ 为批归一化变换，具体算法如下图所示，其中 $\epsilon$ 用来维持算法的数值稳定性

每个归一化后的激活值 $\hat{x}^{(k)}$ 都可以看作是对下个子网络的输入，该子网络包括两个部分，先是线性变换 $y^{(k)}$ ，然后是原始网络的其它处理过程

上图的算法是在前向传播时计算。在反向传播时，损失函数 $L$ 的梯度也可以相应使用链式法则算出
$\begin{aligned} \frac{\partial L}{\partial \gamma} &= \sum_{i=1}^m \frac{\partial L}{\partial y_i} \cdot \hat{x}_i \\ \frac{\partial L}{\partial \beta} &= \sum_{i=1}^m \frac{\partial L}{\partial y_i} \\ \frac{\partial L}{\partial \hat{x}_i} &= \frac{\partial L}{\partial y_i}\cdot \gamma \\ \frac{\partial L}{\partial \sigma_{\mathcal{B}}^2} &= \sum_{i=1}^m \left(\frac{\partial L}{\partial \hat{x}_i} \cdot \frac{\partial \hat{x}_i}{\partial \sigma^2_{\mathcal{B}}}\right) \\ &= \sum_{i=1}^m \frac{\partial L}{\partial \hat{x}_i} \cdot (x_i - \mu_{\mathcal{B}})\cdot \left(-\frac{1}{2}\right)(\sigma^2_{\mathcal{B}} + \epsilon)^{-\frac{3}{2}} \\ \frac{\partial L}{\partial \mu_{\mathcal{B}}} &= \sum_{i=1}^m\left(\frac{\partial L}{\partial \hat{x}_i} \cdot \frac{\partial \hat{x}_i}{\partial \mu_{\mathcal{B}}}\right) + \frac{\partial L}{\partial \sigma^2_{\mathcal{B}}}\cdot \frac{\partial \sigma_{\mathcal{B}}^2}{\partial \mu_{\mathcal{B}}} \\ &= \left(\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i} \cdot \frac{-1}{\sqrt{\sigma^2_{\mathcal{B}} + \epsilon}}\right) + \frac{\partial L}{\partial \sigma^2_{\mathcal{B}}} \cdot \frac{1}{m}\sum_{i=1}^m-2(x_i-\mu_{\mathcal{B}}) \\ &= \sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i} \cdot \frac{-1}{\sqrt{\sigma^2_{\mathcal{B}} + \epsilon}}\ \ \ \ \left(\because \sum_{i=1}^m \mu_{\mathcal{B}} = m\cdot\frac{1}{m} \sum_{i=1}^mx_i = \sum_{i=1}^m x_i\right) \\ \frac{\partial L}{\partial x_i} &= \frac{\partial L}{\partial \hat{x}_i} \cdot \frac{\partial \hat{x}_i}{\partial x_i} + \frac{\partial L}{\partial \mu_{\mathcal{B}}}\cdot \frac{\partial \mu_{\mathcal{B}}}{\partial x_i} + \frac{\partial L}{\partial \sigma_{\mathcal{B}}^2}\cdot \frac{\partial \sigma_{\mathcal{B}}^2}{\partial x_i} \\ &= \frac{\partial L}{\partial \hat{x}_i} \cdot (\sigma^2 + \epsilon)^{-\frac{1}{2}} + \frac{\partial L}{\partial \mu_{\mathcal{B}}}\cdot\frac{1}{m} + \frac{\partial L}{\partial \sigma^2_{\mathcal{B}}} \cdot \frac{2}{m}(x_i-\mu_\mathcal{B}) \\ &= \frac{\partial L}{\partial \hat{x}_i} \cdot (\sigma^2 + \epsilon)^{-\frac{1}{2}} -\frac{1}{m}(\sigma^2_{\mathcal{B}} + \epsilon)^{-\frac{1}{2}}\left(\sum_{j=1}^m\frac{\partial L}{\partial \hat{x}_j}\right) -\frac{1}{m}(\sigma^2 + \epsilon)^{-\frac{1}{2}}\cdot \frac{x_i - \mu_{\mathcal{B}}}{\sqrt{\sigma^2_{\mathcal{B}} + \epsilon}} \cdot \sum_{j=1}^m 2\cdot\frac{\partial L}{\partial \hat{x}_j}\cdot(x_j-\mu_{\mathcal{B}}) \cdot \frac{1}{2} \cdot (\sigma^2 + \epsilon)^{-\frac{1}{2}} \\ &= \frac{\partial L}{\partial \hat{x}_i} \cdot (\sigma^2 + \epsilon)^{-\frac{1}{2}} -\frac{1}{m}(\sigma^2_{\mathcal{B}} + \epsilon)^{-\frac{1}{2}}\left(\sum_{j=1}^m\frac{\partial L}{\partial \hat{x}_j}\right) -\frac{1}{m}(\sigma^2 + \epsilon)^{-\frac{1}{2}}\cdot \hat{x}_i\cdot\left(\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_j}\cdot \hat{x}_j\right) \\ &= \frac{1}{m}(\sigma^2 + \epsilon)^{-\frac{1}{2}}\left(\frac{m\partial L}{\partial \hat{x}_i} - \sum_{j=1}^m\frac{\partial L}{\partial \hat{x}_j} - \hat{x}_i\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_j}\cdot\hat{x}_j\right) \end{aligned}$
也就是说，批归一化变换是可导的变换，即随着模型的训练过程，每一层所使用的输入都会努力减小内部共线性偏移，训练可以加速

真正应用时，是对激活前的值做批归一化。即对某些层，如果原来接收的是 $x$ ，现在改为接收 ${\rm BN}(x)$ 。推断时，按照道理来讲，所有需要被批归一化的激活值都应该使用整个数据集的均值和方差做归一化操作，但是计算整个数据集的统计量可能比较耗时，所以可以使用滑动均值来做（这块实际做法和原文所说的做法感觉有差异，以实际做法为准），即对每个小批量数据，以如下方法估计整个样本的期望 $\hat{ {\rm E}}[x]$ 和方差 $\widehat{ {\rm Var}}[x]$ ：
$\begin{aligned} \hat{ {\rm E}}[x] &\leftarrow \alpha \hat{ {\rm E}}[x] + (1-\alpha)\mu_{\mathcal{B}} \\ \widehat{ {\rm Var}}[x] &\leftarrow \alpha \widehat{ {\rm Var}}[x] + (1-\alpha)\sigma_{\mathcal{B}}^2 \\ \end{aligned}$
通常 $\alpha$ 取0.9，也被称为“动量”（momentum，与前面介绍的动量法梯度下降有点不谋而合）

此外，假设原来要激活的值是 $\boldsymbol{Wu} + \boldsymbol{b}$ ，由于批归一化的 $\beta$ 替代了 $\boldsymbol{b}$ 原来的作用，因此可以将偏置项略去。也就是原来的 $\boldsymbol{z} = g(\boldsymbol{Wu}+\boldsymbol{b})$ 被替换成 $\boldsymbol{z} = g({\rm BN}(\boldsymbol{Wu}))$ ，其中 $g$ 是激活函数。再次提醒这里 $\rm BN$ 是对每个特征维度做，学到的 $\gamma^{(k)}$ 和 $\beta^{(k)}$ 也是应用在各个特征维度上

需要注意的是，对于卷积神经网络，为了保证满足卷积操作的性质，需要对同一卷积核内的所有神经元做相同的归一化操作，因此对卷积核大小为 $\times q$ 的网络来说，此时小批量样本数的大小 $|\mathcal{B}| = mpq$ ， $\gamma^{(k)}$ 和 $\beta^{(k)}$ 也是适用于每个卷积核，而不是单独的神经元

使用批归一化的网络可以使用大一点的学习率训练，因为对标量 $a$ ，容易验证 ${\rm BN}(\boldsymbol{Wu}) = {\rm BN}((a\boldsymbol{W})\boldsymbol{u})$ ，因此
$\begin{aligned} \frac{\partial {\rm BN}((a\boldsymbol{W})\boldsymbol{u})}{\partial \boldsymbol{u}} &= \frac{\partial {\rm BN}(\boldsymbol{W}\boldsymbol{u})}{\partial \boldsymbol{u}} \\ \frac{\partial {\rm BN}((a\boldsymbol{W})\boldsymbol{u})}{\partial (a\boldsymbol{W})} &= \frac{1}{a} \cdot \frac{\partial {\rm BN}(\boldsymbol{W}\boldsymbol{u})}{\partial \boldsymbol{W}} \end{aligned}$
即学习率越大，梯度会越小，参数增长反而更稳定

此外，批归一化方法也是一种正则化的手段。简单地讲，可以看做是向样本中添加了噪声，因为每个隐藏单元都缩放了一个随机值 $\sigma_{\mathcal{B}}$ ，也减去了一个随机值 $\mu_\mathcal{B}$ （Ian Goodfellow的回答）。香港中文大学的研究者对其中原理做了更深入的分析，有兴趣的读者可以访问文章的OpenReview版本了解更多

使用与实现

TensorFlow为批归一化提供了若干种实现手段，包括

tf.nn.batch_normalization，是一个封装层级比较低的操作符。调用者需要自己手动处理mean和variance张量
tf.nn.fused_batch_norm，跟上一个操作符平级，针对CNN里常用到的四维输入张量做了优化
tf.contrib.layers.batch_norm，一个比较老的实现。传言TF2.0要舍弃掉contrib包，所以这个方法不建议用
tf.nn.batch_norm_with_global_normalization，也是要废弃的实现了
tf.layers.batch_normalization，是对第一个操作的高层封装，主要包括了以下几项支持：
- 会自己维护滑动均值和方差
- 会根据输入决定是否调用fused版本（也算是封装了tf.nn.fused_batch_norm）
- 支持virtual batch[Salimans2016b]。virtual batch主要在GAN上使用，为了解决每个批量数据里每个样本 $\boldsymbol{x}$ 都依赖于其它输入的问题
- 支持批量重归一化（batch renormalization）[Ioffe2017]。该方法主要是引入一个新的线性变换来逼近数据的真实分布，在批数据量小或数据来源非独立同分布时比较有效

推荐使用tf.layers.batch_normalization

真正使用时，批归一化通常在激活函数之前（如果是CNN，一般是在卷积之后，激活之前），示例代码如下

is_training = tf.placeholder(tf.bool)

with tf.name_scope('conv1'):
    conv1 = tf.layers.conv2d(
        inputs=input_layer, 
        filters=6, 
        kernel_size=[5, 5], 
        padding='same',
        activation=None
    )
    
    conv1_bn = tf.layers.batch_normalization(
        inputs=conv1,
        axis=-1,
        momentum=0.9,
        epsilon=0.001,
        center=True,
        scale=True,
        training=is_training,
        name='conv1_bn'
    )
    
    conv1_bn_relu = tf.nn.relu(conv1_bn)
    
    maxpool1 = tf.layers.max_pooling2d(
        inputs=conv1_bn_relu,
        pool_size=[2, 2],
        strides=2,
        padding='valid'
    )

需要注意的是，该方法内部维护的moving_mean和moving_variance（实际上底层是某个keras.layers.BatchNormalization类对象维护的成员变量）需要在训练时被更新，而更新操作符在tf.GraphKeys.UPDATE_OPS中，因此需要加到train_op的依赖里，并且在获取UPDATE_OPS集合之前加入batch_normalization这个操作符，即

conv1_bn = tf.layers.batch_normalization(...)

# ...

with tf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS)):
    train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

否则两个滑动统计量不会被正确更新

调用tf.layers.batch_normalization方法时，实际上是新建了一个tensorflow.python.layers.BatchNormalization类的对象，然后调用apply方法。该类有如下继承关系

apply方法由根节点祖先类提供，实际上调用了祖先类的__call__方法。该方法会依次调用keras.layers.BatchNormalization（以下简称keras_BN类）的build方法和call方法。其中前者主要是对传入参数做一些检查以及添加变量，真正处理逻辑都在call方法中，实现的伪代码如下（这里去掉了关于批量重归一化、virtual batch、fused BN等部分的细节）

from tensorflow.python.keras.utils import tf_utils
from tensorflow.python.ops import nn, state_ops


def _assign_moving_average(self, variable, value, momentum):
    # var = var - (var - val)(1 - a) => var = avar + (1 - a)val
    decay = 1. - momentum
    update_delta = (variable - value) * decay
    state_ops.assign_sub(variable, update_delta)
    
def call(self, inputs, training=None):
    if self.fused:
        return self._fused_batch_norm(inputs, training=training)
    ndims = len(inputs.get_shape())
    reduction_axes = [i for i in range(ndims) if i not in self.axis]
    
    # 这个判断条件比较坑，因为training实际上是三个可能值：True, False和None
    # 当training是一个”动态值“时，这里会得到None，所以不能简单写if not training
    if training is False:
        mean, var = self.moving_mean, self.moving_var
    else False:
        # 允许传入一个adjustment函数，将归一化的数据先做一个ax+b的仿射变换
        # 然后再做BN算法里的 gamma * x + beta
        # 意义不明
        if self.adjustment:
            do_extra_adjustment
        # 获得均值和方差
        keep_dims = self.virtual_batch_size is not None or len(self.axis) > 1
        mean, var = nn.moments(inputs, reduction_axes, keep_dims=keep_dims)
        moving_mean = self.moving_mean
        moving_var = self.moving_var
        
        mean = tf_utils.smart_cond(training, lambda: mean, lambda: moving_mean)
        var = tf.utils.smart_cond(training, lambda: var, lambda: moving_var)
        if self.virtual_batch_size is not None:
            # virtual batch related logic
            ...
        if self.renorm:
            # batch renormalization related logic
            ...
        mean_update = tf.utils.smart_cond(
            training,
            lambda: self._assign_moving_average(self.moving_mean, mean, self.momentum),
            lambda: self.moving_mean
        )
        var_update = tf.utils.smart_cond(
            training,
            lambda: self._assign_moving_average(self.moving_var, var, self.momentum),
            lambda: self.moving_var
        )
        if not eager_execution:
            self.add_update(mean_update, inputs=True)
            self.add_update(var_update, inputs=True)
            
    # offset和scale在do_extra_adjustment里被额外做了一些计算。
    # 如果没有adjustment这个步骤，可以认为 offset = self.beta, scale = self.gamma
    return nn.batch_normalization(inputs, mean, var, offset, scale, self.epsilon)

可以参考知乎问题怎样在tensorflow中使用batch normalization？中匿名用户的回答得到一个更简洁而且实际可用的批归一化实现

进一步探索

在NIPS2018上，有两篇文章更深入地探索了批归一化成功的原因。[Bjorck2018]首先提出使用原始SGD时，每批数据引入的噪声对神经网络正则化有正向帮助，而引入噪声的两种方法是减小每批数据的大小 $|\mathcal{B}|$ 或者增大学习率 $\alpha$ 。实验表明，使用批归一化训练的网络（文中主要是在CV领域对CNN进行验证）可以容忍更大的学习率，因此批归一化可以增强模型的泛化能力。具体说来，使用批归一化的网络在初始化阶段梯度的大小更集中在零点附近，比较均匀；而没有批归一化的网络有严重的长尾现象。而且对于后者，学习率越大，网络越难收敛（按照文章的定义，是两次训练之间损失值差了1000倍以上），其原因是随着网络的变深，深层节点的激活值变得很大，输出“爆炸了”

另外，不使用批归一化的网络在初始化以后的训练初始阶段，倾向于将所有输入统一标记成某个类别（显然通常会给出错误的类别），因此梯度通常都是正的，加起来就是一个巨大的值，而且对不同批次数据变化不大。也就是说，网络优化的过程更多是在矫正不好的初始化状态，而不是在学习。实验还显示，对于CNN而言，即便使用了Xavier初始化方法，如果不加批归一化，某些信道也容易发生梯度爆炸的现象，一个可能原因是Xavier初始化假设初始化之后各个信道权重的方差是常量，但是这个假设太弱了。批归一化极大程度上消除了随机初始化矩阵产生病态输出，导致梯度过大的现象，因此可以使用更大的学习率训练网络，引入更多噪声，从而提高网络的泛化能力

另一篇文章[Santurkar2018]的结果更加有颠覆性，该文在分析批归一化效果显著的原因时给出了一个与原始论文截然不同的观点，即批归一化的成功与原始论文所说的“消除了内部共变量偏移”毫无关系（下文为了简便，将“内部共变量偏移”简记为ICS）。为了证明这一点，作者在批归一化层后面加入了一些随机噪声，而且噪声来源的分布均值不为0，方差也不为1，分布还会在每个时间步过后改变。尽管这种做法使得每一层的输入不再满足批归一化算法所希望的输入的性质，但是实验结果表明这样训出的模型效果与不加扰动训出的模型效果类似，收敛速度也相近，这证明ICS与训练效果并不直接相关。进一步实验表明，批归一化实际上并没有减小ICS

那么为什么批归一化能取得成功呢？文章认为，其关键在于批归一化操作重参数化了底层的优化问题，使得问题表面显著光滑了很多。对于普通的深度神经网络，损失函数不仅非凸，而且有平原有峡谷，因此使用基于梯度的算法会不稳定，对学习率和初始化敏感。而经过批归一化后，梯度变得更加可靠，有更强的预测能力，因此向着梯度方向迈出更大一步（学习率变大）以后，接下来梯度的方向仍然是比较准确的估计。意外的是，批归一化能达到的效果，使用其他 $\ell_p$ 正则也可以做到，而 $\ell_1$ 可能还更好一些

扩展

批归一化算法提出以后，给很多研究人员带来了启发，各种试图对某些元素归一化的方法如雨后春笋般冒出。而且批归一化算法本身对RNN和对噪声敏感的网络（例如GAN）表现也不好，因此其他方法也可以弥补批归一化的这些缺点。以下是若干比较重要的方法，不过这里不会介绍太多细节

权重归一化

权重归一化（[Salimans2016a]）将着眼点放在了权重上，而不是神经元的输入。对于神经元 $\phi({\boldsymbol{w} \cdot \boldsymbol{x}} + b)$ ，权重归一化将权重 $\boldsymbol{w}$ 表示为
$\boldsymbol{w} = \frac{g}{\|\boldsymbol{v}\|}\boldsymbol{v}$
由于 $\boldsymbol{v}/\|\boldsymbol{v}\|$ 是单位向量，因此有 $\|\boldsymbol{w}\| = g$ 。这样，需要被优化的参数变成了 $\boldsymbol{v}$ 和 $g$ 两个。根据对梯度 $\nabla_{\boldsymbol{v}}L$ 的一种重写
$\nabla_{\boldsymbol{v}}L = \frac{g}{\|\boldsymbol{v}\|}M_{\boldsymbol{w}}\nabla_\boldsymbol{w}L,\ \ M_{\boldsymbol{w}} = \boldsymbol{I} - \frac{\boldsymbol{ww}^\mathsf{T}}{\|\boldsymbol{w}\|^2}$
可以看出权重归一化一方面对权重的梯度做了缩放，另一方面它将梯度投射到了与当前权重向量不一样的方向，最后会导致梯度可以自稳定自己的范数（但是不能使用自适应学习率的SGD，例如Adam），因此使用权重归一化可以使网络对学习率的选择有很强的鲁棒性（训练时可以使用更大的学习率）。此外，这种分解还有助于减小梯度方向的噪声，也可以加速学习。文章指出，权重归一化可以看作是一种计算量更小、噪声更少的对批归一化方法的近似，不依赖每个小批量输入数据，因此适用于RNN、LSTM和强化学习（强化学习对噪声敏感）。最后，权重归一化实现起来要容易一些。不过根据讨论，权重归一化容易在训练时不稳定，而且对输入数据有很强的依赖性

层归一化

对固定深度的前馈网络，使用批归一化方法可以分层分别存储统计信息。但是对RNN来说，输入序列的长度通常都是变化的，因此在不同的时间步需要存储不同的统计信息。层归一化方法（layer normalization）[Ba2016]做了一定的简化，通过隐藏层输入的加和来估计归一化统计信息，因此不再依赖于具体的训练数据，更加适用于RNN。层归一化方法是一种在NLP领域里用得比较多的归一化方法，考虑到篇幅限制和方法的重要性，这部分内容将放在RNN之后介绍

组归一化

批归一化的一大问题是，每批次参与训练的数据量 $|\mathcal{B}|$ 不能太少（经验值是不要少于32）。如果 $|\mathcal{B}|$ 特别小，比如极端情况下到达2，那么误差会特别大，得到的统计量特别不准，因此训大的视觉模型时比较吃力。FAIR的何恺明组在2018年提出了一种新的归一化方法——组归一化（group normalization）[Wu2018]来解决这个问题，主要创新是将信道划分成组，计算每组的均值和方差，来做归一化。由于这种划分方式独立于 $|\mathcal{B}|$ ，因此对任一批次大小的数据量都可用

文章首先对所有归一化问题给出了一个通用的描述形式，即它们都是对输入 $x_i$ 做变换
$\hat{x}_i = \frac{1}{\sigma_i}(x_i - \mu_i)$
对于二维图像， $i = (i_N, i_C, i_H, i_W)$ ，其中 $N$ 是每小批训练数据batch轴、 $C$ 是信道轴、 $H$ 是空间上的高度， $W$ 是空间上的宽度。 $\mu$ 和 $\sigma$ 分别是均值和标准差
$\begin{aligned} \mu_i &= \frac{1}{m}\sum_{k\in \mathcal{S}_i}x_k \\ \sigma_i &= \sqrt{\frac{1}{m}\sum_{k \in \mathcal{S}_i}(x_k - \mu_i)^2 + \epsilon} \end{aligned}$
归一化以后，对每个信道，要学习一个线性变换，来使得归一化后的点有缩放和移动能力，保持原始数据的表示性
$y_i = \gamma \hat{x}_i + \beta$
各种归一化方法主要是在使用哪些像素点 $\mathcal{S}_i$ 上有所不同：

批归一化方法是让同信道的所有点做归一化（即沿着 $(N, H, W)$ 轴做）
层归一化方法是让同批次的所有点做归一化（即沿着 $(C, H, W)$ 轴做）
实例归一化方法[Vedaldi2016]（instance normalization，主要用于风格迁移）是让同批次各信道内的点做归一化（即沿着 $(H, W)$ 轴做）
组归一化方法是将信道划分为 $G$ 个组（ $G$ 是超参数，默认为32），同组信道，同批次内的点做归一化。当 $G = 1$ 时，方法退化为层归一化，此时认为一层里所有信道贡献相同（不过由于卷积的存在，这个假设是不太成立的）。当 $G = C$ 时，方法退化为实例归一化，但是模型无法学习信道之间的依赖关系

下图（截取自原文）给出了四种归一化方法之间的关系

组归一化方法的TF实现也比较简洁

def group_norm(x, gamma, beta, g, eps=1e-5)
    # x: input featurs with shape [N, C, H, W]
    # gamma, beta: scale and offset, with shape [1, C, 1, 1]
    # g: number of groups for GN
    n, c, h, w = x.shape
    x = tf.reshape(x, [n, g, c // g, h, w])
    
    mean, var = tf.nn.moments(x, [2, 3, 4], keep_dims=True)
    x = (x - mean) / tf.sqrt(var + eps)
    
    x = tf.reshape(x, [n, c, h, w])
    return x * gamma + beta

组归一化背后的原理和一些视觉相关的内容有关，这里就不介绍了。有兴趣的话可以参阅原文

参考文献

花书第7章

[Sennrich2015] Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709.

[Wang2015] Wang, W. Y., & Yang, D. (2015). That’s So Annoying!!!: A Lexical and Frame-Semantic Embedding Based Data Augmentation Approach to Automatic Categorization of Annoying Behaviors using# petpeeve Tweets. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 2557-2563).

[Zhang2015] Zhang, X., & LeCun, Y. (2015). Text understanding from scratch. arXiv preprint arXiv:1502.01710.

[Junczys-Dowmunt2016] Junczys-Dowmunt, M., Dwojak, T., & Sennrich, R. (2016). The AMU-UEDIN submission to the WMT16 news translation task: Attention-based NMT models as feature functions in phrase-based SMT. arXiv preprint arXiv:1605.04809.

[Izmailov2018] Izmailov, P., Podoprikhin, D., Garipov, T., Vetrov, D., & Wilson, A. G. (2018). Averaging Weights Leads to Wider Optima and Better Generalization. arXiv preprint arXiv:1803.05407.

[Srivastava2014] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1), 1929-1958.

[Hara2016] Hara, K., Saitoh, D., & Shouno, H. (2016, September). Analysis of dropout learning regarded as ensemble learning. In International Conference on Artificial Neural Networks. Springer, Cham. (pp. 72-79)

[Ioffe2015] Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.

[Bjorck2018] Bjorck, J., Gomes, C., & Selman, B. (2018). Understanding Batch Normalization. In Proceedings of Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018 (NeurIPS) (pp. 7705-7716).

[Santurkar2018] Santurkar, S., Tsipras, D., Ilyas, A., & Madry, A. (2018). How Does Batch Normalization Help Optimization?. In Proceedings of Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018 (NeurIPS) (pp. 2488-2498).

What is right batch normalization function in TensorFlow

[Salimans2016a] Salimans, T., & Kingma, D. P. (2016). Weight normalization: A simple reparameterization to accelerate training of deep neural networks. In Advances in Neural Information Processing Systems 2016 (NeurIPS) (pp. 901-909).

[Ba2016] Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.

Pros and cons of weight normalization vs batch normalization

tf.layers.batch_normalization large test error

[Wu2018] Wu, Y., & He, K. (2018). Group normalization. arXiv preprint arXiv:1803.08494.

[Vedaldi2016] Vedaldi, V. L. D. U. A. (2016). Instance Normalization: The Missing Ingredient for Fast Stylization. arXiv preprint arXiv:1607.08022.

[Salimans2016b] Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved techniques for training gans. In Advances in Neural Information Processing Systems (NeurIPS) (pp. 2234-2242).

[Ioffe2017] Ioffe, S. (2017). Batch renormalization: Towards reducing minibatch dependence in batch-normalized models. In Advances in Neural Information Processing Systems (NeurIPS) (pp. 1945-1953).

你可能感兴趣的:(神经翻译笔记)

神经翻译笔记5. 序列到序列模型与注意力机制 TimsonShi 神经翻译笔记机器翻译注意力机制序列到序列模型
文章目录神经翻译笔记5.序列到序列模型与注意力机制机器翻译概论编码器-解码器结构集束搜索注意力机制结语其它参考文献备注神经翻译笔记5.序列到序列模型与注意力机制本系列笔记从2018年3月开始编写，虽然题名为“神经翻译笔记”，但是历经2年3个月，虽然偶尔提到一些神经翻译使用的方法（例如subword），却仍并未真正涉及机器翻译本身，颇有点“博士买驴”的感觉。不过从本章开始，终于要进入正题，聊一聊神经
神经翻译笔记5扩展d. PyTorch学习笔记 TimsonShi 神经翻译笔记 pytorch
文章目录神经翻译笔记5扩展d.PyTorch学习笔记PyTorch与张量自动微分简介示例进一步的数学解释示例2.“冷冻”某个子图以微调预训练模型使用PyTorch定义一个神经网络定义网络损失函数和参数更新常用的PyTorch包及其连携`torch.utils.data.Dataset``torch.utils.data.DataLoader``torch.optim``torch.nn`构造函数成
神经翻译笔记3扩展a. 深度学习的矩阵微积分基础 TimsonShi 神经翻译笔记矩阵微分
文章目录神经翻译笔记3扩展a.深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a.深度学习的矩阵微积分基础写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍
神经翻译笔记6. 卷积神经网络及其在机器翻译中的应用 TimsonShi 神经翻译笔记卷积神经网络机器翻译
文章目录神经翻译笔记6.卷积神经网络及其在机器翻译中的应用CNN的基本原理卷积卷积的定义CNN中的基本二维卷积操作对二维卷积操作的扩展二维卷积总结一维卷积为什么使用卷积池化典型CNN结构CNN在机器翻译中的应用ByteNetConvS2S卷积层多步注意力机制其它设计细节轻量与动态CNN轻量卷积带有CNN思想的RNNQuasiRNN基本结构变种参考文献神经翻译笔记6.卷积神经网络及其在机器翻译中的应
神经翻译笔记2. Log-linear语言模型 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2.Log-linear语言模型模型简介Softmax的计算问题模型示例学习模型参数损失函数使用随机梯度下降（SGD）进行优化损失函数对参数的偏导数神经翻译笔记2.Log-linear语言模型本章笔记基于[Neubig2017]第四章和NNMNLP第二章的一部分上一章提到的N元语法模型实际上就是基于计数和条件概率，而log-linear语言模型（或称对数-线性语言模型）使用了另
神经翻译笔记3扩展e第1部分. Word2Vec原理及若干关于词向量的扩展知识 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展e第1部分.Word2Vec原理及若干关于词向量的扩展知识Word2vec的参数学习连续词袋模型（CBOW）上下文仅有一个单词的情况隐藏层到输出层权重的更新输入层到隐藏层权重的更新上下文有多个单词的情况SkipGram模型优化计算效率分层softmax负采样Softmax的近似方法Softmax扩展法采样法ISNCENCE与其它采样法的关系如何生成好的词向量参考文献神经翻
神经翻译笔记3扩展d. 神经网络的泛化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展d.神经网络的泛化数据增强参数范数惩罚$L^2$正则化$L^1$正则化在TensorFlow中使用参数范数惩罚提前终止方法概览提前终止与$L^2$正则的关系集成方法集成方法概览参数平均Dropout原理实现与使用批归一化原理使用与实现进一步探索扩展权重归一化层归一化组归一化参考文献神经翻译笔记3扩展d.神经网络的泛化机器学习模型的正则化是一个老生常谈的问题，毕竟模型训练出
神经翻译笔记3扩展b. 自动微分 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展b.自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式（Forwardmode）二元数后向模式（Backwardmode）自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b.自动微分本文无
神经翻译笔记3扩展c. 神经网络的初始化 TimsonShi 神经翻译笔记
文章目录神经翻译笔记3扩展c.神经网络的初始化基本初始化方法LeCun初始化Xavier初始化（Glorot初始化）何恺明初始化（He初始化）前向视角反向视角不要使用常数初始化小结参考文献神经翻译笔记3扩展c.神经网络的初始化深度学习中，在具体网络结构之上，有三种应用广泛而且比较微妙的技术，分别是初始化，即如何恰当地初始化网络参数。不恰当的初始化方法甚至会使网络无法被训练，而好的初始化方法可以缩短
神经翻译笔记2扩展a. 损失函数 TimsonShi 神经翻译笔记
文章目录神经翻译笔记2扩展a.损失函数针对回归问题的损失函数均方误差函数平均绝对值误差函数Huberloss关于回归问题的损失函数小结针对分类问题的损失函数交叉熵损失函数概述Softmax交叉熵损失函数Sigmoid交叉熵损失函数铰链损失函数（hingeloss）均方误差函数关于分类问题的损失函数小结神经翻译笔记2扩展a.损失函数从最抽象的角度来讲，机器学习问题的求解过程就是提出一个损失函数来度量
神经翻译笔记4扩展d. 迁移学习概述与前BERT时代的NLP预训练模型 TimsonShi 神经翻译笔记
神经翻译笔记4扩展d.迁移学习概述与前BERT时代的NLP预训练模型迁移学习多任务学习（MTL）辅助任务为什么多任务学习能够有效顺序迁移学习终生学习（Lifelonglearning）领域适配基于表示的方法领域相似度数据加权和数据选择自标注技术前BERT时代的两种经典RNN预训练模型ULMFiTELMo讨论：微调还是不调，这是一个问题参考文献本节仍然是为了系列笔记的完整性而做，主要介绍迁移学习的概
神经翻译笔记4扩展c. 2017-2019年间RNN和RNN语言模型的新进展 TimsonShi 神经翻译笔记
文章目录神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展QuasiRNNFS-RNNSkipRNN高秩RNN语言模型MoSIndRNNON-LSTMMogrifierLSTM参考文献神经翻译笔记4扩展c.2017-2019年间RNN和RNN语言模型的新进展尽管在本文写作时（2020年4月），基于Transformer结构的预训练语言模型已经大杀四方，BERT都已经成为明日
神经翻译笔记4扩展b. RNN的正则化方法 TimsonShi 神经翻译笔记正则化 rnn
文章目录神经翻译笔记4扩展b.RNN的正则化方法层归一化对dropout的扩展集大成的方法：AWD-LSTM正则化方法不同形式的dropout变长的反向传播嵌入共享嵌入维度与隐藏层维度分离激活单元正则化与时序激活单元正则化优化方法其它技术与实验参考文献神经翻译笔记4扩展b.RNN的正则化方法本系列笔记前文介绍了若干神经网络常用的泛化方法，本文将延续这一话题，介绍若干适用于RNN的泛化/正则化方法层
神经翻译笔记4扩展a第二部分. RNN在TF2.0中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览文章目录神经翻译笔记4扩展a第二部分.RNN在TF2.0中的实现方法略览相关基类`tf.keras.layers.Layer``recurrent.DropoutRNNCellMixin`RNNCell相关`LSTMCell``PeepholeLSTMCell``StackedRNNCells``AbstractRNNCell`RNN
神经翻译笔记4扩展a第一部分. RNN在TF1.x中的实现方法略览 TimsonShi 神经翻译笔记
神经翻译笔记4扩展a第一部分.RNN在TF1.x中的实现方法略览RNNcell的实现`keras.layers.Layer``layers.Layer``nn.rnn_cell.RNNCell``LayerRNNCell``BasicRNNCell``GRUCell``BasicLSTMCell``LSTMCell``MultiRNNCell`RNN的实现静态机制动态机制参考文献本文主要讨论TF1
神经翻译笔记4. 循环神经网络（RNN） TimsonShi 神经翻译笔记
神经翻译笔记4.循环神经网络（RNN）普通RNN(VanillaRNN)RNN的反向传播事与愿违的RNN基于门控单元的RNN长短期记忆网络(LSTM)门控循环单元(GRU)双向的RNN与更深的RNN双向RNN堆叠RNN批量训练RNNRNN能解决的任务参考文献本文来自于如下来源[Neubig2017]第6节(主要来源，结构遵从此文)[Koehn2017]13.4.4、13.4.5、13.4.6三小节
神经翻译笔记3扩展e第2部分. Subword TimsonShi 神经翻译笔记
文章目录NMTTutorial3扩展e第2部分.Subword序言分词方法介绍BPE原理与算法使用Morfessor术语方法模型与损失函数似然先验训练与解码算法参数初始化全局维特比算法局部维特比算法递归算法似然权重与半监督学习fastText算法原理实现参考文献附录MAP估计HMM模型马尔可夫模型马尔可夫链隐马尔可夫模型求解似然问题：前向算法求解解码问题：维特比算法求解学习问题：前向-后向算法（B
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

神经翻译笔记3扩展d. 神经网络的泛化

文章目录

神经翻译笔记3扩展d. 神经网络的泛化

数据增强

参数范数惩罚

L 2 L^2 L2正则化

L 1 L^1 L1正则化

在TensorFlow中使用参数范数惩罚

提前终止

方法概览

提前终止与 L 2 L^2 L2正则的关系

集成方法

集成方法概览

参数平均

Dropout

原理

实现与使用

批归一化

原理

使用与实现

进一步探索

扩展

权重归一化

层归一化

组归一化

参考文献

你可能感兴趣的:(神经翻译笔记)

$L^2$ 正则化

$L^1$ 正则化

提前终止与 $L^2$ 正则的关系