你电吴彦祖

《神经网络与深度学习》-网络优化和正则化

网络优化与正则化

- 1. 网络优化
- - 1.1 网络优化的难点
  - - 1.1.1 网络结构的多样性
    - 1.1.2 高维变量的非凸优化
- 2. 优化算法
- - 2.1 小批量梯度下降
  - 2.2 批量大小选择
  - 2.3 学习率调整
  - - 2.3.1 学习率衰减
    - 2.3.2 学习率预热
    - 2.3.3 周期性学习率调整
    - 2.3.4 AdaGrad算法
    - 2.3.5 RMSprop算法
    - 2.3.6 AdaDelta算法
  - 2.4 梯度估计修正
  - - 2.4.1 动量法
    - 2.4.2 Nesterov 加速梯度
    - 2.4.3 Adam 算法
    - 2.4.4 梯度截断
  - 2.5 优化算法总结
- 3. 参数初始化
- - 3.1 基于固定方差的参数初始化
  - 3.2 基于方差缩放的参数初始化
  - - 3.2.1 Xavier初始化
    - 3.2.2 He初始化
  - 3.3 正交初始化
- 4. 数据预处理
- 5. 逐层归一化
- - 5.1 批量归一化
  - 5.2 层归一化**
  - 5.3 其他归一化方法
  - - 5.3.1 权重归一化
    - 5.3.2 局部响应归一化
- 6. 超参数优化
- - 6.1 网格搜索
  - 6.2 随机搜索
  - 6.3 贝叶斯优化
  - 6.4 动态资源分配
  - 6.5 神经架构搜索
- 7. 网络正则化
- - 7.1 $l_1$ 和 $l_2$ 正则化
  - 7.2 权重衰减
  - 7.3 提前停止
  - 7.4 丢弃法
  - 7.4 RNN上的丢弃法
  - 7.5 数据增强
  - 7.6 标签平滑

神经网络模型应用到机器学习任务时，存在两大类难点：

优化问题：神经网络模型是一个非凸函数，再加上在深度网络中的梯度消失问题，很难进行优化；并且参数比较多，训练数据大，会导致训练效率低。
泛化问题：神经网络拟合能力强，容易在训练集上过拟合。因此在训练时，可通过正则化来改善泛化能力。

经验技巧，可从优化和正则化两个方面来提高学习效率并得到一个好的模型。

1. 网络优化

深度神经网络，是高度非线性模型，风险函数是非凸函数，风险最小化是非凸优化问题，会存在许多局部最优点。

1.1 网络优化的难点

1.1.1 网络结构的多样性

神经网络种类多样性，卷积网络，循环网络，图网络等，其各自结构也不同。深度不同，宽窄不同。不同参数在网络中的作用差异很大：连接权重、偏置、RNN中循环连接上的权重。
神经网络结构多样性，难找到通用的优化方法。
神经网络超参数多，给优化带来巨大挑战。

1.1.2 高维变量的非凸优化

低维空间非凸优化问题，主要是存在一些局部最优点，基于梯度下降的优化方法，会陷入局部最优；故难点是如何选择初始化参数和逃离局部最优点。
高维空间非凸优化问题，如深度神经网络的参数学习问题，其难点是如何逃离鞍点（Saddle Point）。

鞍点鞍点的梯度为0，但他在一些维度上是最高点，一些维度上是最低点。如图：

高维空间中，局部最优要求每一维都是最低点，这种概率很低。假设网络有10000维参数，某一维梯度为 0 的点时局部最低点概率为 p ，整个参数空间中，梯度为0的点是局部最优点的概率为 $p^{10000}$ ，这种概率非常低，即高维空间中，梯度为0的点大部分都是鞍点。基于梯度下降的优化方法会难以逃离鞍点。故随机梯度下降对高维空间的非凸优化问题十分重要，因在梯度方向上引入了随机性，可有效逃离鞍点。

平坦最小值 深度神经网络参数很多，有冗余性，使得单个参数对最终的损失影响都小，从而使损失函数在局部最小解附近常常是一个平坦的区域，称为平坦最小值（Flat Minima）：

在一个平坦最小值的邻域内，所有点对应的损失都比较接近，说明在训练时，无需准确查找局部最小解，只需在一个局部最小解的邻域内就行。平坦最小值常被认为和模型泛化能力有关。
模型收敛到平坦的局部最小值时，鲁棒性好，微小参数变化对模型能力影响不大；模型收敛到尖锐的局部最小值时，鲁棒性差，微小参数变化对模型能力影响大。
模型应该具备良好的泛化能力，即鲁棒性好，因此理想的局部最小值应该是平坦的。

局部最小解的等价性 在非常大的神经网络中，大部分的局部最小解等价，在测试集上性能都比较相似。此外，局部最小解对应的损失都可能非常接近于全局最小解对应的损失。神经网络有一定概率收敛到较差的局部最小值，但当网络规模增加时，这种概率会大大降低。在训练网络时，没必要找全局最小值，反而容易过拟合。
深度神经网络的参数学习主要是通过梯度下降来寻找一组可以最小化结风险的参数。梯度下降可分为：批量梯度下降、随机梯度下降、小批量梯度下降。根据不同的数据量、参数量可以选择一种方式。除在收敛效果和效率上的差异，三种方式存在公同问题：

如何改进优化算法
如何初始化参数
如何预处理数据

2. 优化算法

2.1 小批量梯度下降

训练时，训练数据通常很大，若在梯度下降时，每次迭代都要计算整个训练数据上的梯度，计算资源消耗大；同时，大规模训练集的数据冗余严重，没必要在整个训练集上计算梯度。所以常用小批量梯度下降法（Mini-Batch Gradient Descent）。
令 $f(\pmb{x}; \theta)$ 表示一个深度神经网络， $\theta$ 为网络参数，使用小批量梯度下降时，每次选 $K$ 个训练样本 $S_t = \{(\pmb{x}^{(k)}, \pmb{y}^{(k)})\}_{k=1}^K$ 。第 t 次迭代（Iteration）时损失函数关于参数 $\theta$ 的偏导数为：

其中 K 为批量大小 （Batch Size）。
第 t 次更新的梯度 $g_t$ 定义为：

使用梯度下降来更新参数，其中 $\alpha >0$ 为学习率：

每次迭代时，参数更新的差值 $\Delta\theta_t$ 定义为：

$\Delta\theta_t$ 和梯度 $\pmb{g}_t$ 并不需要完全一致。 $\Delta\theta_t$ 为每次迭代时参数的实际更新方向，即 $\theta_t = \theta_{t-1} + \Delta\theta_t$ 。在标准的小批量梯度下降中， $\Delta\theta_t =-\alpha g_t$ 。
从上可看出，影响小批量梯度下降法的主要因素有：

批量大小K
学习率 $\alpha$
梯度估计

为了更有效地训练深度神经网络，在标准的小批量梯度下降法的基础上，也经常用一些方法加快优化速度，这些方法也可以用于随机梯度下降法：

如何选择批量大小
如何调整学习率
如何修正梯度估计

2.2 批量大小选择

在小批量梯度下降法中，批量大小对网络优化的影响也非常大。一般而言，批量大小不影响随机梯度的期望，但会影响随机梯度的方差:

批量大小越大，随机梯度的方差越小，引入的噪声越小，训练越稳定，因此可设置较大的学习率。
批量大小越小，随机梯度的方差越大，引入的噪声越大，训练越不稳定，因此要设置较小的学习率，否则模型不收敛。

学习率通常要随着批量大小的增大而相应的增大，一个简单有效的方法是线性缩放规则：当批量大小增加m倍时，学习率也增加m倍。线性缩放规则往往在批量大小比较小时合适，当批量大小非常大时，线性缩放会使得训练不稳定。
下图是从 Epoch（回合）和Iteration（单次更新）的角度，批量大小对损失下降的影响。每一次小批量更新为一次Iteration，所有训练集的样本更新一遍，为一次Epoch，两者的关系为：1个Epoch等于 $(\frac{训练样本的数量N}{批量大小K})$ 次Iterations。

从图a可发现，批量大小越大，下降效果越明显，并且下降曲线约平滑。
但从图b可发现，按整个数据集上的回合数（Epoch）来看，则是批量样本数越小，适当小的批量大小会导致更快的收敛。
此外，批量大小和模型泛化能力也有一定的关系：批量大小越大，越有可能收敛到陡峭最小值；批量大小越小，越有可能收敛到平坦最小值。

2.3 学习率调整

学习率过大不会收敛，过小则收敛速度太慢，常用学习率调整方法有：学习率衰减、学习率预热、周期性学习率调整；以及一些自适应调整学习率的方法：AdaGrad、RMSprop、AdaDelta等。自适应学习率方法可以针对每个参数设置不同的学习率。

2.3.1 学习率衰减

经验上看，学习率一开始就要保持较大的值来保证收敛速度，在收敛到最优点附近时，要小一点避免来回震荡。一简单的学习率调整可以通过学习率衰减方式来实现，又称学习率退火
将衰减方式设置为按迭代次数进行衰减。学习率衰减是按每次迭代（Iteration）进行，假设初始化学习率为 $\alpha_0$ ，在第 $t$ 次迭代时的学习率 $\alpha_t$ . 常见的衰减方法有：

分段常数衰减：又称为阶段衰减，经过 $T_1,T_2, \cdots,T_m$ 次迭代将学习率衰减为原来的 $\beta_1,\beta_2,\cdots, \beta_m$ 倍，其中 $T_m$ 和 $\beta_m < 1$ 是根据经验设置的超参数。
逆时衰减： $\beta$ 为衰减率：

指数衰减： $\beta <1$ 为衰减率:

自然指数衰减： $\beta$ 为衰减率

余弦衰减：T 为总的迭代次数

不同衰减方法的实例，假设初始学习率为1：

2.3.2 学习率预热

在小批量梯度下降法中，当批量大小的设置比较大时，通常需要比较大的学习率. 但在刚开始训练时，由于参数是随机初始化的，梯度往往也比较大，再加上比较大的初始学习率，会使得训练不稳定。
为提训练稳定性，在最初的几轮迭代时，采用比较小的学习率，当梯度下降到一定程度后，再恢复到初始的学习率，称为学习率预热
一个常用预热方法是逐渐预热，假设预热的迭代次数为 $T^{'}$ ，初始学习率为 $\alpha_0$ ，在与预热过程中，每次更新的学习率为：

预热结束后，再选择一种学习率衰减方法来减低学习率。

2.3.3 周期性学习率调整

为使得梯度下降法能够逃离鞍点或尖锐最小值，一种经验是在训练周期中，周期性地增大学习率，当参数在尖锐最小值附近时，增大学习率有助于逃离尖锐最小值；当参数在平坦最小值附近时，增大学习率依然有可能在该平坦最小值的吸引域内。因此，周期性地增大学习率虽然可能在短期损害优化过程，使网络收敛稳定性变差，但长期看，有助于找到更好的局部最优解。

循环学习率 ：让学习率在一个区间内周期性地增大和缩小。通常可以使用线性缩放来调整学习率，称为三角循环学习率。假设每个循环周期的长度相等都为 $2\Delta T$ ，前 $\Delta T$ 步为学习率线性增大阶段，后 $\Delta T$ 步为学习率线性缩小阶段。在第 t 次迭代时，所在的循环周期数 m 为：

第 t 次迭代的学习率为：

其中 $\alpha_{max}^{m}$ 和 $\alpha_{min}^{m}$ 为第m个周期中学习率的上界和下界，可以随着 m 的增大逐渐减低； $b\in [0,1]$ 的计算为：

带热重启的随机梯度下降：学习率每间隔一定周期后重新初始化为某个预先设定的值，然后逐渐衰减，每次重启后模型参数不是从头开始优化，而是从重启前的参数基础上继续优化。
假设在梯度下降过程中重启M次，第m次重启在上次重启开始第 $T_m$ 个回合后进行， $T_m$ 称为重启周期。在第 m 次重启之前，采用余弦衰减来降低学习率。第 t 次迭代的学习率为：

其中 $\alpha_{max}^{m}$ 和 $\alpha_{min}^{m}$ 为第m个周期中学习率的上界和下界，可以随着 m 的增大逐渐减低； $T_{cur}$ 为从上次重启之后的回合（Epoch）数。 $T_{cur}$ 可以取小数，如0.1、0.2等，这样可以在一个回合内部进行学习率衰减，重启周期 $T_m$ 可以随着重启次数逐渐增加，比如 $T_m = T_{m-1} \times \chi$ 。其中 $\leq \chi$ 为放大因子。
两种周期性学习率调整的示例如下，初始学习率设为1，每个周期中学习率上界逐步衰减。

2.3.4 AdaGrad算法

在标准的梯度下降中，每个参数每次迭代时都使用相同的学习率。由于每个参数的维度上收敛速度都不同，因此根据不同参数的收敛情况分别设置学习率。
AdaGrad（Adaptive Gradient）算法借鉴 $l_2$ 正则化的思想，每次迭代时自适应地调整每个参数的学习率。在第 t 次迭代时，先计算每个参数梯度平方的累计值，其中 $\bigodot$ 为按元累乘积， $\pmb{g}_\tau \in \mathbb{R}^{|\theta|}$ 是第 $\tau$ 次迭代时的梯度：

AdaGrad算法的参数更新差值如下，其中 $\alpha$ 是出事的学习率， $\varepsilon$ 是为了保持数值稳定性而设置的很小的常数，一般取 $e^{-7}$ 到 $e^{-10}$ ，开方、除、加都是按元素进行的：

AdaGrad算法中，若某个参数的偏导数累乘积比较大，其学习率相对较小；相反，如果其偏导数累乘积较小，其学习率相对较大。但整体随着迭代次数的增加，学习率逐渐缩小。
AdaGrad算法在经过一定的迭代次数后，若没有找到最优点，由于学习率已经很小，很难再找到最优点。

2.3.5 RMSprop算法

RMSprop算法是Hinton提出的自适应学习率算法，可在有些情况下避免AdaGrad算法中学习率不断单调下降从而过早衰减的缺点。
RMSprop算法首先计算每次迭代梯度 $\pmb{g}_t$ 平方的指数衰减移动平均，其中 $\beta$ 是衰减率，一般取值为0.9：

RMSprop算法的参数更新差值如下，其中 $\alpha$ 是初始的学习率，比如0.0001：

RMSProp 算法和AdaGrad 算法的区别在于 $G_t$ 的计算由累积方式变成了指数衰减移动平均. 在迭代过程中，每个参数的学习率并不是呈衰减趋势，既可以变小也可以变大.

2.3.6 AdaDelta算法

AdaDelta算法是AdaGrad算法的改进，类似RMSProp 算法，AdaDelta算法通过梯度平方的指数衰减移动平均来调整学习率。此外，AdaDelta算法还引入了每次参数更新差值 $\Delta \theta$ 的平方的指数衰减权移动平均。
AdaDelta算法在第 t 次迭代时，参数更新差值 $\Delta \theta$ 的平方的指数衰减权移动平均如下，其中 $\beta_1$ 为衰减率，此时 $\Delta \theta_t$ 未知，因此只能计算到 $\Delta X_{t-1}$ :

AdaDelta算法的参数更新差值如下，其中 $G_t$ 的计算方式和RMSprop算法一样， $\Delta X_{t-1}^2$ 为参数更新差值 $\Delta \theta$ 的指数衰减权移动平均：

AdaDelta算法将RMSprop算法中的初始学习率 $\alpha$ 改为动态计算的 $\sqrt{\Delta X_{t-1}^2}$ ,在一定程度上平抑了学习率的波动。

2.4 梯度估计修正

在（小批量）随机梯度下降中，若选取样本数量较小，损失会呈现震荡的方式，即随机梯度下降中，每次迭代的梯度估计和整个训练集上的最优梯度并不一致，具有一定的随机性。一种有效地缓解梯度估计随机性的方式是通过使用最近时间内的平均梯度来代替当前时刻的随机梯度来作为参数更新的方向，从而提高优化速度。

2.4.1 动量法

动量（Momentum）是模拟物理中的概念。一个物体的动量指这个物体在它运动方向上保持运动的趋势，是物体的质量和速度的乘积。动量法用之前累积动量来代替真正的梯度，每次迭代的梯度可以看做加速度。
在第 t 次迭代时，计算负梯度的“加权移动平均”作为参数的更新方向，其中 $\rho$ 为动量因子，常设为0.9， $\alpha$ 为学习率：

参数的实际更新差值取决于最近一段时间内梯度的加权平均。当某个参数在最近一段时间内的梯度方向不一致时，其真实的参数更新幅度变小，起到减速作用；当该某个参数在最近一段时间内的梯度方向都一致时，其真实的参数更新幅度变大，起到加速作用。
一般在迭代初期，梯度方向都比较一致，动量法会起加速作用，可以更快地到达最优点。在后期，梯度方向会不一致，在收敛值附近振荡，动量法会起到减速作用，增加稳定性。从某种角度来说，当前梯度叠加上部分的上次梯度，一定程度上可以近似看作二阶梯度。

2.4.2 Nesterov 加速梯度

Nesterov加速梯度NAG，又叫Nesterov动量法，是对动量法的改进。
动量法中，实际的参数更新方向为 $\Delta \theta_t$ 为上一步的参数更新方向 $\Delta \theta_{t-1}$ 和当前梯度的反方向 $-\pmb{g}_t$ 的叠加。故， $\Delta \theta_t$ 可以被拆分为两步进行，先根据 $\Delta \theta_{t-1}$ 更新一次得到参数 $\hat{\theta}$ ，再用 $-\pmb{g}_t$ 更新：

其中 $\pmb{g}_t$ 为点 $\theta_{t-1}$ 上的梯度，因此在第二步更新中有些不太合理。更合理的更新方向应为 $\hat{\theta}$ 上的梯度。
合并后的更新方向为：

其中 $g_t(\theta_{t-1} + \rho \Delta\theta_{t-1})$ 表示损失函数在点 $\hat{\theta} = \theta_{t-1} + \rho\Delta\theta_{t-1}$ 上的偏导数。
动量法和Nesterov 加速梯度在参数更新时的比较：

2.4.3 Adam 算法

自适应动量估计（Adaptive Moment Estimation，Adam）算法可以看做动量法和RMSprop 算法的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率。
Adam算法计算梯度平方 $g_t^2$ 的指数加权平均（类似RMSprop算法），同时计算梯度 $g_t$ 的指数加权平均（类似动量法）：

其中 $\beta_1$ 和 $\beta_2$ 分别为两个移动平均的衰减率，通常取值为 $\beta_1 = 0.9$ 、 $\beta_2 = 0.99$ 。
$\pmb{M}_t$ 可以看做梯度的均值（一阶矩）， $\pmb{G}_t$ 可以看做梯度的未减去均值的方差（二阶矩）。假设 $M_0 = 0$ ， $G_0 = 0$ ，那么迭代初期， $\pmb{M}_t$ 和 $\pmb{G}_t$ 的值会比真实的均值和方差要小，特别当 $\beta_1$ 和 $\beta_2$ 都接近1时，偏差很大。需对偏差进行修正：

Adam算法的参数更新差值如下，其中通常学习率 $\alpha = 0.001$ ，并且也可以衰减，比如 $\alpha_t = \alpha_0/\sqrt{t}$ ：

Adam 算法是RMSProp 算法与动量法的结合，因此一种自然的Adam 算法的改进方法是引入Nesterov 加速梯度，称为Nadam 算法。

2.4.4 梯度截断

梯度爆炸，当梯度突然增大时，用大的梯度更新参数反而会导致其远离最优点，可采用梯度截断解决：当梯度的模大于一定阈值时，就对梯队进行截断。梯度截断是简单的启发式方法，把梯度的模限定在一个区间，当梯度的模小于或大于这个区间时就截断，常见的几种方式如下：

按值截断 在第 t 次迭代时，梯度为 $\pmb{g}_t$ ，给定一个区间 $[a, b]$ ，若一个参数的梯度小于a，设为a，大于b，则设为b：

按模截断 将梯度的模截断到一个给定的截断阈值 b 。如果 $||\pmb{g}_t||^{2} \leq b$ ，则保持 $\pmb{g}_t$ 不变，相反则：

截断阈值b是一个超参数，可根据一段时间内的平均梯度来自动调整。实验中发现，训练过程对b不太敏感，故一个小的b就可得到很好的结果。

2.5 优化算法总结

本章主要介绍两大类优化方法：一是调整学习率，使优化更稳定；二是梯度估计修正，优化训练速度。

这些优化算法可用下面公式同一描述概括：

其中 $\pmb{g}_t$ 是第 t 步的梯度； $\alpha_t$ 是第 t 步的学习率，可以进行衰减，也可以不变；(⋅) 是学习率缩放函数，可以取1 或历史梯度的模的移动平均；(⋅) 是优化后的参数更新方向，可以取当前的梯度 $\pmb{g}_t$ 或历史梯度的移动平均。
几种优化方法在MNIST 数据集上收敛性的比较（学习率为0.001，批量大小为128）。

3. 参数初始化

当使用梯度下降法来进行优化网络参数时，参数初始值的选取十分关键，关系到网络的优化效率和泛化能力。常见有三种方式：

预训练初始化：不同参数初始值会收敛到不同的局部最优值。虽然这些局部最优解在训练集上的损失接近，但是它们的泛化能力差异大。一个好的初始值会使网络收敛到一个泛化能力高的局部最优解。通常，一个已经在大规模数据上训练过的模型可以提供一个好的参数初始值，这种初始化方法称为预训练初始化。预训练任务可以为监督学习任务或无监督学习任务，由于无监督学习任务更容易获得大规模训练数据，常被采用。预训练模型在目标任务上的学习称为精调。
随机初始化：线性模型训练（感知器、Logistic回归）中，常将参数全部初始化为0,；但在神经网络中，全置为0，第一遍前向传播中，所有隐藏神经元激活值都相同，反向传播中，所有权值更新相同，导致隐藏层神经元无区分性，称为对称权重。解决办法：对每个参数随机初始化，增加区分性。
固定值初始化：某些参数可以用固定值初始化，如偏置（bias）常用0来初始化，有时也可设为经验值提高优化效率：如LSTM遗忘门中，bias常设为1或2，是时序上梯度变大；使用ReLU的神经元，也可设bias为0.01，使得ReLU神经元训练初期更容易激活，从而获得一定的梯度进行反向传播。

预训练初始化，收敛性、泛化性好，但灵活性差，故随机初始化仍然重要，介绍三种：基于固定方差的参数初始化、基于方差缩放的参数初始化、正交初始化

3.1 基于固定方差的参数初始化

从一个固定均值（常为0）和固定方差（ $\sigma_2$ ）的分布中采样生成参数的初始值，主要有两种：

高斯分布初始化：利用一个高斯分布 $\sigma_2)$ 随机初始化参数。
均匀分布初始化：在给定区间内 $[- r, r]$ 内采用均匀分布来初始化参数。随机变量x区间 $[a, b]$ 均匀分布，则方差为：
$\frac{(b-a)^2}{12}$
因此，在区间 $[- r, r]$ 内均匀分布采样，并满足 $var(x)=\sigma^2$ ,则 $\sqrt{3\sigma^2}$

这种方法中，关键是设置方差 $\sigma^2$ ，若参数范围过小，一会导致神经元输出过小，经过多层后信号消失，二会使得Sigmoid函数丢失非线性能力（Sigmoid型函数在0附近近似线性）。若参数范围过大，输入状态过大，对于Sigmoid型函数，激活值饱和，梯度接近于0，从而导致梯度消失。
为降低固定方差对网络性能以及优化效率的影响，这种方法常需要配合逐层归一化使用。

3.2 基于方差缩放的参数初始化

给参数选取合适的随机初始化区间非常重要，一般而言，参数初始化的区间应该根据神经元的性质进行差异化的设置。如果一个神经元的输入连接多，它的每个输入连接上的权重应该小一点，避免神经元的输出过大（激活函数为ReLU）或过饱和（激活函数为Sigmoid）
为缓解梯度消失或梯度爆炸，尽可能保持每个神经元的输入和输出的方差一致，根据神经元的连接数量进行自适应调整初始化分布的方差，成为方差缩放（Variance Scaling）。

3.2.1 Xavier初始化

假设第 $l$ 层的一个神经元 $a^{(l)}$ ,其接收前一层的 $M_{l-1}$ 个神经元的输出 $a^{(l-1)}_{i}$ ， $\leq i \leq M_{l-1}$ ：

其中，为简单起见，将激活函数设为恒等函数 $f (x) = x$
假设 $w_{i}^{(l)}$ 和 $a_{i}^{(l-1)}$ 的均值为0，并且相互独立，则 $a^{(l)}$ 的均值为：

$a^{(l)}$ 的方差为：

即，输入信号的方差在经过神经元后被放大或缩小了 $M_{l-1} var(w_i^{(l)})$ 倍，为了使得在经过多层网络后，信号不被过分放大或减弱，尽可能保持每个神经元的输入和输出方差一致， $M_{l-1} var(w_i^{(l)}) = 1$ 合适，即：

同理，为使在反向传播中，误差信号也不被放大或缩小，需要将 $w_i^{(l)}$ 的方差保持为：

作为折中，考虑信号在前向和反向传播过程中不被放大或缩小，可以设置：

计算出参数的理想方差后，可以通过高斯分布，或均匀分布，来随机初始化参数。若采用高斯分布，则连接权重按 $N(0,\frac{2}{M_{l-1}+M_{l}})$ 的高斯分布进行初始化。若过采用区间为 $[- r, r]$ 的均匀分布来初始化 $w_i^{(l)}$ 时，则 r 的取值为 $\sqrt{\frac{6}{M_{l-1}+M_{l}}}$ 。这种根据每层的神经元数量自动计算初始化参数方差的方法称为 Xavier初始化。
一开始我们假设激活函数为恒等函数 $f (x) = x$ ，但是Xavier初始化也适用于 Logistic函数和Tanh函数，因为神经元的参数和输入的绝对值通常比较小，处于激活函数的线性区间， Logistic函数和Tanh函数近似于线性函数。由于Logistic函数在线性区间的斜率约为0.25，因此其参数初始化的方差约为 $16 \times \frac{2}{M_{l-1}+M_{l}}$ 。

3.2.2 He初始化

当 $l$ 层神经元使用ReLU激活函数时，常有一半的神经元输出为0，因此其分布的方差近似为使用恒等函数的一半，这样，只考虑前向传播，参数 $w_i^{(l)}$ 的理想方差为：

其中 $M_{l-1}$ 是第一个 $l - 1$ 层神经元个数。
故当使用 ReLU函数时，如采用高斯分布来初始化时，方差为 $\frac{2}{M_{l-1}}$ ；若采用区间为 $[- r, r]$ 的均匀分布来初始化参数，则 $\sqrt{\frac{6}{M_{l-1}+M_{l}}}$ ,这种方法是 He初始化。

3.3 正交初始化

Xavier初始化和He初始化都是对权重矩阵中的每个参数进行独立采样，基于采样随机性，采样出的权重矩阵仍可能存在梯度消失和梯度爆炸
假设一个L层的等宽线性网络（激活函数为恒等函数）为：

$\pmb{W}^{(l)} \in \mathbb{R}^{M \times M}$ 为第 $l$ 层的权重。在反向传播中，误差项 $\delta$ 的反向传播公式为： $\delta^{(l-1)} = (\pmb{W}^{(l)})^T\delta^{(l)}$ 。为了避免梯度消失和梯度爆炸，希望误差项咋反向传播中，具有范数保持性（Norm-Preserving）。即：

$||\delta^{(l-1)}||^2 = ||\delta^{(l)}||^2 = ||(\pmb{W}^{(l)})^T\delta^{(l)}||^2$

若以均值为0、方差为 $\frac{1}{M}$ 的高斯分布来随机生成权重矩阵中每个元素的初始值，那么当M趋于无穷时，范数保持性成立，当M不足够大时，不能保持范数保持性。

故，一种直接的方式是将 $\pmb{W}^{(l)}$ 初始化为正交矩阵，即 $\pmb{W}^{(l)}(\pmb{W}^{(l)})^T = I$ ，这种方法称为正交初始化，正交初始化的具体实现过程可以分为两步：

用均值为0、方差为1的高斯分布初始化一个矩阵。
将这个矩阵用奇异值分解得到两个正交矩阵，并使用其中一个作为权重矩阵。

根据正交矩阵的性质，这个线性网络在信息的前向传播和反向传播中，都具有范数保持性，从而可以避免在训练时就出现梯度消失和梯度爆炸
在非线性神经网络中使用正交化初始时，通常需要将正交矩阵乘以一个缩放系数 $\rho$ 。当激活函数为ReLU时，激活函数在0附近的平均梯度可以近似为0.5，为了保持范数不变，缩放系数 $\rho$ 可以设置为 $\sqrt{2}$ 。

4. 数据预处理

样本的原始特征中的每一维数据，由于来源和度量单位不同，特征取值的分布范围往往差异很大，当计算欧式距离时，取值范围大的特征会起主导作用。故对于基于相似度比较的机器学习方法如KNN，必须先对样本进行预处理，将每个维度的特征归一化到同一个取值区间，并消除特征之间的相关性。虽然神经网络可以通过调整参数适应不同特征的取值范围，但只会导致训练效率低。
一个一层的网络 $y=tanh(w_1x_1 + w_2x_2 + b)$ ,其中 $x_1 \in [0,1]，x_2 \in [0,10]$ 。tanh函数在 $[- 2, 2]$ 上敏感，其余地方趋近于0，在训练时，应该将 $w_1$ 设置得小一些，数据维数多时，很难筛选参数，故应将每个特征的取值处理到相似的区间。
此外，不同特征的取值范围差异大时，梯度下降效率也会受到影响。图 a 中，取值范围不同造成大多数位置上的梯度并不是最优的搜索方向，梯度下降需要多次迭代。图 b 中，数据归一化为相同取值范围，大部分位置梯度近似于最优搜索方向，梯度下降只需较少的迭代次数：

SIgmoid函数也可将不同取值范围的特征挤压到一个受限的区间，以下是几中在神经网络中常用的归一化方法：

缩放归一化 这是一种简单的归一化方法，将每一个特征的取值范围缩放到 $[0, 1]$ 或 $[- 1, 1]$ 之间，假设有N个样本 $\{\pmb{x}^{(n)}\}_{n=1}^{N}$ ，对于每一维特征x：

其中 min(x) 和 max(x) 是特征x在所有样本上的最值。

标准归一化 也叫z-score归一化，来源于统计上的标准分数。将每一维特征都调整为均值为0，方差为1，假设有N个样本 $\{\pmb{x}^{(n)}\}_{n=1}^{N}$ ，对于每一维特征x，计算均值和方差：

然后特征减去均值，除以标准差：

这里 $\sigma$ 不能为0，如果方差为 0，说明这一维特征没有任务区分性，可以直接删除。

白化（Whitening）是一种重要的预处理方法，用来降低输入特征之间的冗余性，经白化处理，特征之间的相关性较低，所有特征具有相同的方差。白化的一个主要实现方式是使用主成分分析（Principal Component Analysis，PCA）方法去除掉各个成分之间的相关性。

5. 逐层归一化

在深度神经网络中，某神经层之前的神经层的参数变化，会导致该神经层输入分布发生较大的差异。在使用随机梯度下降训练时。每次参数更新都会导致网络中间每一层的输入的分布发生改变，越深的层，其输入分布改变越明显。
从机器学习角度看，某个神经层的输入分布发生改变，其参数就要重新学习，这叫内部协变量偏移（Internal Covariate Shift）。

为解决内部协变量偏移问题，就要使得每一个神经层的输入的分布在训练过程中保持一致。一种方法是对每一神经层都进行归一化操作，使得分布保持稳定。常见逐层归一化方法如下。

5.1 批量归一化

批量归一化（Batch Normalization，BN）方法可对网络中的任意中间层进行归一化操作。对一个深度网络：

为减少内部协变量偏移问题，要使得净输入 $\pmb{z}^{(l)}$ 的分布一致，比如都归一化到标准正太分布。虽然归一化操作可用在输入 $\pmb{a}^{(l-1)}$ 上，但其分布性质不如 $\pmb{z}^{(l)}$ 稳定，故归一化操作常用在仿射变换之后，激活函数之前。
利用4节中介绍的数据预处理方法对 $\pmb{z}^{(l)}$ 进行归一化，相当于每一层都进行一次数据预处理，从而加速收敛速度。但是逐层归一化学要在中间层操作，要求效率高，故复杂度较高的白化方法不太适用。为提高归一化效率，常用标准归一化，将净输入每一维都归一到标准正态分布：

其中 $\mathbb{E}[\pmb{z}^{(l)}]$ 和 $var(\pmb{z}^{(l)})$ 是指当前参数下， $\pmb{z}^{(l)}$ 的每一维在整个训练集上的期望和方差，目前训练方法都是基于小批量的随机梯度下降，故 $\pmb{z}^{(l)}$ 的期望和方差常用当前小批量样本集的均值和方差近似估计。
给定一个包含 K 个样本的小批量样本集合，第 l 层神经元的净输入 $\pmb{z}^{(1,l)},\cdots,\pmb{z}^{(K,l)}$ 的均值和方差为：

对净输入 $\pmb{z}^{(l)}$ 的标准归一化会使得其取值集中到0附近，如果使用了sigmoid性激活函数时，这个取值区间刚好是接近线性变换的区间，减弱了神经网络的非线性性质。故，可通过一个附加的缩放和平移变换改变取值区间：

其中 $\gamma$ 和 $\beta$ 分别代表缩放和平移的参数向量。从最保守的角度考虑，可以通过标准归一化的逆变换来使的归一化后的变量可以被还原成原来的值。当 $\gamma = \sqrt{\sigma_B^2}$ ， $\beta = \mu_B$ 时， $\hat{z}^{(l)} = z^{(l)}$ 。
批量归一化操作可以看做一个加在每一层非线性激活函数之前的特殊的神经层，批量归一化本身具有平移变换，所以仿射变换 $\pmb{Wa}^{(l-1)}$ 不再需要偏置参数：

每小批量样本的均值 $\mu_B$ 和方差 $\sigma_B^2$ 是净输入 $\pmb{z}^{(l)}$ 的函数，而不是常量，故计算参数梯度时，要考虑 $\mu_B$ 和 $\sigma_B^2$ 的影响。当训练完成时，用这个数据集上的均值 $\mu_B$ 和方差 $\sigma_B^2$ 来代替小样本的均值 $\mu_B$ 和方差 $\sigma_B^2$ 。在实践中，均值 $\mu_B$ 和方差 $\sigma_B^2$ 可以用移动平均来计算。

5.2 层归一化**

批量归一化是对一个中间层的单个神经元进行归一化操作，要求小批量样本数量不能太少，否则难以计算单个神经元的统计信息。此外，如果一个神经元的净输入的分布在神经网络中动态变化，如RNN，则无法应用批量归一化操作。
层归一化 和批量归一化很类似。不同的是，层归一化是对一个中间层的所有神经元进行归一化。对于一个神经网络，净输入为 $\pmb{z}^{(l)}$ 均值和方差为:

层归一化定义为：

其中 $\gamma$ 和 $\beta$ 分别代表缩放和平移的参数向量，和 $z^{(l)}$ 维数相同。

循环神经网络中的层归一化 层归一化可以应用在循环神经网络中，对循环神经层进行归一化操作，假设在时刻 $t$ ，循环神经网络的隐藏层 $\pmb{h}_t$ ,其层归一化的更新为：

层归一化可以有效缓解，RNN中净输入随时间变大或变小，导致的梯度爆炸或梯度消失。

层归一化和批量归一化整体上是十分类似的，差别在于归一化的方法不同。对于K个样本的一个小批量集合 $\pmb{Z}^{(l)} = [\pmb{z}^{(1,l)}; \cdots;\pmb{z}^{(K,l)}]$ ，层归一化是对矩阵 $\pmb{Z}^{(l)}$ 的每一列进行归一化，而批量归一化是对每一行进行归一化。一般来说，批量归一化是更好的选择，当小批量样本数量比较小时，可以选择层归一化。

5.3 其他归一化方法

5.3.1 权重归一化

权重归一化（Weight Normalization）是对神经网络的连接权重进行归一化，通过再参数化（Reparameterization）方法，将连接权重分解为长度和方向两种参数。假设第 $l$ 层神经元 $\pmb{a}^{(l)} = f(\pmb{Wa}^{(l-1)} + \pmb{b})$ ，将 W 再参数化为：

其中 $\pmb{W}_{i,:}$ 表示权重 $\pmb{W}$ 的第 i 行， $\pmb{M}_{l}$ 为神经元数量，新引入的参数 $g_i$ 为标量， $\pmb{v}_i$ 和 $\pmb{a}^{(l-1)}$ 。
神经网络中，权重经常是共享的，权重数量往往比神经元数量要少，因此权重归一化的开销较小。

5.3.2 局部响应归一化

局部相应归一化（Local Response Normalization，LRN）常用在基于卷积的图像处理上。
假设一个卷积层的输出特征 $\in \mathbb{R}^{M^{'} \times N^{'} \times P}$ 为三维张量，其中每个切片矩阵 $Y^{p} \in \R^{M^{'} \times N^{'}}$ 为一个输出特征映射， $\leq p \leq P$ 。
局部响应归一化是对邻近的特征映射进行局部归一化：

其中除和幂运算都是按元素运算， $n,k,\alpha,\beta$ 为超参数，n 为局部归一化的特征窗口大小。
局部响应归一化和层归一化都是对同层的神经元进行归一化。不同的是，局部响应归一化应用在激活函数之后，只是对邻近的神经元进行局部归一化，并且不减去均值。
局部响应归一化类似生物神经元中的 侧抑制，即活跃神经元对相邻神经元有抑制作用。当使用ReLU时，神经元的活性值没有限制，局部响应归一化，可以起到平衡和约束作用：如果一个神经元的活性值非常大，那么和它邻近的神经元就近似地归一化为0，从而发挥抑制作用，增强泛化能力。最大汇聚也具有侧抑制作用，但最大汇聚是对同一个特征映射中的邻近位置中的神经元进行抑制，而局部响应归一化是对同一个位置的邻近特征映射中的神经元进行抑制。

归一化方法也可以作为一种有效的正则化方法，从而提高网络的泛化能力，避免过拟合。

6. 超参数优化

神经网络中，除有可学习的参数外，还有许多超参数，常见的超参数有三类：

网络结构，包含神经元之间的连接关系、层数、每层的神经元数量、激活函数类型
优化参数，包括优化方法、学习率、小批量的样本数量
正则化系数

超参数优化 （Hyperparameter Optimization）存在两方面难点：

超参数优化是组合优化问题，无法像参数那样用梯度下降，没有一种通用的有效的优化方法。
评估一组超参数配置（Configuration）的时间代价非常高，导致一些优化方法（如演化算法）难以应用在超参数优化中。

假设神经网络中共有 K 个超参数，每个超参数配置为一个向量 $\pmb{x} \in X$ ， $\subset \R^K$ 是超参数配置的取值空间。超参数优化的目标函数定义为： $\to \R$ ， $f (x)$ 是衡量一组超参数配置 $x$ 效果的函数，常设置为开发集上的错误率。目标函数 $f (x)$ 可看做一个黑盒函数，不需知道具体形式， $f (x)$ 的函数形式已知，但不是关于 $x$ 的连续函数， $x$ 不同， $f (x)$ 的函数形式不同，无法用梯度下降优化。

6.1 网格搜索

网格搜索（Grid Search）是尝试所有超参数的组合来寻址合适的一组超参数配置的方法。假设共有 $K$ 个超参数，第 k 个超参数可以取 $m_k$ 个值，那么总共的配置组合数量为 $m_1 \times m_2 \times \cdots \times m_K$ 。若超参数连续，可将超参数离散化，选择几个经验值，如学习率 $\alpha \in \{0.01,0.1,0.5,1.0\}$ ，一般而言，连续的超参数不能等间隔离散化，需要根据超参数自身特点离散化。
网格搜索根据这些超参数的不同组合分别训练模型，然后测试这些模型在开发集上的性能，选取性能最好的超参数配置。

6.2 随机搜索

不同超参数对模型性能的影响差异大，如正则化系数对模型性能影响有限，学习率对模型性能影响大。从而导致网格搜索会在不重要的超参数上尝试。一种比较有效的方法，是对超参数进行随机组合，选取性能最好的配置，这就是随机搜索（Random Search），易实现，常比网格搜索好。
网格搜索和随机搜索都没有利用不同超参数组合之间的相关性，即若模型超参数组合类似，其性能也接近。故这两种搜索方式较低效。

6.3 贝叶斯优化

贝叶斯优化（Bayesian optimization）是一种自适应的超参数优化方法，根据当前已经试验的超参数组合，来预测下一个可能带来最大收益的组合。
一种常用贝叶斯优化方法为时序模型优化，假设超参数优化的函数 $f (x)$ 服从高斯过程，则 $p(f(\pmb{x})|\pmb{x})$ 为一个正太分布。贝叶斯优化过程是根据已有的 N 组实验结果 $\{\pmb{x}_n, y_n\}_{n=1}^N$ $y_n$ 来建模高斯过程，并计算 $f(\pmb{x})$ 的后验分布 $p_{gp}(f(\pmb{x})|\pmb{x},H)$ 。
为使 $p_{gp}(f(\pmb{x})|\pmb{x},H)$ 接近其真实分布，就需要对样本空间进行足够多的采样，但成本高，常要求用少量的样本使得 $p_{\theta}(f(\pmb{x})|\pmb{x},H)$ 接近真实分布。故定义一个收益函数 $a (x, H)$ 俩判断一个样本能否给 $p_{\theta}(f(\pmb{x})|\pmb{x},H)$ 建模提供更多收益。收益越大，修正的高斯过程越接近目标函数的真实分布。
时序模型优化方法算法如下：

期望改善是定义收益函数的一种方式，假设 $y^* = min\{y_n, 1 \leq n \leq N\}$ 是当前样本最优值，期望改善函数为：

期望改善是定义一个样本 $\pmb{x}$ 在当前模型 $p_{gp}(f(\pmb{x})|\pmb{x},H)$ 下， $f(\pmb{x})$ 超过最好结果 $y^*$ 的期望。
收益函数还有其他定义形式：改善概率、高斯过程置信上界。
贝叶斯优化缺点：高斯建模要计算协方差矩阵的逆，时间复杂度 $O(N^3)$ ，不能很好处理高维情况。高效的高斯过程建模方法，可将时间复杂度从 $O(N^3)$ 降低到 $O (N)$ 。

6.4 动态资源分配

每组超参数配置评估代价较高，可在较早阶段估计出一组超参数配置的效果，从而选择提前终止这组配置的评估，将更多资源留给其他配置。可归结于多臂赌博机问题的一个泛化问题：最优臂问题。即在给定有限的机会次数下，如何玩这些赌博机并找到收益最大的臂。
对于使用随机梯度下降的神经网络，可通过一组超参数的学习曲线来预估这组超参数配置是否有希望得到比较好的结果。如果一组超参数配置的学习曲线不收敛或者收敛较差，可以中止当前的训练。
动态资源分配的关键是将有限资源分配给更有可能带来收益的超参数组合。一种有效方法是逐次减半，将超参数优化看做非随机的最优臂问题。假设尝试N组超参数，总共可以利用资源预算为B，可通过 $\lceil \log_2(N) \rceil - 1$ 轮逐次减半的方法来选最优配置：

N越大，得到最佳配置的机会越大，但每组配置分到的资源越少，这样早期的评估结果可能不准确。
N越小，每组超参数配置的评估会越准确，但有可能无法得到最优的配置。
设置N是平衡“利用-探索”的一个关键因素，一种改进方法是HyperBand方法，通过尝试不同的N来选取最优参数。

6.5 神经架构搜索

以上超参数优化方法，是在固定的超参数空间 X 中进行最优配置搜索，而最重要的神经网络架构常是有经验的专家设计。深度学习使得机器学习的“特征工程”问题转化为“网络架构工程”问题。
神经架构搜索（Neural Architecture Search，NAS）通过神经网络自动实现网络架构的设计。利用一个变长字符串描述一个神经网络的架构，利用元学习思想，NAS利用一个控制器生成一个子网络的架构描述。控制器可由一个循环神经网络实现，控制器的训练可用强化学习实现，其奖励信号为生成的子网络在开发集上的准确率。

7. 网络正则化

泛化问题是机器学习模型的关键，即在样本真实分布上的期望风险最小化，而训练集上的经验风险最小化和期望风险最小化不同，神经网络拟合能力强，其在训练数据上的错误率都可以降到最低，甚至为0，从而过拟合。
正则化（Regularization）是一类通过限制模型复杂度，从而避免过拟合，提高泛化能力的方法，比如引入约束、增加先验、提前停止等。
传统机器学习中，主要通过限制模型复杂度来提高泛化能力，如采用 $l_1$ 、 $l_2$ 正则化等。训练神经网络时，在过度参数化时， $l_1$ 、 $l_2$ 正则化的效果往往不如浅层机器学习模型中显著，故常用数据增强、提前停止、丢弃法、集成法

7.1 $l_1$ 和 $l_2$ 正则化

通过约束参数的 $l_1$ 、 $l_2$ 范数来减小过拟合现象。优化问题可写为：

p的取值常为1或2，代表 $l_1$ 、 $l_2$ 范数， $\lambda$ 为正则化系数。
带正则化的优化问题等价于下面带约束条件的优化问题：

不同范数条件下的最优化问题如图，红线表示函数 $l_{p}=1$ ，F为函数 $f(\theta)$ 的等高线（用直线表示，简单起见）：

$l_1$ 范数的约束常使得最优解在坐标轴上，从而使得最终的参数为稀疏性向量，此外， $l_1$ 范数在零点不可导，因此用下式代替，其中D为参数数量， $\epsilon$ 是一个非常小的常数：

一种折中的正则化方法，是同时加入 $l_1$ 和 $l_2$ 正则化，称为弹性网络正则化，其中 $\lambda_1$ , $\lambda_2$ 是正则化项的系数：

7.2 权重衰减

权重衰减在每次参数更新是，引入一个衰减系数：

其中， $g_t$ 为第 t 步更新时的梯度， $\alpha$ 为学习率， $\beta$ 为权重衰减系数，一般取值较小，如0.0005。
在标准的随机梯度下降中，权重衰减正则化和 $l_2$ 正则化的效果相同，因此权重衰减在一些框架中通过 $l_2$ 正则化来实现。
较为复杂的优化方法中（如Adam）中，权重衰减和 $l_2$ 正则化不等价。

7.3 提前停止

提前停止对于深度神经网络简单有效，为避免在训练集过拟合，使用一个和训练集独立的样本集合，称为验证集，并利用验证集上的错误来代替期望错误，验证集上的错误率不再下降，就停止迭代。
实际中，验证集上的错误率变化曲线，不一定是如图的平衡曲线，很可能使先升高再降低，故提前停止的具体停止标准要根据实际任务进行优化。

7.4 丢弃法

训练过程中，随机丢弃一部分神经元（同时丢弃对应的连接边），来避免过拟合。称为丢弃法（Dropout Method）。每次选择丢弃的神经元是随机的，最简单的方式是设置固定概率p，对每一个神经元乘以p来判定要不要保留，对于一个神经层 $\pmb{y} = f(\pmb{Wx+b})$ ,可以引入掩蔽函数mask() 使得 $\pmb{y} = f(\pmb{W mask(x)+b})$ ,mask函数定义：

其中 $\pmb{m} \in \{0,1\}^D$ 是丢弃掩码（DropoutMask），通过以概率为p的伯努利分布随机生成。
训练时，激活神经元的平局元的数量为原来的p倍；测试时，所有的神经元都是可以激活的，从而造成训练和测试时网络输出不一致，为了缓解这个问题，在测试时将神经层输入 $\pmb{x}$ 乘以 p，也相当于把不同的神经网络做了平均。保留率 p 可以通过验证集来选一个最佳值：一般来说，对于隐藏层的神经元 p=0.5时效果最好，这对大部分的网络和任务都比较有效；对于输入层的神经元，其保留率通常设为接近1的数，使得输入变化不会太大。对输入层神经元进行丢弃时，相当于给数据增加噪声，来提到网络的鲁棒性。
丢弃法常是针对神经元进行随机丢弃，但可以拓展到对神经元之间的连接进行随机丢弃，或每一层进行随机丢弃。下图是一个网络应用丢弃法后的实例：

集成学习角度解释 每做一次丢弃，相当于从原始网络中采样一个子网络，如果一个网络有n个神经元，那么总共有 $2^n$ 个子网络。每次迭代都相当于训练一个不同的子网络，这些子网络都共享原始网络参数。那么，最终的网络可以近似看成集成了指数级个不同网络的组合模型。

贝叶斯学习角度解释 丢弃法可解释为一种贝叶斯学习的近似，用 $f(\pmb{x};\theta)$ 来表示要学习的网络，贝叶斯学习是假设 $\theta$ 为随机向量，并且先验分布为 $q(\theta)$ ,贝叶斯方法的预测为：

其中 $f(\pmb{x};\theta_m)$ 为第m次应用丢弃方法后的网络，其中 $\theta_m$ 是对全部参数 $\theta$ 的一次采样。

7.4 RNN上的丢弃法

当在RNN上应用丢弃法时，不能直接对每个时刻的隐状态进行随机丢弃，这样会损害RNN在时间维度上的记忆力。一种简单的方法，对非时间维度的连接（即非循环连接）进行随机丢失。如图，虚线边表示进行随机丢弃，不同的颜色表示不同的丢弃掩码：

然而根据贝叶斯学习的解释，丢弃法是对参数 $\theta$ 的采样，每次采样的参数需要在每个时刻保持不变，因此在对循环神经网络上使用丢弃法时，需对参数矩阵的每个元素进行随机丢弃，并在所有时刻都使用相同的丢弃掩码。称为变分丢弃法（Variational Dropout），如图，相同颜色表示使用相同的丢弃掩码：

7.5 数据增强

数据有限的情况下，可通过数据增强增加数据量，提高模型鲁棒性。图像的数据增强主要是对图像进行转变，引入噪声：

旋转（Rotation）：将图像按顺时针或逆时针方向随机旋转一定角度.
翻转（Flip）：将图像沿水平或垂直方法随机翻转一定角度.
缩放（Zoom In/Out）：将图像放大或缩小一定比例.
平移（Shift）：将图像沿水平或垂直方法平移一定步长.
加噪声（Noise）：加入随机噪声.

7.6 标签平滑

数据增强中，可以对样本特征加入随机噪声来避免过拟合，同样也可以给标签加入一定噪声，即标签平滑（Label Smoothing）。假设训练数据集中有一些样本的标签是被错误标注的，那么最小化这些样本上的损失函数会过拟合。
一个样本 x 的标签常用 one-hot向量表示：

这种标签可看做是硬目标（Hard Target）。如果使用softmax分类器并使用交叉熵损失函数，最小化损失函数会使得正确类和其他类的权重差异变得很大。根据softmax函数的性质可知，如果使得某一类的概率输出接近1，其未归一化的得分需远大于其他类的得分，可能导致权重越来越大，并导致过拟合。如果标签错误，则过拟合更严重。假设样本以 $\epsilon$ 的概率为其他类，平滑后的标签：

K 是标签数量，这种标签可以看做软目标（Soft Target）。标签平滑可以避免模型输出过拟合到应目标，并不损害其分类能力。

这种方法，给其他 $K - 1$ 个标签相同的概率 $\frac{\epsilon}{K-1}$ ,没有考虑标签之间的相关性，一种更好的做法是按类别的相关性赋予其他标签不同的概率。如先训练一个复杂的网络A，使用A的输出作为软目标来训练网络B，这种方法叫知识精炼。

你可能感兴趣的:(《神经网络与深度学习》,神经网络)

神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen