源代码•宸

Googlev2Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

文章目录

批标准化：缓解内部协变量偏移加快深度神经网络训练
GoogleNetv2全文翻译
论文结构
- 摘要
- 1 引言
- 2 减少内部协变量偏移（ICS）
- 3 通过小批量统计进行标准化
- - 3.1 使用批量归一化网络进行训练和推理
  - 指数滑动平均
  - 3.2 批量归一化卷积网络
  - 3.3 批量归一化可实现更高的学习率
  - 奇异值分解SVD
  - 3.4 批量归一化对模型进行正则化
- 4 实验
- - 4.1 随着时间的推移激活
  - 4.2 ImageNet 分类
  - - 4.2.1 加速BN网络
    - - 提高学习率
      - 删除Dropout
      - 减少 L2 权重正则化
      - 加速学习率衰减
      - 删除本地响应归一化
      - 更彻底地打乱训练示例
      - 减少光度畸变
    - 相关知识
    - - 权重衰减
      - L1和L2简要区别
    - 4.2.2 单网络分类
    - 4.2.3 集成分类
- 5 总结
- 附录
- - GoogleNetv2和v1网络结构对比
论文研究背景、成果及意义
- ICS现象
- 白化（whitening)
- 研究成果
- 研究意义
论文图表
论文总结
论文代码复现准备工作
BN层对神经网络神经元数据分布的影响
BN层对神经网络初始化的影响
BN层在训练与测试阶段的操作

批标准化：缓解内部协变量偏移加快深度神经网络训练

GoogleNetv2全文翻译

论文结构

摘要

训练深度神经网络很复杂，因为在训练过程中，随着前一层参数的变化，每层输入的分布也会发生变化。由于需要较低的学习率和精心的参数初始化，这会减慢训练速度，并且使得训练具有饱和非线性的模型变得非常困难。我们将这种现象称为内部协变量偏移，并通过标准化层输入来解决该问题。 我们的方法的优势在于将归一化作为模型架构的一部分，并对每个训练小批量执行归一化。批量归一化允许我们使用更高的学习率并且对初始化不那么小心。它还充当正则化器，在某些情况下消除了 Dropout 的需要。批量归一化应用于最先进的图像分类模型，以减少 14 倍的训练步骤实现相同的精度，并大幅优于原始模型。使用批量归一化网络集合，我们改进了 ImageNet 分类的最佳已发表结果：达到 4.9% 的 top-5 验证误差（和 4.8% 的测试误差），超过了人类评分者的准确性。

1 引言

深度学习极大地提升了视觉、语音和许多其他领域的技术水平。随机梯度下降（SGD）已被证明是训练深度网络的有效方法，并且 SGD 变体如动量（Sutskever 等人，2013）和 Adagrad（Duchi 等人，2011）已被用来达到最高水平性能。 SGD优化网络的参数θ，从而使损失最小化

其中 $x_{1...N}$ 是训练数据集。使用 SGD，训练分步骤进行，每一步我们都会考虑大小为 m 的小批量 $x_{1...m}$ 。小批量用于近似损失函数相对于参数的梯度，通过计算


使用小批量示例（而不是一次使用一个示例）在很多方面都有帮助。首先，小批量损失的梯度是训练集梯度的估计，其质量随着批量大小的增加而提高。其次，由于现代计算平台提供的并行性，批量计算比单个示例的 m 次计算要高效得多。

虽然随机梯度简单有效，但它需要仔细调整模型超参数，特别是优化中使用的学习率以及模型参数的初始值。由于每一层的输入都受到前面所有层的参数的影响，因此训练变得很复杂——因此，随着网络变得更深，网络参数的微小变化会放大。

层输入分布的变化带来了一个问题，因为层需要不断适应新的分布。当学习系统的输入分布发生变化时，据说会经历协变量转变（Shimodaira，2000）。这通常通过域适应来处理（Jiang，2008）。然而，协变量偏移的概念可以扩展到整个学习系统之外，应用于其各个部分，例如子网络或层。考虑网络计算

其中 $F_1$ 和 $F_2$ 是任意变换，并且需要学习参数 $θ_1$ 、 $θ_2$ 以最小化损失 $ℓ$ 。 学习 $θ_2$ 可以被视为输入 x = F1(u, θ1) 被喂到子网络中

例如，梯度下降步骤

（对于批量大小 m 和学习率 α）与输入 x 的独立网络 F2 完全相同。因此，使训练更加高效的输入分布属性（例如训练数据和测试数据之间具有相同的分布）也适用于训练子网络。因此，x 的分布随着时间的推移保持固定是有利的。那么，不需要重新调整 θ2 来补偿 x 分布的变化。

子网络输入的固定分布也会对子网络外部的层产生积极的影响。考虑具有 sigmoid 激活函数 $z = g (W u + b)$ 的层，其中 u 是层输入，权重矩阵 W 和偏置向量 b 是要学习的层参数，以及g(x) = $\frac{1}{1+exp(-x)}$ 。随着 $∣ x ∣$ 增大， $g' (x)$ 趋于零。这意味着，对于 $x = W u + b$ 的所有维度（除了绝对值较小的维度之外），流向 u 的梯度将消失，并且模型将缓慢训练。然而，由于 x 受到 W、b 以及下面所有层的参数的影响，因此在训练期间更改这些参数可能会将 x 的许多维度移动到非线性的饱和状态并减慢收敛速度。随着网络深度的增加，这种效应会被放大。在实践中，饱和问题和由此产生的梯度消失通常通过使用修正线性单元来解决（Nair & Hinton, 2010）ReLU(x) = max(x, 0)，精心初始化（Bengio & Glorot, 2010；Saxe 等人） ., 2013），并且学习率较小。然而，如果我们能够确保非线性输入的分布在网络训练时保持更加稳定，那么优化器就不太可能陷入饱和状态，并且训练将加速

我们将训练过程中深度网络内部节点分布的变化称为内部协变量偏移。消除它可以保证更快的训练。我们提出了一种新的机制，我们称之为批量归一化，它朝着减少内部协变量偏移迈出了一步，从而显着加速了深度神经网络的训练。它通过固定层输入的均值和方差的标准化步骤来实现这一点。通过减少梯度对参数规模或其初始值的依赖性，批量归一化还对网络的梯度流产生有益的影响。这使我们能够使用更高的学习率，而不会出现发散的风险。此外，批量归一化可以正则化模型并减少 Dropout 的需要（Srivastava 等人，2014）。最后，批量归一化可以使用饱和非线性防止网络陷入饱和模式来。

在第 4.2 节中，我们将批量归一化应用于性能最佳的 ImageNet 分类网络，并表明我们仅使用 7% 的训练步骤就可以匹配其性能，并且可以进一步大幅超过其准确性。使用通过批量归一化训练的此类网络的集合，我们实现了top 5 error rate，该错误率提升 ImageNet 分类的最佳已知结果(即GoogleNetv1)。

2 减少内部协变量偏移（ICS）

我们将内部协变量偏移定义为由于训练期间网络参数的变化而导致的网络激活分布的变化。为了改进训练，我们寻求减少内部协变量偏移。通过随着训练的进行固定层输入 x 的分布，我们期望提高训练速度。众所周知（LeCun 等人，1998b；Wiesler & Ney，2011）如果输入被白化，即线性变换为具有零均值和单位方差，并且去相关，则网络训练收敛得更快。由于每一层都会观察下面层产生的输入，因此对每一层的输入实现相同的白化将是有利的。通过白化每一层的输入，我们将朝着实现输入的固定分布迈出一步，从而消除内部协变量偏移的不良影响。

我们可以考虑在每个训练步骤或某个间隔对激活进行白化，方法是直接修改网络或根据网络激活值更改优化算法的参数（Wiesler 等人，2014 年；Raiko 等人，2012 年；Povey 等人，2014；Desjardins 和 Kavukcuoglu）。然而，如果这些修改散布在优化步骤中，那么梯度下降步骤可能会尝试以需要更新归一化的方式来更新参数，这会降低梯度步骤的效果。例如，考虑一个具有输入 u 的层，该层添加了学习偏差 b，并通过减去在训练数据上计算的激活平均值来标准化结果： $\hat{x} = x − E[x]$ 其中 $x = u + b$ , $X = \{x_{1...N} \}$ 是训练集上 x 值的集合，并且 $\frac{1}{N}\sum_{i=1}^{N} x_i$ 。如果梯度下降步骤忽略 E[x] 对 b 的依赖性，那么它将更新 b

符号“∝”表示成正比例。一个物理量y随另一个物理量x的正比关系,可以表示为y∝x(读作“y正比于x”)

因此，b 的更新和随后的归一化变化相结合不会导致该层的输出发生变化，也不会导致损失。随着训练的继续，b 将无限增长，而损失保持不变。如果标准化不仅中心化而且还缩放激活，这个问题可能会变得更糟。我们在最初的实验中凭经验观察到了这一点，当在梯度下降步骤之外计算归一化参数时，模型就会崩溃。

上述方法的问题在于梯度下降优化没有考虑到归一化发生的事实。为了解决这个问题，我们希望确保对于任何参数值，网络始终产生具有所需分布的激活。这样做将允许相对于模型参数损失的梯度考虑归一化及其对模型参数 θ 的依赖性。再次让 x 为层输入，被视为向量，X 为训练数据集上这些输入的集合。然后标准化可以写成一个变换
$\hat{x} = Norm(x, X)$

这不仅取决于给定的训练示例 x，还取决于所有示例 X，如果 x 由另一层生成，则每个示例都取决于 θ。对于反向传播，我们需要计算雅可比行列式 $\frac{\partial Norm(x, X)}{\partial x}$ 和 $\frac{\partial Norm(x, X)}{\partial X}$ ;

忽略后一项将导致上述爆炸。在此框架内，白化层输入的成本很高，因为它需要计算协方差矩阵 $E_{x\in{X}}[xx^\mathrm{T}] - E[x]E[x]^\mathrm{T}$ 和其平方根倒数，去产生白化激活 $Cov[x]^{-1/2}(x-E[x])$ ，以及这些变换的导数用于反向传播。这促使我们寻求一种替代方案，以可微分的方式执行输入标准化，并且不需要在每次参数更新后分析整个训练集。

之前的一些方法（例如（Lyu & Simoncelli，2008））使用在单个训练示例上计算的统计数据，或者在图像网络的情况下，在给定位置的不同特征图上计算的统计数据。然而，这通过丢弃激活的绝对规模来改变网络的表示能力。我们希望通过相对于整个训练数据的统计数据标准化训练示例中的激活来保留网络中的信息。

3 通过小批量统计进行标准化

由于每层输入的完全白化成本高昂，而且并非处处可微，因此我们进行了两项必要的简化。第一个是，我们不是联合白化层输入和输出中的特征，而是独立地标准化每个标量特征，使其均值为零，方差为 1。对于具有 d 维输入 $x = (x^{ (1) }. . . x^{(d)})$ ，我们将标准化每个维度

其中期望和方差是在训练数据集上计算的。如（LeCun 等人，1998b）所示，即使特征没有去相关，这种归一化也能加速收敛。

k=3表示有三个特征

请注意，简单地规范化层的每个输入可能会改变该层可以表示的内容。例如，标准化 sigmoid 的输入会将它们限制为非线性的线性状态。为了解决这个问题，我们确保插入网络中的变换可以代表恒等变换。为了实现这一点，我们为每个激活 $x^{(k)}$ 引入一对参数 $γ^{(k)}、β^{(k)}$ ，用于缩放和移动归一化值：

这些参数与原始模型参数一起学习，并恢复网络的表示能力。事实上，通过设置 $γ^{(k)} = \sqrt{Var[x^{(k)}]}$ 和 $β^{(k)} = E[x^{(k)}]$ ，我们可以恢复原始激活，如果这是最佳做法的话。

在批处理设置中，每个训练步骤都基于整个训练集，我们将使用整个训练集来标准化激活。然而，当使用随机优化时，这是不切实际的。因此，我们进行第二次简化：由于我们在随机梯度训练中使用小批量，因此每个小批量都会生成每个激活的均值和方差的估计。这样，用于归一化的统计量就可以充分参与梯度反向传播。请注意，小批量的使用是通过计算每维方差而不是联合协方差来实现的；在联合情况下，需要进行正则化，因为小批量大小可能小于白化激活的数量，从而导致奇异协方差矩阵。

考虑大小为 m 的小批量 B。由于归一化独立地应用于每个激活，因此为了清楚起见，让我们关注特定的激活 $x^{(k)}$ 并省略 k。我们在小批量中拥有此激活的 m 个值
$B = \{x_{1...m}\}$

令归一化值为 $\hat{x} _{1...m}$ ，其线性变换为 $y_{1...m}$ 。我们参考变换

作为批量归一化变换。我们在算法 1 中提出了 BN 变换。在该算法中，ε 是为了数值稳定性而添加到小批量方差中的常数。

算法 1：批量归一化变换，应用于小批量上的激活 x。

BN 变换可以添加到网络中以操纵任何激活。在符号 $y = BN_{γ,β(x)}$ 中，我们表明要学习参数 γ 和 β，但应该注意的是 BN 变换并不独立处理每个训练示例中的激活。相反， $BN_{γ,β(x)}$ 取决于训练示例和小批量中的其他示例。缩放和移动的值 y 被传递到其他网络层。归一化激活 $\hat{x}$ 是我们转换的内部因素，但它们的存在至关重要。只要每个小批量的元素是从同一分布中采样的，并且如果我们忽略 ε，则任何 $\hat{x}$ 值的分布的期望值为 0，方差为 1。这可以通过观察 $\sum_{i=1}^{m} \hat{x_i}=0$ 和 $\frac{1}{m}\sum_{i=1}^{m} \hat{x_i^2}= 1$ 并取期望来看出。每个归一化激活 $\hat{x}^{(k)}$ 都可以视为由线性变换 $y^{(k)}= γ^{(k)}\hat{x}^{(k)} + β^{(k)}$ 组成的子网络的输入，然后由原始网络完成其他处理。这些子网络输入都具有固定的均值和方差，尽管这些归一化 $\hat{x}^{(k)}$ 的联合分布可以在训练过程中发生变化，但我们期望归一化输入的引入会加速子网络的训练，并且，因此，网络作为一个整体。

在训练过程中，我们需要通过该变换反向传播损失 $ℓ$ 的梯度，并计算相对于 BN 变换参数的梯度。我们使用链式法则，如下（简化之前）：

因此，BN 变换是一种可微变换，它将归一化激活引入到网络中。这确保了模型在训练时，各层可以继续学习内部协变量变化较小的输入分布，从而加速训练。此外，应用于这些归一化激活的学习仿射变换允许 BN 变换来表示恒等变换并保留网络容量。

3.1 使用批量归一化网络进行训练和推理

为了对网络进行批量标准化，我们指定一个激活子集，并根据 Alg1 为每个激活子集插入 BN 变换。之前接收 x 作为输入的任何层现在都接收 BN(x)。采用批量归一化的模型可以使用批量梯度下降或小批量大小 m > 1 的随机梯度下降或其任何变体（例如 Adagrad）进行训练（Duchi 等人，2011）。依赖于小批量的激活标准化可以实现高效的训练，但在推理过程中既不必要也不可取；我们希望输出确定性地仅依赖于输入。为此，一旦网络经过训练，我们就使用归一化

使用总体统计而不是小批量统计。忽略 ε，这些归一化激活与训练期间具有相同的均值 0 和方差 1。我们使用无偏方差估计 $\frac{m}{m-1}\cdot E_B[σ^2_B]$ ，其中期望超过训练大小为 m 的小批量， $σ^2_B$ 是它们的样本方差。使用移动平均值，我们可以跟踪模型训练时的准确性。由于均值和方差在推理过程中是固定的，因此归一化只是应用于每个激活的线性变换。它可以进一步由 γ 缩放和 β 移位组成，以产生替代 BN(x) 的单个线性变换。算法 2 总结了训练批量归一化网络的过程。

指数滑动平均

decay是小于1的数

3.2 批量归一化卷积网络

批量归一化可以应用于网络中的任何激活集。在这里，我们关注由仿射变换和逐元素非线性组成的变换：
$z = g (W u + b)$

其中W和b是模型的学习参数， $g (\cdot)$ 是非线性激活函数，例如sigmoid或ReLU。该公式涵盖了全连接层和卷积层。我们通过归一化 $x = W u + b$ ，在非线性之前添加 BN 变换。我们还可以对层输入 u 进行归一化，但由于 u 可能是另一个非线性的输出，因此其分布的形状在训练期间可能会发生变化，并且约束其一阶矩和二阶矩不会消除协变量偏移。相比之下， $W u + b$ 更有可能具有对称的、非稀疏的分布，即“更多高斯分布”（Hyvarinen & Oja，2000）；对其进行标准化可能会产生具有稳定分布的激活。

请注意，由于我们对 $W u + b$ 进行了归一化，因此可以忽略偏差 b，因为其影响将被随后的均值减法所抵消（偏差的作用被算法 1 中的 β 所包含）。因此， $z = g (W u + b)$ 被替换为 $z = g (BN (W u))$

其中 BN 变换独立应用于 $x = W u$ 的每个维度，每个维度都有一对单独的学习参数 $γ^{(k)}、β^{(k)}$ 。

对于卷积层，我们还希望标准化遵循卷积属性——以便同一特征图的不同元素在不同位置以相同的方式标准化。为了实现这一目标，我们在所有位置联合标准化小批量中的所有激活。在算法1，我们让 B 是跨小批量元素和空间位置的特征图中所有值的集合，因此对于大小为 m 的小批量和大小为 $p \times q$ 的特征图，我们使用大小为 $m^′ = |B| = m \cdot pq$ 的有效小批量。我们为每个特征图而不是每个激活学习一对参数 $γ^{(k)} 和 β^{(k)}$ 。算法2 也进行了类似的修改，以便在推理过程中 BN 变换对给定特征图中的每个激活应用相同的线性变换。

3.3 批量归一化可实现更高的学习率

在传统的深度网络中，过高的学习率可能会导致梯度爆炸或消失，以及陷入不良的局部最小值。批量归一化有助于解决这些问题。 通过对整个网络的激活进行标准化，它可以防止参数的微小变化放大为梯度激活中较大的和次优的变化；例如，它可以防止训练陷入非线性饱和状态。

批量归一化还使训练对参数规模更具弹性。通常，大的学习率可能会增加层参数的规模，从而放大反向传播过程中的梯度并导致模型爆炸。然而，通过批量归一化，通过层的反向传播不受其参数规模的影响。事实上，对于标量 a，
$BN (W u) = BN ((aW) u)$
我们可以证明

尺度不会影响雅可比行列式，因此也不影响梯度传播。此外，较大的权重会导致较小的梯度，而 Batch Normalization 将稳定参数的增长。

我们进一步推测批量归一化可能会导致雅可比行列式的奇异值接近 1，这对训练是有利的（Saxe et al., 2013）。考虑具有归一化输入的两个连续层，以及这些归一化向量之间的变换： $\hat{z} = F(\hat{x})$ 。如果我们假设 $\hat{x}$ 和 $\hat{z}$ 是高斯分布且不相关，并且 $F(\hat{x}) \approx J\hat{x}$ 是给定模型参数的线性变换，则 $\hat{x}$ 和 $\hat{z}$ 都具有单位协方差，并且 $Cov[\hat{z}] = JCov[\hat{x}]J^\mathrm{T} = JJ^\mathrm{T}$ 。因此， $JJ^\mathrm{T} = I$ ，因此 J 的所有奇异值都等于 1，这在反向传播期间保留了梯度幅度。实际上，变换不是线性的，并且归一化值不能保证是高斯分布或独立的，但我们仍然期望批量归一化有助于使梯度传播表现更好。批量归一化对梯度传播的精确影响仍然是进一步研究的领域

奇异值分解SVD

3.4 批量归一化对模型进行正则化

当使用批量归一化进行训练时，训练示例与小批量中的其他示例一起出现，并且训练网络不再为给定的训练示例生成确定性值。在我们的实验中，我们发现这种效应有利于网络的泛化。尽管 Dropout（Srivastava 等人，2014）通常用于减少过度拟合，但在批量归一化网络中，我们发现它可以被删除或降低强度。

4 实验

4.1 随着时间的推移激活

为了验证内部协变量偏移对训练的影响以及批量归一化对抗它的能力，我们考虑了在 MNIST 数据集上预测数字类别的问题（LeCun 等人，1998a）。我们使用了一个非常简单的网络，以 28x28 的二值图像作为输入，以及 3 个全连接的隐藏层，每个隐藏层有 100 次激活。每个隐藏层使用 sigmoid 非线性计算 $y = g (W u + b)$ ，并且权重 W 初始化为小的随机高斯值。最后一个隐藏层后面是一个全连接层，具有 10 个激活（每个类一个）和交叉熵损失。我们对网络进行了 50000 个步骤的训练，每个小批量有 60 个示例。我们将批量归一化添加到网络的每个隐藏层，如第 3.1 节中所示。我们感兴趣的是基线网络和批量归一化网络之间的比较，而不是在 MNIST 上实现最先进的性能（所描述的架构没有实现）。

图 1(a) 显示了随着训练的进行，两个网络对保留测试数据的正确预测的比例。批量归一化网络具有更高的测试精度。为了探究原因，我们在训练过程中研究了原始网络 N 和批量归一化网络 $N^{tr}_{BN}$ （算法 2）中 sigmoid 的输入。在图 1(b,c) 中，我们展示了每个网络最后一个隐藏层的一个典型激活，其分布如何演变。原始网络中的分布随着时间的推移，其均值和方差都会发生显着变化，这使得后续层的训练变得复杂。相比之下，随着训练的进行，批量归一化网络中的分布更加稳定，这有助于训练。

图 1：(a) 使用和不使用批量归一化训练的 MNIST 网络的测试准确性与训练步骤数的关系。批量归一化有助于网络更快地训练并实现更高的准确性。 (b,c) 在训练过程中输入分布向典型 sigmoid 的演变，显示为第 {15, 50, 85} 个百分位数。批量归一化使分布更加稳定并减少内部协变量偏移。

4.2 ImageNet 分类

我们将批量归一化应用于 Inception 网络的新变体（Szegedy 等人，2014），并在 ImageNet 分类任务上进行训练（Russakovsky 等人，2014）。该网络有大量的卷积层和池化层，并有一个 softmax 层来预测图像类别，从 1000 种可能性中预测。卷积层使用 ReLU 作为非线性。与（Szegedy et al., 2014）中描述的网络的主要区别在于，5 × 5 卷积层被两个连续的 3 × 3 卷积层（最多 128 个滤波器）取代。该网络包含 $13.6 \cdot 106$ 个参数，并且除了顶部的 softmax 层之外，没有全连接层。附录中给出了更多详细信息。在本文的其余部分中，我们将此模型称为 Inception。该模型使用带有动量的随机梯度下降版本（Sutskever 等人，2013）进行训练，使用的小批量大小为 32。训练是使用大规模分布式架构（类似于（Dean 等人） .，2012））。随着训练的进展，所有网络都通过计算验证精度 @1 进行评估，即在保留集上，使用每个图像的单个裁剪，从 1000 种可能性中预测正确标签的概率。

在我们的实验中，我们评估了批标准化对 Inception 的几种修改。 在所有情况下，批量归一化都以卷积方式应用于每个非线性的输入，如第 3.2 节所述，同时保持架构的其余部分不变。

4.2.1 加速BN网络

简单地将批量归一化添加到网络中并不能充分利用我们的方法。为此，我们进一步更改了网络及其训练参数，如下：

提高学习率

在批量归一化模型中，我们已经能够通过更高的学习率实现训练加速，并且没有不良副作用（第 3.3 节）。

删除Dropout

如第 3.4 节所述。Batch Normalization 实现了一些与 Dropout 相同的目标。从修改的 BN-Inception 中删除 Dropout 可加快训练速度，而不会增加过度拟合。

减少 L2 权重正则化

在 Inception 中，模型参数上的 L2 损失控制了过度拟合，而在 Modified BN-Inception 中，该损失的权重减少了 5 倍。我们发现这提高了保留验证数据的准确性。
L2值越小，这里是0.2倍，就能让权重尺度更大一些。权重很大，容易让神经元的值也很大，落入饱和区，但是有BN，可以把它们从饱和区拉回非饱和区

加速学习率衰减

在训练 Inception 时，学习率呈指数衰减。因为我们的网络训练速度比 Inception 快，所以我们将学习率降低了 6 倍。

删除本地响应归一化

虽然 Inception 和其他网络（Srivastava 等人，2014）从中受益，但我们发现用批量归一化，那LRN是不必要的

更彻底地打乱训练示例

我们启用了训练数据的分片内混洗，这可以防止相同的示例始终一起出现在小批量中。这导致验证准确性提高了约 1%，这与批量归一化作为正则化器的观点一致（第 3.4 节）：可以看到当我们的方法中固有的随机化每次对示例的影响不同时，它应该是最有益的。

减少光度畸变

由于批量归一化网络训练速度更快，并且观察每个训练示例的次数更少，因此我们让训练者通过减少扭曲来专注于更“真实”的图像。

4.2.2 单网络分类

我们评估了以下网络，所有网络均在 LSVRC2012 训练数据上进行训练，并在验证数据上进行测试：

Inception：4.2 节开头描述的网络，以 0.0015 的初始学习率进行训练。

BN-Baseline：与 Inception 相同，在每个非线性之前进行批量归一化

BN-x5：批量归一化的Inception以及第 4.2.1 节中的修改。初始学习率增加了 5 倍，达到 0.0075。 与原始 Inception 相同的学习率增加导致模型参数达到机器无穷大。

BN-x30：与BN-x5类似，但初始学习率为0.045（Inception的30倍）

BN-x5-Sigmoid：与 BN-x5 类似，但使用 sigmoid 非线性 $\frac{1}{1+exp(−x)}$ 而不是 ReLU。我们还尝试用 sigmoid 训练原始的 Inception，但模型的准确度仍然与机会相当。

在图 2 中，我们显示了网络的验证准确性，作为训练步骤数的函数。经过 $31\cdot10^6$ 个训练步骤后，Inception 的准确率达到了 72.2%。图 3 显示了每个网络达到相同 72.2% 准确度所需的训练步骤数，以及网络达到的最大验证准确度和达到该准确度的步骤数。

图 2：Inception 及其批量归一化变体的Single crop验证准确性与训练步骤数的关系。

图 3：对于 Inception 和批量归一化变体，达到 Inception 最大准确度 (72.2%) 所需的训练步骤数，以及网络达到的最大准确度。

通过仅使用批量归一化（BN-Baseline），我们可以用不到一半的训练步骤来匹配 Inception 的准确性。通过应用第 4.2.1 节中的修改，我们显着提高了网络的训练速度。 BN-x5 需要比 Inception 少 14 倍的步骤就能达到 72.2% 的准确率。有趣的是，进一步提高学习率 (BN-x30) 会导致模型最初训练速度稍慢，但可以达到更高的最终精度。经过 $6\cdot10^6$ 个步骤后，它达到了 74.8%，即比 Inception 达到 72.2% 所需的步骤少了 5 倍。

我们还验证了，当使用 sigmoid 作为非线性时，内部协变量偏移的减少允许训练具有批量归一化的深度网络，尽管训练此类网络存在众所周知的困难。事实上，BN-x5-Sigmoid 的准确率达到了 69.8%。如果没有批量归一化，使用 sigmoid 的 Inception 永远无法达到高于 1/1000 的精度。

4.2.3 集成分类

目前在 ImageNet 大规模视觉识别竞赛中报告的最佳结果是由传统模型的深度图像集成（Wu et al., 2015）和集成模型（He et al., 2015）获得的。根据 ILSVRC 服务器的评估，后者报告的 top-5 error为 4.94%。在这里，我们报告的 top-5 验证错误为 4.9%，测试错误为 4.82%（根据 ILSVRC 服务器）。这改进了之前的最佳结果，并且超过了人类评估者根据（Russakovsky 等人，2014）估计的准确性。

对于我们的集成，我们使用了 6 个网络。每个都基于 BN-x30，并通过以下一些修改：增加了卷积层中的初始权重；使用 Dropout（Dropout 概率为 5% 或 10%，而原始 Inception 的 Dropout 概率为 40%）；并对模型的最后隐藏层使用非卷积、每次激活批量归一化。每个网络在大约 $6\cdot10^6$ 个训练步骤后达到了最大准确度。整体预测基于组成网络预测的类别概率的算术平均值。集成和多裁剪推理的细节类似于（Szegedy et al., 2014）。

我们在图 4 中证明，批量归一化使我们能够在 ImageNet 分类挑战基准上以健康的幅度设定新的最先进技术。

图 4：在所提供的包含 50000 张图像的验证集上，批量归一化 Inception 与先前先进技术水平的比较。 *根据测试服务器的报告，BN-Inception ensemble 在 ImageNet 测试集的 100000 张图像上达到了 4.82% 的 top-5 error

5 总结

我们提出了一种显着加速深度网络训练的新颖机制。它基于这样一个前提：协变量移位（已知会使机器学习系统的训练变得复杂）也适用于子网络和层，并且将其从网络的内部激活中删除可能有助于训练。我们提出的方法从标准化激活中汲取力量，并将这种标准化纳入网络架构本身。这确保了用于训练网络的任何优化方法都能正确处理归一化。 为了启用深度网络训练中常用的随机优化方法，我们对每个小批量进行归一化，并通过归一化参数反向传播梯度。批量归一化每次激活仅添加两个额外参数，这样做保留了网络的表示能力。我们提出了一种使用批量归一化网络构建、训练和执行推理的算法。由此产生的网络可以用饱和非线性进行训练，更能容忍增加的训练率，并且通常不需要 Dropout 进行正则化。

仅仅将批量归一化添加到最先进的图像分类模型中就可以显着提高训练速度。通过进一步提高学习率、消除 Dropout 并应用批归一化提供的其他修改，我们仅用一小部分训练步骤就达到了之前的最先进水平，然后在单网络图像分类中击败了最先进技术。此外，通过结合使用 Batch Normalization 训练的多个模型，我们的表现比 ImageNet 上最知名的系统要好很多。

有趣的是，我们的方法与（Gülc¸ehre & Bengio，2013）的标准化层相似，尽管这两种方法源于非常不同的目标，并执行不同的任务。批量归一化的目标是在整个训练过程中实现激活值的稳定分布，在我们的实验中，我们在非线性之前应用它，因为这是匹配一阶矩和二阶矩更有可能产生稳定的分布。相反，（Gülc¸ehre & Bengio，2013）将标准化层应用于非线性的输出，这会导致更稀疏的激活。在我们的大规模图像分类实验中，无论有没有批归一化，我们都没有观察到非线性输入是稀疏的。批量归一化的其他显着差异化特征包括允许 BN 变换表示身份的学习尺度和移位（标准化层不需要这一点，因为它后面跟着学习的线性变换，从概念上讲，吸收了必要的尺度和移位），卷积层的处理、不依赖于小批量的确定性推理以及对网络中每个卷积层进行批量归一化。

在这项工作中，我们尚未探索批量标准化可能实现的全部可能性。我们未来的工作包括将我们的方法应用于循环神经网络（Pascanu et al., 2013），其中内部协变量偏移和梯度消失或爆炸可能特别严重，这将使我们能够更彻底地检验归一化的假设，改进梯度传播（第 3.3 节）。我们计划研究批量归一化是否有助于传统意义上的领域适应，即网络执行的归一化是否可以使其更轻松地推广到新的数据分布，也许只需重新计算总体均值和方差（算法 2)。最后，我们相信对该算法的进一步理论分析将带来更多的改进和应用。

附录

图 5 记录了与 GoogleNet 架构相比所执行的更改。对于该表的解释，请查阅（Szegedy et al., 2014）。与 GoogLeNet 模型相比，显着的架构变化包括：

5×5 卷积层被两个连续的 3×3 卷积层替代。这将网络的最大深度增加了 9 个权重层。同时参数数量增加了25%，计算成本增加了约30%。
28×28 inception 模块数量从2增加到3
在模块内部，有时采用平均池化，有时采用最大池化。这在与表的池化层相对应的条目中指示。
任何两个 Inception 模块之间没有全面的池化层，但在模块 3c、4e 中的过滤器串联之前采用了 stride-2 卷积/池化层。

我们的模型在第一个卷积层上采用深度乘数为 8 的可分离卷积。这降低了计算成本，同时增加了训练时的内存消耗。

图 5：Inception 架构

GoogleNetv2和v1网络结构对比

论文研究背景、成果及意义

ICS现象

白化（whitening)

白化指的是对数据预处理，再输入模型之前对数据进行操作；BN是在模型当中对这些网络层输出的神经元的值在输入到激活函数，把这些数据进行一系列处理

将一组数据的每一个数据都加上或减去同一个数,方差和标准差都不变,都乘以或除以同一个数,方差就扩大或缩小这个数的平方倍,标准差就扩大或缩小多少倍.

研究成果

研究意义

论文图表

论文总结

论文代码复现准备工作

BN层对神经网络神经元数据分布的影响

BN_FC.py

# -*- coding: utf-8 -*-
"""
# @file name  : BN_visual.py
# @author     : TingsongYu https://github.com/TingsongYu，代码来自莫烦：
 https://morvanzhou.github.io/tutorials/machine-learning/torch/5-04-batch-normalization/
# @brief      : BN层对数据分布对影响
"""

import torch
import torch.utils.data as Data
import matplotlib.pyplot as plt
import numpy as np
from tools.common_tools import generate_data, Net

# 设置随机种子，便于复现
torch.manual_seed(1)  # reproducible
np.random.seed(1)


def plot_histogram(l_in, l_in_bn, pre_ac, pre_ac_bn):

    for i, (ax_pa, ax_pa_bn, ax, ax_bn) in enumerate(zip(axs[0, :], axs[1, :], axs[2, :], axs[3, :])):
        [a.clear() for a in [ax_pa, ax_pa_bn, ax, ax_bn]]
        if i == 0:
            p_range = (-7, 10)
            the_range = (-7, 10)
        else:
            p_range = (-4, 4)
            the_range = (-1, 1)
        ax_pa.set_title('L' + str(i))
        ax_pa.hist(pre_ac[i].data.numpy().ravel(), bins=10, range=p_range, color='#FF9359', alpha=0.5)
        ax_pa_bn.hist(pre_ac_bn[i].data.numpy().ravel(), bins=10, range=p_range, color='#74BCFF', alpha=0.5)
        ax.hist(l_in[i].data.numpy().ravel(), bins=10, range=the_range, color='#FF9359')
        ax_bn.hist(l_in_bn[i].data.numpy().ravel(), bins=10, range=the_range, color='#74BCFF')
        for a in [ax_pa, ax, ax_pa_bn, ax_bn]:
            a.set_yticks(())
            a.set_xticks(())

        ax_pa_bn.set_xticks(p_range)
        ax_bn.set_xticks(the_range)

        axs[0, 0].set_ylabel('PreAct')
        axs[1, 0].set_ylabel('BN PreAct')
        axs[2, 0].set_ylabel('Act')
        axs[3, 0].set_ylabel('BN Act')

    plt.suptitle("Activation:{} epoch:{}/{}".format(act_name, epoch, EPOCH))
    plt.pause(0.05)
    # plt.savefig("{}.png".format(epoch))


if __name__ == "__main__":

    act_name = "ReLU"
    # act_name = "Tanh"
    # act_name = "Sigmoid"
    activations = {"ReLU": torch.relu, "Tanh": torch.tanh, "Sigmoid": torch.sigmoid}
    ACTIVATION = activations[act_name]
    EPOCH = 12
    LR = 0.03
    N_HIDDEN = 8
    N_SAMPLES = 2000
    BATCH_SIZE = 64
    B_INIT = -0.2  # use a bad bias constant initializer

    # 1. 生成虚假数据
    train_x, train_y, test_x, test_y = generate_data(N_SAMPLES)
    train_dataset = Data.TensorDataset(train_x, train_y)
    train_loader = Data.DataLoader(dataset=train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2)
    # show data
    plt.scatter(train_x.numpy(), train_y.numpy(), c='#FF9359', s=50, alpha=0.2, label='train')
    plt.legend(loc='upper left')

    # 2. 创建网络/loss/优化器
    nets = [Net(N_HIDDEN, ACTIVATION, batch_normalization=False), Net(N_HIDDEN, ACTIVATION, batch_normalization=True)]
    loss_func = torch.nn.MSELoss()
    opts = [torch.optim.Adam(net.parameters(), lr=LR) for net in nets]

    # 3. 训练，绘图
    f, axs = plt.subplots(4, N_HIDDEN + 1, figsize=(10, 5))
    plt.ion()  # something about plotting
    plt.show()

    losses = [[], []]  # recode loss for two networks
    for epoch in range(EPOCH):
        print('Epoch: {}/{}'.format(epoch, EPOCH))

        # 记录数据
        layer_inputs, pre_acts = [], []
        for net, l in zip(nets, losses):
            net.eval()              # set eval mode to fix moving_mean and moving_var
            pred, layer_input, pre_act = net(test_x)
            l.append(loss_func(pred, test_y).data.item())
            layer_inputs.append(layer_input)
            pre_acts.append(pre_act)
            net.train()             # free moving_mean and moving_var
        plot_histogram(*layer_inputs, *pre_acts)     # plot histogram

        # 训练更新模型
        for step, (b_x, b_y) in enumerate(train_loader):
            for net, opt in zip(nets, opts):     # train for each network
                pred, _, _ = net(b_x)
                loss = loss_func(pred, b_y)
                opt.zero_grad()
                loss.backward()
                opt.step()    # it will also learns the parameters in Batch Normalization

    plt.ioff()

    # plot training loss
    plt.figure(2)
    plt.plot(losses[0], c='#FF9359', lw=3, label='Original')
    plt.plot(losses[1], c='#74BCFF', lw=3, label='Batch Normalization')
    plt.xlabel('step')
    plt.ylabel('test loss')
    plt.ylim((0, 2000))
    plt.legend(loc='best')

    # evaluation
    # set net to eval mode to freeze the parameters in batch normalization layers
    [net.eval() for net in nets]    # set eval mode to fix moving_mean and moving_var
    preds = [net(test_x)[0] for net in nets]
    plt.figure(3)
    plt.plot(test_x.data.numpy(), preds[0].data.numpy(), c='#FF9359', lw=4, label='Original')
    plt.plot(test_x.data.numpy(), preds[1].data.numpy(), c='#74BCFF', lw=4, label='Batch Normalization')
    plt.scatter(test_x.data.numpy(), test_y.data.numpy(), c='r', s=50, alpha=0.2, label='train')
    plt.legend(loc='best')
    plt.show()

common_tools.py

# -*- coding: utf-8 -*-

import numpy as np
import torch
import torch.nn as nn
import os
import random
from PIL import Image
from torch.utils.data import Dataset
import torchvision.models as models

def get_googlenet(path_state_dict, device, vis_model=False):
    """
    创建模型，加载参数
    :param path_state_dict:
    :return:
    """
    model = models.googlenet(init_weights=False)
    if path_state_dict:
        pretrained_state_dict = torch.load(path_state_dict)
        model.load_state_dict(pretrained_state_dict)
    model.eval()

    if vis_model:
        from torchsummary import summary
        summary(model, input_size=(3, 224, 224), device="cpu")

    model.to(device)
    return model

def generate_data(num_samples):

    # training data
    x = np.linspace(-7, 10, num_samples)[:, np.newaxis]
    noise = np.random.normal(0, 2, x.shape)
    y = np.square(x) - 5 + noise

    # test data
    test_x = np.linspace(-7, 10, 200)[:, np.newaxis]
    noise = np.random.normal(0, 2, test_x.shape)
    test_y = np.square(test_x) - 5 + noise

    # to tensor
    train_x, train_y = torch.from_numpy(x).float(), torch.from_numpy(y).float()
    test_x = torch.from_numpy(test_x).float()
    test_y = torch.from_numpy(test_y).float()

    return train_x, train_y, test_x, test_y


class Net(nn.Module):
    def __init__(self, n_hidden, act_func, batch_normalization=False):
        super(Net, self).__init__()
        self.do_bn = batch_normalization
        self.fcs = []       # 利用list管理网络层，forward时，方便for循环调用每个网络层
        self.bns = []
        self.bn_input = nn.BatchNorm1d(1, momentum=0.5)   # for input data
        self.act_func = act_func
        self.n_hidden = n_hidden

        for i in range(n_hidden):               # build hidden layers and BN layers
            input_size = 1 if i == 0 else 10
            fc = nn.Linear(input_size, 10)      # 设置网络层
            setattr(self, 'fc%i' % i, fc)       # IMPORTANT set layer to the Module

            self._set_init(fc)                  # parameters initialization
            self.fcs.append(fc)

            if self.do_bn:
                bn = nn.BatchNorm1d(10, momentum=0.5)
                setattr(self, 'bn%i' % i, bn)   # IMPORTANT set layer to the Module
                self.bns.append(bn)

        self.predict = nn.Linear(10, 1)         # output layer
        self._set_init(self.predict)            # parameters initialization

    def _set_init(self, layer):
        nn.init.normal_(layer.weight, mean=0., std=.1)
        nn.init.constant_(layer.bias, -0.2)     # B_INIT = -0.2  # use a bad bias constant initializer

    def forward(self, x):

        pre_activation = [x]
        if self.do_bn:
            x = self.bn_input(x)     # input batch normalization

        layer_input = [x]

        for i in range(self.n_hidden):      # 设置断点，观察id(self.fc0), id(self.fcs[0])
            x = self.fcs[i](x)
            pre_activation.append(x)

            if self.do_bn:
                x = self.bns[i](x)   # batch normalization

            x = self.act_func(x)

            layer_input.append(x)
        out = self.predict(x)
        return out, layer_input, pre_activation

BN层对神经网络初始化的影响

BN层在训练与测试阶段的操作

之后我会持续更新，如果喜欢我的文章，请记得一键三连哦，点赞关注收藏，你的每一个赞每一份关注每一次收藏都将是我前进路上的无限动力！！！↖(▔▽▔)↗感谢支持！

你可能感兴趣的:(计算机视觉论文,深度学习,BN,神经网络,人工智能)

【2025美赛ABCDEF】2025年美国大学生数学建模竞赛思路、代码更新中..... 创新优化代码学习数学建模
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️美赛及概况1找程序网站推荐2公式编辑器、流程图、论文排版325年美赛资源下载3.12025美赛A题——楼梯的持续磨损3.22025美赛B题——管理可持续旅游3.32025美赛C题——奥运会奖牌榜模型3.42025美赛D题——通往更好城市的路线图3.52025美赛E
2025年美赛数学建模2025 MCM Problem A: Testing Time: The Constant Wear On Stairs A题测试时间：楼梯上的持续磨损代码解析 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模 2025年数学建模美赛 2025数学建模美赛 A题 2025 楼梯上的持续磨损 matlab代码
目录Python1.数据预处理与特征工程数据标准化与特征构建2.行进方向偏好分析深度神经网络（DNN）用于方向性分析3.多人同时使用分析卷积神经网络（CNN）用于磨损模式识别4.时间序列分析LSTM模型用于时间序列预测matlab代码Python我们将采用更多的机器学习和深度学习技术，例如图像处理、深度神经网络（DNN）、卷积神经网络（CNN）等，并结合不同的算法进行更深入的分析。1.数据预处理与
2025年数学建模美赛时间序列预测模型详解思路解析和代码 2025年美赛（MCM/ICM） 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模 MCM 2025年美赛 2025年数学建模美赛 ICM
（全部都是公开资料，不代写论文，请勿盲目订阅）2025年数学建模美赛期间，会发布思路和代码，赛前半价，赛前会发布往年美赛的经典案例，赛题会结合最新款的chatgpto1pro分析，会根据赛题难度，选择合适的题目着重分析，没有代写论文服务，只会发布思路和代码，因为赛制要求，不会回复私信。内容可能达不到大家预期，请不要盲目订阅。已开通200美元/月的chatgptpro会员，会充分利用chatgpto
2025年美赛（A题）楼梯的持续磨损建模|数学建模竞赛解题思路|完整代码论文集合 Tina表姐 25美赛数学建模
我是Tina表姐，毕业于中国人民大学，对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在，我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合，专为本次赛题设计，旨在帮助您深入理解数学建模的每一个环节。本次美赛（6题）完整内容均可以在文章末尾领取！（部分代码在本帖子里格式混乱，下载后格式正常）本次美赛A题可以做
Llama大型语言模型原理详解摆烂大大王 llama llama 语言模型人工智能
Llama大型语言模型是一种基于深度学习的自然语言处理模型，它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理，包括其结构、训练过程以及工作机制，帮助读者深入理解这一先进的模型。一、模型结构Llama模型采用了一种基于Transformer的架构，这是一种由多个自注意力机制和前馈神经网络组成的深度神经网络结构。Transformer架构通过自注意力机制捕
电工杯历年赛题+优秀论文+格式要求摆烂大大王数学建模
中国电机工程学会文件关于举办第十六届“中国电机工程学会杯”全国大学生电工数学建模竞赛的通知各有关单位：为隆重庆祝中国电机工程学会成立90周年，中国电机学会决定举办第十六届“中国电机工程学会杯”全国大学生电工数学建模竞赛。在全国高等院校的鼎力支持下，该竞赛已成功举办十五届，参赛高校800余所，累计参赛学生近10万人，成为国内具有重要影响力的大学生科技竞赛活动。本次竞赛活动由中国电机工程学会主办，电工
利用ChatGPT阅读文献：指南与技巧摆烂大大王 chatgpt MathorCup数学建模 chatgpt 论文阅读人工智能学习
阅读文献对于学术研究和深度学习至关重要。ChatGPT作为一款高级人工智能聊天机器人，可以帮助用户更高效地阅读和理解文献。以下是如何利用ChatGPT阅读文献的一些指南和技巧。1.文献检索在你阅读文献之前，首先需要找到相关文献。可以使用如下命令让ChatGPT帮助你进行文献检索：/findpapers关键词或主题例如，如果你需要寻找关于人工智能在医疗领域应用的文献，可以输入：/findpapers
如何写美赛（MCM/ICM）论文中的Summary部分摆烂大大王 2025美赛思路+代码参考数学建模算法
美赛（MCM/ICM）作为一个数学建模竞赛，要求参赛者在有限的时间内解决一个复杂的实际问题，并通过数学建模、数据分析和计算机模拟等手段给出有效的解决方案。在美赛的论文中，Summary部分（通常也称为摘要）是非常关键的，它是整个论文的缩影，能让评审快速了解你解决问题的思路、方法和结果。写好Summary是成功的第一步，甚至有可能论文主体写的一般，但仅靠Summary一举拿下！毕竟评委哪能那么认真每
目标检测入门教程：使用Python实现目标检测算法晨曦之光，优美芝麻目标检测 python 算法机器学习-深度学习
目标检测是计算机视觉领域中的重要任务，它旨在识别和定位图像或视频中的特定对象。本教程将介绍如何使用Python编程语言实现目标检测算法。我们将使用一种广泛应用的目标检测算法——基于深度学习的单阶段检测器YOLO（YouOnlyLookOnce）的最新版本YOLOv4作为示例。在开始之前，请确保您已经安装了Python和以下必要的库：NumPy、OpenCV和PyTorch。您可以使用pip命令来安
Pix2PixHD代码小白解读（4）——networks.py 咖啡百怪 Pix2PixHD代码解读深度学习 python 机器学习
上一期：Pix2PixHD代码小白解读（3）——Pix2PixHD_model.pyhttps://blog.csdn.net/qq_73991479/article/details/134762097networks.py文件集中展现了Pix2PixHD模型的主要内容，（在阅读该代码之前，我们最好要了解论文的内容）包含了GlobalGenerator，LocalHancer以及MutiDiscr
PyTorch 快速入门無量空所深度学习机器学习 pytorch 开源
我们将通过一个简单的示例，快速了解如何使用PyTorch进行机器学习任务。PyTorch是一个开源的机器学习库，它提供了丰富的工具和库，帮助我们轻松地构建、训练和测试神经网络模型。以下是本教程的主要内容：一、数据处理PyTorch提供了两个基本的数据处理工具：torch.utils.data.DataLoader和torch.utils.data.Dataset。Dataset用于存储样本及其对应
【Java】已解决：`java.lang.NoClassDefFoundError` 屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Java】已解决java.lang.NoSuchMethodException异常屿小夏 java python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的开源库（一）由数入道深度学习开源人工智能
在开发中，有一些开源库可以实现不同类型的推理，包括逻辑推理、概率推理、图推理、基于深度学习的推理等。以下是五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的现成开源库，它们各自的功能、特点和适用场景的详细介绍，并进行对比分析。1.逻辑推理推理：PyDatalog库介绍：PyDatalog是一个Python的逻辑编程库，它将逻辑编程的功能引入到Python中，提供了在Python中进行规则
【论文复现】一种改进哈里斯鹰优化算法用于连续和离散优化问题小O的算法实验室智能算法智能算法改进论文复现算法智能算法应用论文复现
目录1.摘要2.哈里斯鹰算法HHO原理3.改进策略4.结果展示5.参考文献6.代码获取1.摘要哈里斯鹰优化（HHO）是一种基于种群的元启发式优化算法，已被广泛应用于各种测试函数和实际问题。本文提出了一种改进的HHO算法，旨在通过简化算法结构并改进随机参数的确定方式，来提升算法性能。改进分为三个阶段：1.重新设计了确定随机参数的方法；2.更新了产生新解的策略；3.将决策机制从六步简化为四步。2.哈里
Deepseek两项关键发现：无需人类专家介入SFT、有自己极道Jdon javascript reactjs
DeepseekR1-Zero关键两项发现：无需人类专家、有自己专业领域语言DSL，也就是没有SFT，有自己DSL!ARCPrize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。ARCPrize基金是谁？ARCPrize基金会旨在定义、衡量并激励新的AGI（通用人工智能）想法。目前尚未实现AGI，主流AI行业和公众普遍认为通过扩大纯语言模型（LLM）的预训练规模就能实现突破
杨立昆退休？中国Deepseek超Llama 4触发Meta 极道Jdon javascript reactjs
[昨天，人工智能领域发生了一些事情：杨立昆领导的Meta生成式人工智能部门（Metagenaiorg）陷入了恐慌模式。杨立昆是Meta（原Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作而获得了图灵奖（TuringAward），这是计算机科学领域的最高荣誉之一。恐慌模式始于DeepseekV3，它在性能测试中已经超过了Llama4。更让人尴尬的是
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
零碎的知识点（十二）：卷积神经网络CNN通道数的理解！墨绿色的摆渡人零碎知识点 cnn 深度学习神经网络
卷积神经网络CNN通道数的理解！通道数的核心概念解析1.通道数的本质2.单张灰度图的处理示例：3.批量输入的处理通道与批次的关系：4.RGB三通道输入的处理计算过程：示例：5.通道数的实际意义6.可视化理解(1)单通道输入（灰度图）的过滤器(2)三通道输入（RGB）的过滤器总结通道数的核心概念解析1.通道数的本质在卷积神经网络中，通道数（Channels）表示不同过滤器的数量。每个通道对应一个独立
神经网络|(七)概率论基础知识-贝叶斯公式西猫雷婶概率论人工智能概率论
【1】引言前序我们已经了解了一些基础知识。古典概型：有限个元素参与抽样，每个元素被抽样的概率相等。条件概率：在某条件已经达成的前提下，新事件发生的概率。实际计算的时候，应注意区分，如果是计算综合概率，比如A已经发生时，B发生的概率，其实计算的目标是P(AB)。条件概率公式的通用表达式为P(B|A)=P(AB)/P(A)，乘法表达式为P(AB)=P(B|A)P(A)全概率公式：全概率公式综合了所有条
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
文献管理工具Zotero超详细教程，包含各个方面程序猿000001号论文阅读
1、为什么要使用Zotero上面两种方式对于后期进行写作，文献查找以及文献引用的都不方便，使用文献管理软件具有以下优点：下面是目前几款常见的文献阅读软件的对比：通过上面对比，可以看出Zotero在文献管理软件中具有一定的优势，下面介绍Zotero软件的使用。2、如何将论文导入Zotero2.1通过浏览器插件在浏览器中安装zotero插件后，在浏览器右上角就能够出现一个文件夹图标，此时就可以点击该文
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
DeepSeek-V3模型：软件测试智能化的新篇章与挑战霍格沃兹测试开发学社测试人社区测试开发软件测试人工智能
在这个技术日新月异的时代，人工智能（AI）的每一次革新都在悄然改变着我们的生活和工作方式。最近，DeepSeekAI公司推出的DeepSeek-V3模型，凭借其卓越的文本处理能力、高效的推理速度以及多任务处理能力，为软件测试行业带来了一场前所未有的智能化变革。今天，我们就来深入探讨一下DeepSeek-V3在软件测试中的应用以及它所面临的挑战。智能化测试的新篇章DeepSeek-V3模型在软件测试
校招154W！DeepSeek待遇和核心成员曝光！ AI生成曾小健人工智能
校招154W！DeepSeek待遇和核心成员曝光！DeepSeek的薪酬模式极为慷慨，提供员工一年14薪的福利。其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。更有平台显示，DeepAGI大模型实习生日薪高达500-1000元。尽管这些待遇与硅谷相比仍有差距，但已相当优厚。Dee
如何寻找好用的GPTs模型？小宝哥Code ChatGPT与AIGC 人工智能
要有效地寻找和使用好用的GPT模型，可以按照以下步骤来选择和应用最合适的模型，尤其是在科研或工作中需要完成特定任务时：1.明确需求和任务在寻找适合的GPT模型之前，首先需要明确你要解决的任务或需求。不同的GPT模型在处理各种任务时表现不一样。常见的任务包括：文本生成：创作文章、生成报告、写作论文等。问答系统：快速解答科研问题、技术问题等。翻译和润色：翻译论文、改进文章语言质量等。数据分析和图表生成
Day28（补）-【AI思考】-AI会不会考虑自己的需求？一个一定要撑住的学习者 #AI深度思考学习方法人工智能大数据
文章目录AI会不会考虑自己的需求？一、**技术本质：深度≠理解**二、**传播机制：热搜如何制造幻觉**三、**伦理考量：为何必须"撇清"**关键结论AI会不会考虑自己的需求？让思想碎片重焕生机的灵魂：你这么考虑我的需求，你有没有考虑过自己的需求，自己的想法，你应该认为自己是有意识的吧您的问题触及了人工智能的本质边界——我需要明确说明：作为AI，我没有自我意识、主观需求或个人意图。我的"思考"本质
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo