weixin_37958272

Cross-Iteration Batch Normalization

批量归一化的一个众所周知的问题是，在mini-batch的情况下，它的有效性大大降低。当一个mini-batch包含很少的例子时，在训练迭代中，无法可靠地估计归一化所依据的统计数据。为了解决这个问题，我们提出了Cross-Iteration Batch Normalization(CBN)，其中来自多个最近迭代的样本被共同利用以提高估计质量。在多个迭代中计算统计信息的一个挑战是，由于网络权重的变化，不同迭代的网络激活不能相互比较。因此，我们通过提出的基于泰勒多项式的技术对网络权重变化进行补偿，从而可以准确估计统计数据，有效地应用batch normalization。在small mini-batch sizes的目标检测和图像分类上，发现CBN的性能优于原来的批量归一化和在没有提出补偿技术的情况下直接计算之前迭代的统计数据。代码可在https://github.com/Howal/Cross-iterationBatchNorm。

1. Introduction

批量归一化（BN）（Ioffe & Szegedy，2015）在深度神经网络的成功中发挥了重要作用。它的引入是为了解决内部协方差的问题，即在训练迭代过程中，由于网络参数的更新，网络激活的分布会发生变化。这种转变通常被认为是对网络训练的破坏，而BN通过对网络激活的均值和方差进行归一化，在每次迭代时对mini-batch内的样本进行计算，从而缓解了这个问题。通过这种归一化，网络训练可以在更高的学习率下进行，并且对权重初始化不敏感。

在BN中，假设每个小批量内的样本的分布统计反映了整个训练集的统计。虽然这个假设一般对大批量规模是有效的，但在小批量规模的制度下，它被打破了（Peng等人，2018年；Wu & He，2018年；Ioffe，2017年），从小样本集计算出的嘈杂统计数据会导致性能的急剧下降。这个问题阻碍了BN在耗费内存的任务中的应用，如目标检测（Ren等，2015；Dai等，2017）、语义分割（Long等，2015；Chen等，2017）和动作识别（Wang等，2018b），由于内存限制，批量大小受到限制。

为了改善小批量规模下的统计估计，已经提出了替代的归一化器。其中一些包括层归一化（LN）（Baet al.，2016）、Instance Normalization（IN）（Ulyanov等人，2016）Group Normalization（GN）（Wu & He，2018），计算通道维度上的均值和方差，与批次大小无关。然而，不同的通道归一化技术，往往适用于不同的任务，这取决于所涉及的通道集。虽然GN是为检测任务设计的，但缓慢的推理速度限制了它的实际使用。另一方面，同步BN(SyncBN)(Peng等人，2018)通过在多个GPU上处理更大的批次规模，产生了一致的改进。这些性能的提升是以跨设备同步所需的额外开销为代价的。

一个很少被探索的方向是对最近多次训练迭代的样本进行计算，而不是像以前的技术那样只对当前迭代进行计算，以估计更好的统计数据。这可以极大地扩大获得均值和方差的数据池。但是，这种方法存在一个明显的缺点，即由于网络权重的变化，不同迭代的激活值之间没有可比性。如图1所示，直接计算多次迭代中的统计数据，我们称之为Naive CBN，其精度较低。

在本文中，我们提出了一种在迭代之间补偿网络权重变化的方法，从而可以有效地利用前面迭代的例子来提高批量归一化。我们的方法被称为CrossIteration Batch Normalization（CBN），其动机是由于观察到网络权重在连续的训练迭代之间会逐渐变化，而不是突然变化，这得益于随机梯度下降（SGD）的迭代性。因此，最近迭代的样本的均值和方差可以通过一个低阶泰勒多项式很好地近似于当前网络权重，定义在统计量相对于网络权重的梯度上。将最近多次迭代的compensated均值和方差与当前迭代的均值和方差进行平均，以产生更好的统计估计。

图1. Top-1分类精度与每次迭代的batch sizes。基础模型是在ImageNet（Russakovsky等人，2015）上训练的ResNet-18（He等人，2016）。当batch sizes减少时，BN（Ioffe & Szegedy，2015）的精度迅速下降。GN（Wu & He，2018）表现出稳定的性能，但在足够的批次大小上表现不及BN。CBN通过利用最近迭代中的近似统计数据来补偿每个GPU的batch sizes的减少(时间窗口大小表示最近迭代的统计数据被利用的次数).CBN在不同的批处理量上表现出相对稳定的性能。在不同的批处理规模下，CBN表现出相对稳定的性能，而直接从最近的迭代中计算统计数据而不进行补偿的Naive CBN则表现出了不好的效果。

在小批量规模的情况下，CBN比原来的BN有明显的性能提升，如图1所示。通过对ImageNet分类和COCO上的目标检测进行更广泛的实验，进一步证明了我们提出的方法的优越性.这些收益是在可以忽略不计的开销下获得的，因为之前迭代的统计数据已经被计算出来，而且泰勒多项式很容易计算。通过这项工作，表明batch normalization的线索可以成功地沿时间维度提取，开辟了一个新的研究方向。

2. Related Work

归一化在训练神经网络中的重要性已经被认识了几十年（LeCun等，1998）。一般来说，归一化可以对三个部分进行：输入数据、隐藏激活和网络参数。其中，输入数据归一化因其简单有效而被最常用（Sola& Sevilla，1997；LeCun等，1998）。在引入Batch Normalization（Ioffe & Szegedy，2015）之后，激活的归一化几乎变得非常普遍。通过对每个mini-batch的隐藏激活量按其统计量进行归一化，BN有效地缓解了消失梯度问题，显著加快了深度网络的训练速度。为了缓解BN的mini-batch的大小依赖性，人们提出了许多变体，包括层归一化（LN）（Ba等，2016）、实例归一化（IN）（Ulyanov等，2016）、组归一化（GN）（Wu & He，2018）和批实例归一化（BIN）（Nam & Kim，2018）。LN的动机是探索更适合序列模型的统计数据，而IN执行归一化的方式与BN类似，但只对每个实例进行统计。GN通过将特征沿信道维度划分为多个组，并计算每个组内的均值和方差进行归一化，实现了IN和LN的平衡。BIN引入了一种可学习的方法，在归一化和维护风格信息之间自动切换，在风格转移任务上同时享受BN和IN的优势。Cross-GPU批量归一化（CGBN或SyncBN）（Peng等，2018）将BN扩展到多个GPU上，以达到增加有效批量的目的。虽然提供了更高的准确性，但它为训练过程引入了同步开销。Kalman Normalization（KN）（Wang等人，2018a）提出了一种Kalman滤波程序，用于根据网络层的观测统计数据和前一层的计算统计信息来估计网络层的统计信息。

Batch Renormalization（BRN）（Ioffe，2017）是第一次尝试利用最近迭代的统计数据进行归一化。它并不是对最近迭代的统计数据进行补偿，而是对远期迭代的统计数据的重要性进行降权。然而，这种降权启发法并不能使得到的统计数据 “正确”，因为来自最近迭代的统计数据并不属于当前网络的权重。BRN可以看作是我们的Naive CBN基线的一个特殊版本（不含泰勒多项式逼近），其中远距离迭代被降权。

最近的工作也对网络参数的归一化进行了研究。在Weight Normalization(WN)(Salimans & Kingma，2016)中，通过将权重向量重新参数化为其长度和方向，来改善网络权重的优化。Weight Standar(WS)(Qiao等，2019)则是根据权重的第一时刻和第二时刻重新参数化，以达到平滑优化问题损失情况的目的。为了结合多种归一化技术的优势，Switchable Normalization（SN）（Luo等，2018）和Sparse Switchable Normalization（SSN）（Shao等，2019）利用可区分学习在不同的归一化方法之间切换。

所提出的CBN采用激活归一化的方法，旨在缓解BN的mini-batch赖性。与现有技术不同的是，它提供了一种在多个训练迭代中有效汇总统计数据的方法。

3. Method

3.1. Revisiting Batch Normalization

原始的batch normalization（BN）（Ioffe & Szegedy，2015）通过在一个mini-batch内计算的统计数据来改变每个层的激活。让 $\theta_t$ 和 $x_{t,i}(\theta_t)$ 代表网络权重和第t个mini-batch神经网络某层中第i个样本的特征响应。在这些值的基础上，BN进行以下归一化。

其中 $\hat x_{t,i}(\theta_t)$ 是均值为零、单位方差为零的whitened activation。 $\epsilon$ 是为数值稳定性增加一个小常数， $\mu_t(\theta_t)$ 和 $\sigma_t(\theta_t)$ 是对当前小批量的所有样本计算的均值和方差，即:

其中 $\mathcal v_t(\theta_t)=\frac{1}{m}\Sigma^m_{i=1}x_{t,i}(\theta_t)^2$ ，而m表示当前mini-batch中的样本数量。白化后的激活 $\hat x_{t,i}(\theta_t)$ 进一步进行可学习权重的线性变换，以提高其表现力。

其中， $\gamma$ 和 $\beta$ 为可学习参数（初始化为 $\gamma=1,\beta=0$ ）

当batch sizes m较小时，统计量 $\mu_t(\theta_t)$ 和 $\sigma_t(\theta_t)$ 成为训练集统计量的噪声估计，从而降低了批归一化的效果。在最初设计BN模块的ImageNet分类任务中，典型的批量大小为32。然而，对于其他需要更大模型和/或更高图像分辨率的任务，如目标检测、语义分割和视频识别，由于GPU内存的限制，典型的批次大小可能会小到1或2。在这种情况下，原始BN的效率就会大大降低。

3.2. Leveraging Statistics from Previous Iterations 利用以前迭代的统计数据

为了解决小的mini-batch的BN问题，一个天真的方法是计算当前和前一次迭代的平均值和方差。然而,统计数据 $\mu_{t-\tau}(\theta_{t-\tau})$ 和 $v_{t-\tau}(\theta_{t-\tau})$ 为第 $t-\tau$ 次迭代时通过网络权重 $\theta_{t-\tau}$ 计算的，使其在当前迭代中过时。因此，直接汇总多次迭代的统计数据会产生不准确的均值和方差估计，导致性能大大降低。

我们观察到，由于基于梯度训练的特性，网络权重在连续迭代之间平滑变化。这允许我们通过泰勒多项式从现成的 $\mu_{t-\tau}(\theta_{t-\tau})$ 和 $v_{t-\tau}(\theta_{t-\tau})$ 中进行近似 $\mu_{t-\tau}(\theta_{t})$ 和 $v_{t-\tau}(\theta_{t})$ ，例如：

其中 $\partial_{\mu_{t-\tau}}(\theta_{t-\tau})/\partial\theta_{t-\tau}$ 和 $\partial_{v_{t-\tau}}(\theta_{t-\tau})/\partial\theta_{t-\tau}$ 是统计量相对于网络权重的梯度， $\mathbf O(\parallel\theta_t-\theta_{t-\tau}\parallel^2)$ 表示泰勒多项式的高阶项，可以省略，因为当 $\theta_t-\theta_{t-\tau}$ 很小时，一阶项占主导地位。

在式(5)和式(6)中，梯度 $\partial_{\mu_{t-\tau}}(\theta_{t-\tau})/\partial\theta_{t-\tau}$ 和 $\partial_{v_{t-\tau}}(\theta_{t-\tau})/\partial\theta_{t-\tau}$ 不能以可忽略的成本精确确定，因为第l层网络层节点 $\mu^l_{t-\tau}(\theta_{t-\tau})$ 和 $v^l_{t-\tau}(\theta_{t-\tau})$ 取决于第l层之前的所有的网络权重，例如对$r\le l $，$ \partial\mu_{t-\tau}^{l(\theta_{t-\tau})/\partial\theta}r_{t-\tau}\ne0$ 和 $\partial v_{t-\tau}^l(\theta_{t-\tau})/\partial\theta^r_{t-\tau}\ne0$ ,其中 $\theta^r_{t-\tau}$ 代表第r层的网络权重。只有当r=l时，才能有效地得出这些梯度的封闭形式(Only when r = l can these gradients be derived in closed form efficiently.)。

经验上，我们发现随着层索引r的减小( $r\le l$ )，局部梯度(the partial gradients) $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲\mu_t^l(\theta_…$ 和 $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲ ̲v_t^l(\theta_t)…$ 迅速减少。浅层网络权值变化对深层激活分布的影响减弱，可能是BN内部协方差漂移(shift)减少的原因。基于这一现象（第4.4节中的研究），我们建议截断l层的这些局部梯度。

因此，我们进一步逼近式(5)和式(6)

A naive implementation of $\partial\mu_{t-\tau}^l(\theta_{t-\tau})/\partial\theta_{t-\tau}^l$ 和 $\partial v_{t-\tau}^l(\theta_{t-\tau})/\partial\theta_{t-\tau}^l$ 涉及的计算开销为 $O(C^l\times C^l\times C^{l-1}\times K)$ ，其中 $C^l$ 和 $C^{l-1}$ 表示第l层和第(l-1)层的通道维度，K代表 $\theta^l_{t-\tau}$ 的卷积核尺寸大小。在这里，我们发现该操作可以高效地在 $O(C^l\times C^{l-1}\times K)$ 复杂度内计算，多亏了 $\mu$ 和 $v$ 的特征响应的平均值。详见附件。

B. Efficient Implementation of

让 $C^l$ 和 $C^{l-1}$ 代表第l和l-1层的通道维度，K代表 $\theta^l_{t-\tau}$ 的卷积核大小, $\mu^l_{t-\tau}$ 和 $v^l_{t-\tau}$ 为 $C^l$ 维， $\theta^l_{t-\tau}$ 为 $C^l\times C^{l-1}\times K$ 维tensor。A naive implementation of $\partial\mu_{t-\tau}^l(\theta_{t-\tau})/\partial\theta_{t-\tau}^l$ 和 $\partial v_{t-\tau}^l(\theta_{t-\tau})/\partial\theta_{t-\tau}^l$ 涉及的计算开销为 $O(C^l\times C^l\times C^{l-1}\times K)$ 。这里我们发现 $\mu$ 和 $v$ 可以高效的在 $O(C^{l-1}\times K)$ 和 $O(C^l \times C^{l-1}\times K)$ 复杂度内实现，多亏了 $\mu$ 和 $v$ 的特征响应的平均值。在这里我们推导了 $\partial\mu_{t-\tau}^l(\theta_{t-\tau})/\partial\theta_{t-\tau}^l$ 的高效实现， $\partial v_{t-\tau}^l(\theta_{t-\tau})/\partial\theta_{t-\tau}^l$ 是相同的。让我们先简化一下符号。让 $\mu^l$ 和 $\theta^l$ 代表 $\mu^l_{t-\tau}\theta_{t-\tau}$ 和 $\theta^l_{t-\tau}$ 。正向传递中的element-wise计算可以计算为：

其中， $\mu_j^l$ 代表 $\mu^l$ 中的第j个通道， $x_{i,j}^l$ 代表第i个样本的第j个通道， $x_{i,j}^l$ 的计算公式为：

其中，n和k分别枚举输入特征维度和卷积核index，offset(k)表示应用第k核时的空间偏移量， $y^{l-1}$ 为(l - 1)层的输出。

3.3. Cross-Iteration Batch Normalization

在对网络权重变化进行补偿后，我们将最近k - 1次迭代的统计数据与当前迭代t的统计数据进行汇总，得到CBN中使用的统计数据。

其中 $\mu^l_{t-\tau}(\theta_t)$ 和 $v^l_{t-\tau}(\theta_t)$ 由式(7)和式(8)计算。在公式(10)中， $\overline v_{t,k}^l(\theta_t)$ 是由 $v^l_{t-\tau}(\theta_t)$ 和 $\mu_{t-\tau}^l(\theta_t)^2$ 在每次迭代中的最大值决定的，因为 $v^l_{t-\tau}(\theta_t) \ge\mu_{t-\tau}^l(\theta_t)^2$ 对于有效的统计量应该是成立的，但可能被式(7)和式(8)中的泰勒多项式近似所违反。最后， $\overline \mu_{t,k}^l(\theta_t)$ 和 $\overline \sigma_{t,k}^l(\theta_t)$ 用于对在当前迭代中相应的特征 $\{x_{t,i}^l(\theta_t)\}^m_{i=1}$ 响应进行归一化：

在CBN中，用于计算当前迭代统计的有效样本数量是原始BN的k倍。在训练中，损失梯度被反向传播到当前迭代时的网络权重和激活，即 $\theta^l_t$ 和 $x^l_{t,i}(\theta_t)$ 。前面那些迭代是固定的，不接收梯度。因此，CBN在反向传播中的计算成本与BN相同。用CBN取代网络中的BN模块，只会导致计算开销和内存占用的轻微增加。对于计算来说，额外的开销主要来自于计算p偏导数 $\partial\mu_{t-\tau}(\theta_{t-\tau})/\partial\theta^l_{t-\tau}$ 和 $\partial v_{t-\tau}(\theta_{t-\tau})/\partial\theta^l_{t-\tau}$ ,相对于整个网络的开销来说是微不足道的。对于内存，该模块需要访问最近k-1迭代计算的统计数据 $\{\mu^l_{t-\tau}(\theta_{t-\tau})\}^{k-1}_{\tau=1}$ 和 $\{v^l_{t-\tau}(\theta_{t-\tau})\}^{k-1}_{\tau=1}$ 和梯度 $\{\partial\mu_{t-\tau}(\theta_{t-\tau})\}^{k-1}_{\tau=1}$ 和 $\{\partial v_{t-\tau}(\theta_{t-\tau})\}^{k-1}_{\tau=1}$ 与处理输入示例所消耗的其余内存相比，也是小巫见大巫。表6中报告了CBN的额外计算和内存。

在CBN中，一个关键的超参数是用于统计估计的最近迭代的时间窗口大小，k。较宽的窗口可以扩大样本集，但对于较远的迭代来说，例子质量会越来越低，因为网络参数 $\theta_t$ 和 $\theta_{t-\tau}$ 的差异会变得更加显著，而且使用低阶泰勒多项式的补偿效果也会降低。经验上，我们发现CBN在各种环境和任务中，窗口大小达到k=8时是有效的。唯一的诀窍是，在训练开始时，窗口大小应保持较小，因为此时网络权重变化很快。

因此，我们为窗口大小引入一个长度为 $T_{burn-in}$ 的周期，其中k=1时，CBN退化为原始BN。在我们的实验中，burn-in period在ImageNet图像分类上默认设置为25个epochs，在COCO对象检测上默认设置为3个epochs。在附录中介绍了对该参数的消减。

表1比较了CBN和其他特征归一化方法。这些方法的关键区别在于统计数字和特征归一化的轴线。之前的技术都是为了利用来自同一迭代的例子。相比之下，CBN探索的是沿时间维度的实例聚合。由于CBN所利用的数据与之前的方法处于正交方向，所提出的CBN有可能与其他特征归一化方法相结合，以进一步提高某些具有挑战性的应用中的统计估计。

4. Experiments

4.1. Image Classification on ImageNet

Experimental settings. ImageNet（Russakovsky等人，2015）是一个图像分类的基准数据集，包含1.28M训练图像和来自1000个类的50K验证图像。我们遵循(He等，2015)中的标准设置，在训练集上训练深度网络，并在验证集上报告single-crop的top-1精度。我们的预处理和增强策略严格遵循GN基线（Wu & He，2018）。我们对所有权重层（包括 $\gamma$ 和 $\beta$ ）使用0.0001的权重衰减。我们在4个GPU上训练标准ResNet-18的100个epochs，并通过余弦衰减策略降低学习率（He等人，2019）。我们进行5次试验，并报告其平均值和标准偏差（误差条）。ResNet-18与BN是我们的基础模型。为了与其他归一化方法进行比较，我们直接用IN、LN、GN、BRN和我们提出的CBN替换BN。

Comparison of feature normalization methods. 在表2中，我们比较了每一种归一化方法的性能，批次大小为32，足以计算可靠的统计数据。在这种设置下，BN显然产生了最高的top-1精度。与之前工作中发现的结果相似（Wu & He，2018），IN和LN的性能明显差于BN。GN在图像分类上效果良好，但比BN差1.2%。在所有方法中，我们的CBN是唯一一个能够达到与BN相当的精度的方法，因为它在较大的批次规模下收敛到BN的程序。

Sensitivity to batch size. 我们比较了CBN、原始BN（Ioffe & Szegedy，2015）、GN（Wu & He，2018）和BRN（Ioffe，2017）在每个GPU相同图像数量下在ImageNet分类上的行为。对于CBN，利用最近的迭代，以保证有效例子的数量不少于16个。对于BRN，设置严格遵循原论文。我们采用的学习率为0.1，批处理量为32，批处理量为N时，学习率按N=32线性缩放。

结果如表3所示。对于原来的BN，当每个GPU的图像数量从32张减少到2张时，其精度明显下降。 BRN的性能也明显下降。GN通过利用通道维度，但不利用批处理维度来保持其精度。对于CBN来说，通过利用最近迭代的例子，它的精度保持了。另外，CBN在不同批次大小的情况下，平均top-1精度比GN高出0.9%。这是很合理的，因为CBN的统计计算引入了像BN中的随机批次抽样造成的不确定性，但GN中没有这种不确定性，导致正则化能力有所下降。对于每个GPU的图像数量为1的极端情况，BN和BRN都无法产生结果，而CBN在这种情况下，在top-1精度上比GN高出0.4%。

4.2. Object Detection and Instance Segmentation on COCO

Experimental settings. 选择COCO（Lin等，2014）作为目标检测和实例分割的基准。模型在118k图像的COCO 2017训练分割上进行训练，并在5k图像的COCO 2017验证分割上进行评估。按照(Lin et al.，2014)中的标准协议，对象检测和实例分割的精度分别由intersection-over-union(IoU)重叠处的平均精度(mAP)分数来衡量。

继(Wu & He，2018)之后，分别选择Faster R-CNN(Ren等，2015)和Mask R-CNN(He等，2017)与FPN(Lin等，2017)作为目标检测和实例分割的基线。对于这两者，为了更好地使用归一化机制，将2fcbox head替换为4conv1 fc head（Wu & He，2018）。骨干网络为ImageNet预训练的ResNet-50（默认）或ResNet-101，具体归一化。通过SGD在4个GPU上对12个epochs的COCO训练集进行微调，其中每个GPU处理4张图像（默认）。需要注意的是，CBN中的均值和方差统计是在每个GPU内计算的。学习率初始化为0.02 N=16，每个GPU的批次大小为N，并在第9个和第11个epoch以10倍衰减。权重衰减和动量参数分别设置为0.0001和0.9。我们使用5次试验的平均值为所有结果。由于所有方法的标准差值都小于0.1的COCO，他们在这里被忽略。

正如在（Wu&He，2018）中所做的那样，我们试验了两种设置，即规范化器仅在任务特定的头部被激活，主干上冻结BN（默认），或者规范化器在除ResNet的早期conv1和conv2阶段之外的所有层激活。

Normalizers at backbone and task-specific heads. 我们进一步研究了不同归一化器对骨干网络和任务特定头在COCO上进行物体检测的影响。CBN、原始BN、syncBN和GN被纳入比较范围。

表4.特征归一化方法在Faster R-CNN与FPN和ResNet50上的结果 Faster R-CNN与FPN和ResNet50在COCO上的特征归一化方法的结果。由于在COCO上所有方法的标准差值都小于0.1，我们在这里忽略它们。

4.3. Ablation Study

图3.时间窗口大小（k）对ImageNet的影响时间窗口大小(k)对ImageNet(ResNet-18)和COCO(Faster R-CNN with ResNet-50 and FPN)的影响，#bs/GPU=4的CBN和Naive CBN。Naive CBN直接利用最近迭代的统计数据，而BN则使用与CBN相当的#实例进行统计计算。

Effect of temporal window size k. 我们在ImageNet图像分类和COCO对象检测上进行消融，每个GPU处理4张图像。图3展示了结果。当k=1时，只利用了当前迭代的批次，因此，CBN退化为原始BN。由于小批量尺寸上的噪声统计，精度受到影响。随着窗口大小k的增加，更多来自最近迭代的例子被利用来进行统计估计，从而提高了精度。精度在k=8时达到饱和，甚至略有下降。对于较远的迭代，网络权重差异较大，泰勒多项式近似的准确度变低。

另一方面，经验观察到，在众多应用中，原始BN在16或32个批次大小时饱和（Peng等，2018；Wu & He，2018），表明计算统计变得准确。因此，建议时间窗口大小为 $k=min(\lceil\frac{16}{bs \,per\, GPU}\rceil,8)$

Effect of compensation. 为了研究这个问题，我们将CBN与以下两种方法进行比较：1）Naive CBN，通过泰勒多项式将最近迭代的统计数据直接汇总，不需要补偿；2）应用与CBN相同有效例数的原始BN（即其每GPU的批次大小设置为每GPU的批次大小与CBN的时间窗口大小的乘积），它不需要任何补偿，作为性能上限。

实验结果也如图3所示。当包含前面的迭代时，CBN明显超过了Naive CBN。实际上，如图3(a)所示，当时间窗口大小增长到k=8时，Naive CBN就失效了，这证明了对迭代过程中网络权重变化进行补偿的必要性。与原来的BN上界相比，CBN在相同的有效样本数下，实现了相似的精度。这一结果表明，CBN使用低阶泰勒多项式进行补偿是有效的。

图4.CBN、Naive CBN和BN的训练和测试曲线 CBN、Naive CBN 和 BN 在 ImageNet 上的训练和测试曲线，CBN、Naive CBN 和 BN-bs4 的每 GPU 批量为 4，时间窗口大小 k = 4，BN-bs16 的每 GPU 批量为 16。BN-bs16的图是理想的边界。

图4是CBN、Naive CBN、BN-bs4和BN-bs16在ImageNet上的训练和测试曲线，CBN、Naive CBN和BN-bs4每个GPU有4张图片，时间窗口大小为4，BN-bs16每个GPU有16张图片.CBN的训练曲线在开始时接近BN-bs4，最后接近BN-bs16。原因是我们采用burn-in period，避免了训练开始时统计数据变化快的缺点。Naive CBN的训练曲线与CBN的训练曲线之间的差距表明，Naive CBN甚至不能很好地收敛在训练集上。CBN的测试曲线在末端接近BN-bs16，而Naive CBN则表现出相当大的抖动。所有这些现象都表明我们提出的泰勒多项式补偿的有效性。

图5. CBN上不同的burn-in periods（以epoch为单位）的结果，每次迭代的批次大小为4，在ImageNet和COCO上。

Effect of burn-in period length T. 我们研究在每个GPU有4张图像的情况下，改变burn-in periods长度 $T_{burn-in}$ 对ImageNet图像分类(ResNet-18)和COCO对象检测(Faster R-CNN with FPN和ResNet-50)的影响。图5(a)和5(b)展示了结果。当burn-in periods太短时，准确率会受到影响。这是因为在训练之初，网络权重变化很快，导致跨迭代的补偿效果较差。尽管如此，在很宽的burn-in周期 $T_{burn-in}$ 范围内，精度是稳定的。

A. Algorithm Outline

算法1是我们提出的CrossIteration Batch Normalization（CBN）的概要。

in periods太短时，准确率会受到影响。这是因为在训练之初，网络权重变化很快，导致跨迭代的补偿效果较差。尽管如此，在很宽的burn-in周期 $T_{burn-in}$ 范围内，精度是稳定的。

A. Algorithm Outline

算法1是我们提出的CrossIteration Batch Normalization（CBN）的概要。

oceanbase与mysql性能对比_金融业分布式数据库:TDSQL、HotDB、OceanBase等原理、POC性能对比及选择是...... 高中物理宋老师
本帖最后由Amygo于2020-3-1501:33编辑1、分布式的实现，是通过中间件实现分布式，还是源码级别引入分布式算法实现的？解答：(1)分布式数据库是至少由计算节点、存储节点、管理平台、备份还原程序四个部分组成，从数据库系统理论知识上说分成：全局自治和场地自治，也粗略认为：全局可理解为计算节点、场地可理解为存储节点(2)这个问题的标题“中间件实现分布式还是源码级别引入分布式算法”这个说法存在
深度优先搜索（DFS）完全解析：从原理到 Java 实战 my_realmy Java基础知识深度优先 java 算法
深度优先搜索（DFS）完全解析：从原理到Java实战@TOC作为一名程序员，你是否遇到过需要在复杂的图结构中寻找路径、检测环，或者进行树遍历的问题？深度优先搜索（Depth-FirstSearch,DFS）作为一种经典的图遍历算法，能够轻松应对这些场景。在CSDN社区中，技术文章的受欢迎程度往往取决于内容的实用性、代码的可读性以及图文结合的讲解方式。因此，本文将为你带来一篇深入浅出、图文并茂、代码
贪心算法（10）（java）跳跃游戏奋进的小暄贪心算法 java 游戏
题目：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向前跳转的最大长度。换句话说，如果你在nums[i]处,你可以跳转到任意nums[i+j]处:1.0=n-1)//判断是否以经跳到最后一个位置{returnret;}for(inti=left;i<=right;i++)//更新下一层最右端点{maxPos=Math.max(maxPos,n
视频管理平台：应急安全生产的坚实护盾智联视频超融合平台音视频安全人工智能视频编解码网络协议
在应急安全生产中，视频管理平台作为现代科技的重要组成部分，发挥着不可替代的作用。它不仅能够实时监测生产环境，还能在事故发生时提供关键信息，帮助企业快速响应、降低损失。以下是视频管理平台在应急安全生产中的具体作用：一、实时监控与风险预警1、全方位监控：通过部署高清摄像头，覆盖生产车间、仓库、设备区等关键区域，实现无死角监控，确保安全隐患无处遁形。2、智能分析：结合AI算法，自动识别异常行为（如人员违
算法-枚举 Java版蜡笔小新算法算法
信息在计算机之间的演示计算机的电路由逻辑门电路组成。一个逻辑门电路可以看成一个开关，每个开关的状态是“开"(高电位)或“关”(低电位)，即对应于或0二进制数的一位，取值只能是0或1，称为一个“比特”(bit)，简写:b八个二进制位称为一个“字节”(byte),简写:B1024(2的10次方)字节称为1KB，1024KB称作1MB(1兆)，1024MB称作1GB，1024GB0和1足以表示和传播各种
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
不会用AI大模型的程序员，5年后必将被淘汰？真相远比你想的更残酷！小城哇哇人工智能语言模型 AI大模型 DeepSeek OpenAI agi 程序员
前言在技术飞速发展的今天，AI大模型已经成为程序员技能库中的“标配”。如果你还认为AI只是“锦上添花”的工具，那么5年后，你可能真的会被时代无情淘汰。这不是危言耸听，而是技术变革的必然趋势。AI大模型：程序员的“效率革命”AI大模型如DeepSeek等工具，正在彻底改变程序员的开发模式。它们不仅能自动生成代码、优化算法，还能快速解决复杂的技术问题。过去需要几天甚至几周才能完成的任务，现在可能只需要
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
区跨链密码学 NO如果密码学
1.哈希算法（Hash）❓1.1什么是哈希算法？区块链中为什么需要哈希？哈希算法是一种不可逆的、确定性的、固定长度的散列函数，用于将输入数据映射成固定长度的字符串。在区块链中的作用：数据完整性：确保区块内容未被篡改（MerkleTree）。唯一标识：区块哈希值用于唯一标识区块。密码学安全性：哈希值难以逆推，保证安全性。常见哈希算法：SHA-256（比特币）：固定256位输出，抗碰撞强。Keccak
凌晨三点的代码和引擎轰鸣声前端后端程序员
凌晨三点，我盯着屏幕上第37次报错的算法，随手抓起桌角已经冷透的咖啡猛灌一口。显示器蓝光里，同事阿杰突然弹出一条消息："哥们儿，苏州有个车展能撸代码，去不去？"我对着这句话愣了三秒。车展？在我的认知里，那应该是西装革履的销售围着超模拍宣传片的场合，和我们这种格子衫生物有什么关系？直到阿杰甩来一张海报——黑底荧光绿字刺破视网膜："CISHOWGTSHOW，程序员特别通道，票免费送。"01被编译器耽误
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
211 本硕研三，已拿 C++ 桌面应用研发 offer，计划转音视频或嵌入式如何规划学习路线？程序员yt c++音视频学习
今天给大家分享的是一位粉丝的提问，211本硕研三，已拿C++桌面应用研发offer，计划转音视频或嵌入式如何规划学习路线？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：前辈您好，我是211本硕，目前研三，秋招拿到C++桌面应用研发的offer，但计划的这个岗位最多干3-4年左右，后续企业规划上想往音视频开发或嵌入式上转；个人感觉C++八股，算法
动态规划算法求解背包问题的全面剖析 15号外媒算法
摘要本文深入剖析动态规划算法在求解背包问题中的应用，详细阐述动态规划算法的基本原理、核心要素与解题步骤。通过对0-1背包问题和完全背包问题的具体分析，展示动态规划算法在解决背包问题上的高效性与独特优势。同时，结合实际案例进行算法实现与结果分析，并探讨算法的优化策略与拓展应用，旨在帮助读者全面掌握动态规划算法求解背包问题的方法与技巧。一、引言背包问题作为组合优化领域的经典问题，在资源分配、投资决策、
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
二分查找算法在有序数组中的解题分析与优化带给我一点小幸运算法
摘要本文深入剖析二分查找算法在有序数组中的应用，详细阐述其基本原理、实现步骤与时间复杂度，通过实际案例展示其解题过程，并针对算法在实际应用中的常见问题提出优化策略，旨在帮助读者全面掌握二分查找算法，提升解决相关问题的能力。一、引言在计算机科学领域，查找算法是解决众多问题的基础。二分查找算法作为一种高效的查找方法，在有序数组的查找场景中具有显著优势。随着数据规模的不断增大，二分查找算法相较于其他查找
图论：以二维数组表示的连通图/树应如何表示？leetcode1042.不邻接种花坠金技术面算法图论算法 leetcode
1042.不邻接植花-力扣（LeetCode）容器在这道题中输入类似[[1,2],[3,4]]，这意味着花园1连通了花园2，花园3连通了花园4。那么该怎么根据这个输入，获取一个方便后面算法的表示呢？我们通常管这种存放邻居的数据格式叫做：邻接表通常我的思路是使用下列容器作为邻接表：哈希表，key就是花园i，value是与花园i接壤的其他所有花园。二维数组，第i个数组中的元素是与花园i接壤的其他所有花
基础算法高精度运算 #大数加法旧物有情基础算法算法高精度加法
文章目录题目链接题目解读完整代码参考题目链接题目解读题目描述输入两个正整数a,b，输出a+b的值。输入格式两行，第一行a，第二行b。a和b的长度均小于1000位。输出格式一行，a+b的值。完整代码#includeusingnamespacestd;vectoradd(vectora,vectorb){vectorres;intt=0;intsize=max(a.size(),b.size());f
图论——Prim算法水代码的程序猿力扣算法图论数据结构
53.寻宝（第七期模拟笔试）题目描述在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。输入描述第一行包
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
数组模拟邻接表 #图论旧物有情数据结构图论数据结构
文章目录为什么要用数组来模拟邻接表存储思路遍历思路树是特殊的图，因此邻接表可以存储图和树两种数据结构。为什么要用数组来模拟邻接表在算法设计当中，利用数组来代替结构体模拟各种数据结构会更加简单。存储思路给定如下数据,我们可以构造如下的一个邻接表请看代码/**idx:索引,代表数组哪个位置,是否连续不重要,因为我们的存储是链式的。h[idx]:顶点表,下标idx代表是哪个顶点,初始值全部为-1,代表没
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

Cross-Iteration Batch Normalization

Cross-Iteration Batch Normalization

1. Introduction

2. Related Work

3. Method

3.1. Revisiting Batch Normalization

3.2. Leveraging Statistics from Previous Iterations 利用以前迭代的统计数据

3.3. Cross-Iteration Batch Normalization

4. Experiments

4.1. Image Classification on ImageNet

4.2. Object Detection and Instance Segmentation on COCO

4.3. Ablation Study

A. Algorithm Outline

A. Algorithm Outline

你可能感兴趣的:(正则化,算法,计算机视觉,神经网络,深度学习)