顾道长生'

(CVPR-2021)RepVGG：让 VGG 风格的 ConvNet 再次伟大

RepVGG：让 VGG 风格的 ConvNet 再次伟大

Title：RepVGG: Making VGG-style ConvNets Great Again

paper是清华发表在CVPR 2021的工作

paper链接

Abstract

我们提出了一种简单但功能强大的卷积神经网络架构，它具有类似 VGG 的推理时间主体，仅由 $\times 3$ 卷积和 ReLU 堆栈组成，而训练时间模型具有多分支拓扑。这种训练时间和推理时间架构的解耦是通过结构重参数化技术实现的，因此该模型被命名为 RepVGG。据我们所知，在 ImageNet 上，RepVGG 达到了超过 80% 的 top-1 准确率，这对于普通模型来说是第一次。在 NVIDIA 1080Ti GPU 上，RepVGG 模型的运行速度比 ResNet-50 快 83%，比 ResNet-101 快 101%，并且具有更高的精度，并且与 EfficientNet 和 RegNet 等最先进的模型相比，表现出良好的精度与速度权衡。代码和训练模型可在 https://github.com/megvii-model/RepVGG 上获取。

1. Introduction

经典的卷积神经网络（ConvNet）VGG [31]通过由卷积、ReLU 和池化组成的简单架构在图像识别方面取得了巨大成功。随着Inception [33,34,32,19]，ResNet [12]和DenseNet [17]的出现，很多研究兴趣转移到了精心设计的架构上，使得模型变得越来越复杂。最近的一些架构基于自动[44,29,23]或手动[28]架构搜索，或搜索复合缩放策略[35]。

尽管许多复杂的卷积网络比简单的卷积网络具有更高的精度，但其缺点也很明显。1）复杂的多分支设计（例如ResNet中的残差加法和Inception中的分支cat）使得模型难以实现和定制，减慢了推理速度并降低了内存利用率。 2）一些组件（例如，Xception [3]和MobileNets [16, 30]中的深度卷积和ShuffleNets [24, 41]中的通道shuffle）增加了内存访问成本，并且缺乏各种设备的支持。由于影响推理速度的因素较多，浮点运算量（FLOPs）并不能准确反映实际速度。尽管一些新颖模型的 FLOPs 低于 VGG 和 ResNet-18/34/50 [12] 等老式模型，但它们的运行速度可能不会更快（表 4）。因此，VGG 和 ResNet 的原始版本仍然在学术界和工业界的实际应用中大量使用。

图 1：ImageNet 上的 Top-1 准确率与实际速度。左：轻量级和中量级 RepVGG 以及在 120 个 epoch 中训练的基线。右：经过 200 个 epoch 训练的重量级模型。速度是在相同的 1080Ti 上测试的，批量大小为 128、全精度 (fp32)、单一作物，并以示例/秒为单位进行测量。 EfficientNet-B3 [35] 的输入分辨率为 300，其他网络的输入分辨率为 224。

在本文中，我们提出了 RepVGG，这是一种 VGG 风格的架构，其性能优于许多复杂模型（图 1）。 RepVGG具有以下优点。

该模型具有类似 VGG 的普通（又称前馈）拓扑，没有任何分支，这意味着每一层都将其唯一的前一层的输出作为输入，并将输出馈送到其唯一的下一层。
该模型的主体仅使用 $\times 3$ 卷积和 ReLU。
具体架构（包括特定深度和层宽度）是在没有自动搜索[44]、手动细化[28]、复合缩放[35]或其他繁重设计的情况下实例化的。

普通模型要达到与多分支架构相当的性能水平具有挑战性。一种解释是，多分支拓扑（例如 ResNet）使模型成为许多较浅模型的隐式集成[36]，因此训练多分支模型可以避免梯度消失问题。

由于多分支架构的优点都在于训练，而缺点对于推理来说是不受欢迎的，因此我们建议通过结构重新参数化来解耦训练时多分支和推理时普通架构，这意味着将架构从一种架构转换为另一种架构具体来说，一个网络结构与一组参数耦合，例如，一个卷积层由一个四阶核张量表示。如果某种结构的参数可以转换为另一种结构耦合的另一组参数，我们就可以等价地用后者代替前者，从而改变整个网络架构。

图 2：RepVGG 架构草图。 RepVGG有5个阶段，在阶段开始时通过stride-2卷积进行下采样。这里我们只展示特定阶段的前 4 层。受 ResNet [12] 的启发，我们还使用恒等和 $\times 1$ 分支，但仅用于训练。

具体来说，我们使用恒等和 $\times 1$ 分支构建训练时 RepVGG，这受到 ResNet 的启发，但方式不同，可以通过结构重新参数化来删除分支（图 2,4）。训练结束后，我们用简单的代数进行变换，因为恒等分支可以看作是退化的 $\times 1$ conv，而后者可以进一步看作是退化的 $\times 3$ conv，这样我们就可以构造一个单一的 $\times 3$ 内核，具有原始 $\times 3$ 内核、恒等和 $\times 1$ 分支以及批量归一化（BN）[19]层的训练参数。因此，转换后的模型具有 $\times 3$ 卷积层的堆栈，将其保存以供测试和部署。

值得注意的是，推理时间 RepVGG 的主体只有一种类型的运算符： $\times 3$ 卷积，后跟 ReLU，这使得 RepVGG 在 GPU 等通用计算设备上速度更快。更好的是，RepVGG 允许专用硬件实现更高的速度，因为考虑到芯片尺寸和功耗，我们需要的运算符类型越少，我们可以在芯片上集成的计算单元就越多。因此，专门用于 RepVGG 的推理芯片可以拥有大量的 $\times 3$ -ReLU 单元和更少的内存单元（因为简单的拓扑是内存经济的，如图 3 所示）。我们的贡献总结如下。

图 3：残差模型和普通模型中的峰值内存占用。如果残差块保持特征图的大小，则特征图占用的额外内存的峰值将是输入的2倍。与因此被忽略的特征相比，参数占用的内存很小。

我们提出了 RepVGG，这是一种简单的架构，与最先进的技术相比，具有有利的速度与精度权衡。
我们提出使用结构重参数化来将训练时多分支拓扑与推理时简单架构解耦。
我们展示了 RepVGG 在图像分类和语义分割方面的有效性，以及实现的效率和简易性。

2. Related Work

2.1. From Single-path to Multi-branch

在 VGG [31] 将 ImageNet 分类的 top-1 准确率提高到 70% 以上之后，在使 ConvNet 变得复杂以获得高性能方面出现了许多创新，例如当代的 GoogLeNet [33] 和后来的 Inception 模型 [34,32,19] 采用了精心设计的多分支架构，ResNet [12]提出了简化的两分支架构，而DenseNet [17]通过将较低级别的层与众多较高级别的层连接起来使拓扑变得更加复杂。神经架构搜索（NAS）[44,29,23,35]和手动设计空间设计[28]可以生成具有更高性能的ConvNet，但代价是大量的计算资源或人力。一些大型版本的 NAS 生成的模型甚至无法在普通 GPU 上进行训练，从而限制了应用。除了实现上的不便之外，复杂的模型可能会降低并行度[24]，从而减慢推理速度。

2.2. Effective Training of Single-path Models

已经有人尝试在没有分支的情况下训练卷积网络。然而，先前的工作主要试图使非常深的模型以合理的精度收敛，但没有获得比复杂模型更好的性能。因此，这些方法和所得模型既不简单也不实用。提出了一种初始化方法[37]来训练极深的普通ConvNet。通过基于平均场理论的方案，10,000 层网络在 MNIST 上的训练精度超过 99%，在 CIFAR-10 上训练精度超过 82%。尽管这些模型并不实用（甚至 LeNet-5 [21] 在 MNIST 上可以达到 99.3% 的准确率，VGG-16 在 CIFAR10 上可以达到 93% 以上），但理论贡献是富有洞察力的。最近的一项工作 [25] 结合了多种技术，包括 Leaky ReLU、max-norm 和仔细初始化。在 ImageNet 上，它表明具有 147M 参数的普通 ConvNet 可以达到 74.6% 的 top-1 准确率，比其报告的基线（ResNet-101，76.6%，45M 参数）低 2%。

值得注意的是，本文不仅仅是证明普通模型可以很好地收敛，并且并不打算训练像 ResNet 这样的极深的 ConvNet。相反，我们的目标是构建一个具有合理深度和有利的精度-速度权衡的简单模型，该模型可以使用最常见的组件（例如常规卷积和 BN）和简单代数简单地实现。

2.3. Model Re-parameterization

DiracNet [39] 是一种与我们相关的重参数化方法。它通过将卷积层的内核编码为 $\hat{W}=\operatorname{diag}(\mathbf{a}) \mathrm{I}+\operatorname{diag}(\mathbf{b}) \mathrm{W}_{\text {norm }}$ 来构建深层普通模型，其中 $\hat{W}$ 是用于卷积的最终权重（视为矩阵的四阶张量）， $\mathbf{a}$ 和 $\mathbf{b}$ 是学习向量， $\mathrm{W}_{\text {norm }}$ 是标准化的可学习内核。与参数数量相当的 ResNet 相比，DiracNet 的 top-1 准确率在 CIFAR100 上低 2.29%（78.46% vs. 80.75%），在 ImageNet 上低 0.62%（DiracNet-34 的 72.21% vs. ResNet 的 72.83%）。 DiracNet 在两个方面与我们的方法不同。 1）RepVGG 的训练时间行为是由实际数据流通过具体结构实现的，该结构可以稍后转换为另一个结构，而 DiracNet 仅使用另一种卷积核的数学表达式来更容易优化。换句话说，训练时 RepVGG 是真正的多分支模型，但 DiracNet 不是。 2）DiracNet 的性能高于正常参数化的普通模型，但低于可比的 ResNet，而 RepVGG 模型的性能大幅优于 ResNet。 Asym Conv Block (ACB) [10]、DO-Conv [1] 和 ExpandNet [11] 也可以被视为结构重参数化，因为它们将块转换为卷积。与我们的方法相比，不同之处在于它们是为组件级改进而设计的，并用作任何架构中卷积层的直接替代品，而我们的结构重参数化对于训练普通 ConvNet 至关重要，如第 4.2 节所示。

2.4. Winograd Convolution

RepVGG 仅使用 $\times 3$ 卷积，因为它在 GPU 和 CPU 上通过一些现代计算库（如 NVIDIA cuDNN [2] 和 Intel MKL [18]）进行了高度优化。表 1 显示了在 1080Ti GPU 上使用 cuDNN 7.5.0 测试的理论 FLOPs、实际运行时间和计算密度（以每秒万亿次浮点运算，TFLOPS 为单位测量）。 $\times 3$ 卷积的理论计算密度约为其他卷积的 4 倍，这表明总理论 FLOPs 并不能代表不同架构之间的实际速度。 Winograd [20] 是一种加速 $\times 3$ 卷积的经典算法（仅当步长为 1 时），它得到了 cuDNN 和 MKL 等库的良好支持（默认启用）。例如，使用标准 $\times 2,3 \times 3)$ Winograd， $\times 3$ 卷积的乘法量 (MUL) 减少到原始的 $\frac{4}{9}$ 。由于乘法比加法更耗时，因此我们在 Winograd 支持下计算 MUL 来衡量计算成本（在表 4、5 中用 Wino MULs 表示）。请注意，具体的计算库和硬件决定每个算子是否使用 Winograd，因为小规模卷积可能会因内存开销而无法加速。

表 1：NVIDIA 1080Ti 上不同内核大小和批量大小 = 32、输入通道 = 输出通道 = 2048、分辨率 = 56×56、步长 = 1 的速度测试。时间使用结果是硬件预热后运行 10 次的平均值。

3. Building RepVGG via Structural Re-param

3.1. Simple is Fast, Memory-economical, Flexible

使用简单的卷积网络至少有三个原因：快速、节省内存和灵活。

快速许多最近的多分支架构的理论 FLOPs 低于 VGG，但可能运行速度并不快。例如，VGG-16 的 FLOPs 为 EfficientNet-B3 [35] 的 8.4 倍，但在 1080Ti 上运行速度快 1.8 倍（表 4），这意味着前者的计算密度是后者的 15 倍。除了Winograd conv带来的加速之外，FLOPs和速度之间的差异可以归因于两个对速度有很大影响但FLOPs没有考虑到的重要因素：内存访问成本（MAC）和并行度[24 ]。例如，虽然分支相加或cat所需的计算可以忽略不计，但 MAC 却很重要。此外，MAC 占据了分组卷积中大部分时间的使用。另一方面，在相同的 FLOPs 下，具有高并行度的模型可能比另一个具有低并行度的模型快得多。由于多分支拓扑在 Inception 和自动生成架构中被广泛采用，因此使用多个小型算子而不是几个大型算子。之前的一项工作[24]报道了NASNET-A[43]中碎片算子的数量（即一个构建块中单独的卷积或池化操作的数量）为13，这对于像GPU这样具有强大并行计算能力的设备不友好并引入额外的开销，例如内核启动和同步。相比之下，这个数字在ResNets中是2或3，我们将其设为1：单个卷积。

内存经济多分支拓扑的内存效率较低，因为每个分支的结果都需要保留到相加或cat为止，从而显着提高了内存占用的峰值。图 3 显示残差块的输入需要保留到相加为止。假设块保持特征图大小，则额外内存占用的峰值为2×作为输入。相反，普通拓扑允许特定层的输入占用的内存在操作完成时立即释放。在设计专用硬件时，普通的 ConvNet 可以进行深度内存优化并降低内存单元的成本，以便我们可以将更多的计算单元集成到芯片上。

灵活多分支拓扑对架构规范施加了限制。例如，ResNet 要求将卷积层组织为残差块，这限制了灵活性，因为每个残差块的最后一个卷积层必须产生相同形状的张量，否则快捷方式相加将没有意义。更糟糕的是，多分支拓扑限制了通道剪枝的应用[22, 14]，这是一种去除一些不重要通道的实用技术，并且一些方法可以通过自动发现每层的适当宽度来优化模型结构[8] 。然而，多分支模型使修剪变得棘手，并导致性能显着下降或加速比低[7,22,9]。相比之下，简单的架构允许我们根据我们的要求自由配置每个卷积层并进行修剪以获得更好的性能效率权衡。

3.2. Training-time Multi-branch Architecture

普通卷积网络有很多优点，但有一个致命的缺点：性能不佳。例如，使用 BN [19] 等现代组件，VGG-16 在 ImageNet 上可以达到超过 72% 的 top-1 准确率，这似乎已经过时了。我们的结构重参数化方法受到 ResNet 的启发，它显式地构造一个快捷分支来将信息流建模为 $y = x + f (x)$ 并使用残差块来学习 $f$ 。当 $x$ 和 $f (x)$ 的维度不匹配时，就变成 $y = g (x) + f (x)$ ，其中 $g (x)$ 是由 $\times 1$ conv实现的卷积捷径。 ResNets 成功的一个解释是，这种多分支架构使模型成为众多浅层模型的隐式集合 [36]。具体来说，对于 $n$ 个块，模型可以解释为 $2^n$ 个模型的集合，因为每个块将流分支为两条路径。

由于多分支拓扑在推理方面存在缺陷，但分支似乎有利于训练[36]，因此我们使用多个分支来制作众多模型的仅训练时间集成。为了使大多数成员更浅或更简单，我们使用类似 ResNet 的恒等（仅当维度匹配时）和 $\times 1$ 分支，以便构建块的训练时信息流为 $y =$ $x + g (x) + f (x)$ 。我们简单地堆叠几个这样的块来构建训练时间模型。从与[36]相同的角度来看，该模型成为具有 $n$ 个这样的块的 $3^n$ 个成员的集合。

3.3. Re-param for Plain Inference-time Model

在本小节中，我们描述如何将经过训练的块转换为单个 $\times 3$ 卷积层以进行推理。请注意，我们在加法之前的每个分支中都使用了 BN（图 4）。形式上，我们使用 $\mathrm{W}^{(3)} \in \mathbb{R}^{C_2 \times C_1 \times 3 \times 3}$ 表示具有 $C_1$ 输入通道和 $C_2$ 输出通道的 $\times 3$ 卷积层的内核，并使用 $\mathrm{W}^{(1)} \in \mathbb{R}^{C_2 \times C_1}$ 表示内核 $\times 1$ 分支。我们使用 $\boldsymbol{\mu}^{(3)}, \boldsymbol{\sigma}^{(3)}, \boldsymbol{\gamma}^{(3)}, \boldsymbol{\beta}^{(3)}$ 作为 $\times 3$ 卷积之后 BN 层的累积平均值、标准差以及学习缩放因子和偏差， $\boldsymbol{\mu}^{(1)}, \boldsymbol{\sigma}^{(1)}, \boldsymbol{\gamma}^{(1)}, \boldsymbol{\beta}^{(1)}$ 表示 $\times 1$ 卷积后的 BN， $\boldsymbol{\mu}^{(0)}, \boldsymbol{\sigma}^{(0)}, \boldsymbol{\gamma}^{(0)}, \boldsymbol{\beta}^{(0)}$ 表示恒等分支。设 $\mathrm{M}^{(1)} \in \mathbb{R}^{N \times C_1 \times H_1 \times W_1}$ , $\mathrm{M}^{(2)} \in \mathbb{R}^{N \times C_2 \times H_2 \times W_2}$ 分别为输入和输出， $*$ 为卷积算子。如果 $C_1=C_2, H_1=$ $H_2, W_1=W_2$ ，我们有
$\begin{aligned} \mathrm{M}^{(2)} & =\operatorname{bn}\left(\mathrm{M}^{(1)} * \mathrm{~W}^{(3)}, \boldsymbol{\mu}^{(3)}, \boldsymbol{\sigma}^{(3)}, \boldsymbol{\gamma}^{(3)}, \boldsymbol{\beta}^{(3)}\right) \\ & +\operatorname{bn}\left(\mathrm{M}^{(1)} * \mathrm{~W}^{(1)}, \boldsymbol{\mu}^{(1)}, \boldsymbol{\sigma}^{(1)}, \boldsymbol{\gamma}^{(1)}, \boldsymbol{\beta}^{(1)}\right) \\ & +\operatorname{bn}\left(\mathrm{M}^{(1)}, \boldsymbol{\mu}^{(0)}, \boldsymbol{\sigma}^{(0)}, \boldsymbol{\gamma}^{(0)}, \boldsymbol{\beta}^{(0)}\right) . \end{aligned}$
否则，我们只是不使用恒等分支，因此上面的方程只有前两项。这里 bn 是推理时间 BN 函数，形式上， $\forall 1 \leq i \leq C_2$ ，
$\operatorname{bn}(\mathrm{M}, \boldsymbol{\mu}, \boldsymbol{\sigma}, \boldsymbol{\gamma}, \boldsymbol{\beta})_{:, i,:,:}=\left(\mathrm{M}_{:, i,:,:}-\boldsymbol{\mu}_i\right) \frac{\boldsymbol{\gamma}_i}{\boldsymbol{\sigma}_i}+\boldsymbol{\beta}_i \text {. }$

我们首先将每个 BN 及其前面的卷积层转换为带有偏差向量的卷积。设 $\left\{\mathrm{W}^{\prime}, \mathbf{b}^{\prime}\right\}$ 为核，偏置由 $\{\mathrm{W}, \boldsymbol{\mu}, \boldsymbol{\sigma}, \boldsymbol{\gamma}, \boldsymbol{\beta}\}$ 转换而来，我们有
$\mathrm{W}_{i,:,:,:}^{\prime}=\frac{\gamma_i}{\sigma_i} \mathrm{~W}_{i,:,:,:}, \quad \mathbf{b}_i^{\prime}=-\frac{\boldsymbol{\mu}_i \gamma_i}{\sigma_i}+\boldsymbol{\beta}_i .$
那么很容易验证 $\forall 1 \leq i \leq C_2$ ，
$\operatorname{bn}(\mathrm{M} * \mathrm{~W}, \boldsymbol{\mu}, \boldsymbol{\sigma}, \boldsymbol{\gamma}, \boldsymbol{\beta})_{:, i,:,:}=\left(\mathrm{M} * \mathrm{~W}^{\prime}\right)_{:, i,:,:}+\mathbf{b}_i^{\prime}$

这种变换也适用于恒等分支，因为恒等可以被视为以恒等矩阵为核的 $\times 1$ 卷积。经过这样的转换，我们将拥有一个 $\times 3$ 内核、两个 $\times 1$ 内核和三个偏置向量。然后，我们通过将三个偏差向量相加得到最终的偏差，并通过将 $\times 1$ 核添加到 $\times 3$ 核的中心点来获得最终的 $\times 3$ 核，这可以通过首先对两个核进行零填充来轻松实现将 $\times 1$ 核转换为 $\times 3$ 并将三个核相加，如图 4 所示。请注意，这种转换的等价性要求 $\times 3$ 和 $\times 1$ 层具有相同的步幅，并且填充配置为后者应比前者少一个像素。例如，对于将输入填充一个像素的 $\times 3$ 层（这是最常见的情况）， $\times 1$ 层应将 padding = 0。

图 4：RepVGG 模块的结构重参数化。为了便于可视化，我们假设 $C_2=C_1=2$ ，因此 $\times 3$ 层有四个 $\times 3$ 矩阵， $\times 1$ 层的内核是 $\times 2$ 矩阵。

3.4. Architectural Specification

表 2 显示了 RepVGG 的规格，包括深度和宽度。 RepVGG 是 VGG 风格，因为它采用简单的拓扑并大量使用 $\times 3$ 卷积，但它不像 VGG 那样使用最大池化，因为我们希望主体只有一种类型的运算符。我们将 3×3 层分为 5 个阶段，阶段的第一层以步长 = 2 进行下采样。对于图像分类，我们使用全局平均池化，然后使用全连接层作为头部。对于其他任务，特定于任务的头可以用于任何层生成的特征。

表 2：RepVGG 的架构规范。这里 2 × 64a 意味着 stage2 有 2 层，每层有 64a 通道。

我们按照三个简单的准则来决定每个阶段的层数。 1）第一阶段以高分辨率运行，这很耗时，因此我们仅使用一层以降低延迟。 2）最后一级需要有更多的通道，因此我们只使用一层来保存参数。 3）我们将最多的层放入倒数第二阶段（ImageNet 上的输出分辨率为 $14 \times 14$ ），遵循 ResNet 及其最新变体 [12,28,38]（例如，ResNet-101在其14×14分辨率阶段使用69层）。我们让这五个阶段分别有1、2、4、14、1层，构建一个名为RepVGG-A的实例。我们还构建了一个更深的 RepVGG-B，它在第 2、3 和 4 阶段又多了 2 层。我们使用RepVGG-A与其他轻量级和中量级模型（包括ResNet-18/34/50）竞争，并使用RepVGG-B与高性能模型竞争。

我们通过统一缩放经典宽度设置 [64, 128, 256, 512]（例如 VGG 和 ResNets）来确定层宽度。我们使用乘数 a 来缩放前四个阶段，使用 b 来缩放最后一个阶段，并且通常设置 b > a，因为我们希望最后一层具有更丰富的特征用于分类或其他下游任务。由于 RepVGG 在最后阶段只有一层，因此较大的 b 不会显着增加延迟或参数量。具体来说，stage2、3、4、5的宽度分别为[64a,128a,256a,512b]。为了避免在高分辨率特征图上进行大规模卷积，如果 a < 1，我们缩小 stage1 但不放大，因此 stage1 的宽度为 min(64, 64a)。

为了进一步减少参数和计算量，我们可以选择将分组 $\times 3$ 卷积层与密集层交错，以牺牲准确性和效率。具体来说，我们为 RepVGG-A 的第 3、5、7、…、第 21 层以及 RepVGG-B 的附加第 23、25 和 27 层设置组数 $g$ 。为了简单起见，我们将这些层的 $g$ 全局设置为 1、2 或 4，而不进行逐层调整。我们不使用相邻的分组卷积层，因为这会禁用通道间信息交换并带来副作用[41]：某个通道的输出将仅来自输入通道的一小部分。请注意， $\times 1$ 分支应具有与 $\times 3$ 卷积相同的 $g$ 。

4. Experiments

我们将 RepVGG 与 ImageNet 上的基线进行比较，通过一系列消融研究和比较证明结构重参数化的重要性，并验证语义分割的泛化性能[42]。

4.1. RepVGG for ImageNet Classification

我们将 RepVGG 与 ImageNet-1K [6] 上的经典和最先进的模型进行比较，包括 VGG-16 [31]、ResNet [12]、ResNeXt [38]、EfficientNet [35] 和 RegNet [28]，其中包括 128 万张用于训练的图像和 5 万张用于验证的图像。我们分别使用 EfficientNet-B0/B3 和 RegNet3.2GF/12GF 作为中量级和重量级最先进模型的代表。我们改变乘数 a 和 b 以生成一系列 RepVGG 模型，以便与基线进行比较（表 3）。

表 3：由乘数 a 和 b 定义的 RepVGG 模型。

我们首先将 RepVGG 与 ResNets [12] 进行比较，这是最常见的基准。我们分别使用RepVGGA0/A1/A2与ResNet-18/34/50进行比较。为了与较大的模型进行比较，我们构建了更深的 RepVGG-B0/B1/B2/B3 并增加了宽度。对于那些具有交错分组层的 RepVGG 模型，我们将 g2/g4 后缀到模型名称。

为了训练轻量级和中量级模型，我们仅使用简单的数据增强管道，包括随机裁剪和左右翻转，遵循官方 PyTorch 示例 [27]。我们在 8 个 GPU 上使用 256 的全局批量大小、初始化为 0.1 的学习率和 120 个周期的余弦退火、动量系数为 0.9 的标准 SGD、卷积层和全连接层内核上的权重衰减为 10−4。对于包括 RegNetX-12GF、EfficientNet-B3 和 RepVGG-B3 在内的重量级模型，我们使用 5 epoch 预热、200 epoch 的余弦学习率退火、标签平滑 [34] 和 mixup [40]（以下 [13]），以及Autoaugment [5] 的数据增强管道，随机裁剪和翻转。RepVGG-B2 及其 g2/g4 变体在两种设置下进行训练。我们在 1080Ti GPU 上测试批量大小为 128 的每个模型的速度，首先输入 50 个批次来预热硬件，然后输入 50 个批次并记录时间使用情况。为了公平比较，我们在同一 GPU 上测试所有模型，并且基线的所有 conv-BN 序列也转换为带有偏差的 conv（方程 3）。

表 4 显示了 RepVGG 有利的精度与速度权衡：RepVGG-A0 在精度和速度方面比 ResNet-18 好 1.25% 和 33%，RepVGGA1 比 ResNet-34 好 0.29%/64%，RepVGG-A2比 ResNet-50 好 0.17%/83%。通过交错的分组层 (g2/g4)，RepVGG 模型进一步加速，但精度下降合理：RepVGG-B1g4 比 ResNet-101 好 0.37%/101%，而 RepVGGB1g2 的速度是 ResNet-152 的 2.66 倍，令人印象深刻。相同的精度。虽然参数数量不是我们主要关心的问题，但上述所有 RepVGG 模型的参数效率都比 ResNet 更高。与经典的VGG-16相比，RepVGG-B2只有58%的参数，运行速度提高了10%，准确率提高了6.57%。据我们所知，与使用 RePr [26]（一种基于剪枝的训练方法）训练的最高准确率 (74.5%) VGG 相比，RepVGG-B2 的准确率高出 4.28%。

表 4：在 ImageNet 上进行 120 个时期的简单数据增强训练的结果。速度在 1080Ti 上测试，批量大小为 128，全精度 (fp32)，并以示例/秒为单位进行测量。我们按照 2.4 节中的描述计算理论 FLOPs 和 Wino MUL。基线是我们在相同训练设置下的实现。

与最先进的基线相比，考虑到其简单性，RepVGG 也表现出了良好的性能：RepVGG-A2 比 EfficientNetB0 好 1.37%/59%，RepVGG-B1 比 RegNetX3.2GF 性能好 0.39%，并且运行速度稍快。值得注意的是，RepVGG 模型在 200 个 epoch 中达到了 80% 以上的准确率（表 5），据我们所知，这是普通模型第一次赶上最先进的技术。与 RegNetX-12GF 相比，RepVGG-B3 的运行速度快了 31%，考虑到 RepVGG 不需要像 RegNet [28] 那样需要大量人力来细化设计空间，并且架构超参数设置随意，这令人印象深刻。

表 5：使用 Autoaugment [5]、标签平滑和混合进行 200 个 epoch 训练的 ImageNet 结果。

作为计算复杂度的两个指标，我们计算理论 FLOP 和 Wino MUL，如第 2.4 节中所述.例如，我们发现 EfficientNet-B0/B3 中的所有卷积都没有通过 Winograd 算法加速。表 4 显示 Wino MUL 是 GPU 上更好的代理，例如，ResNet-152 的运行速度比 VGG-16 慢，理论 FLOPs 较低，但 Wino MUL 较高。当然，实际速度应该始终是黄金标准。

4.2. Structural Re-parameterization is the Key

在本小节中，我们验证结构重参数化技术的重要性（表 6）。所有模型均使用上述相同的简单训练设置从头开始训练 120 个epoch。首先，我们通过从 RepVGG-B0 的每个块中删除同一性和/或 $\times 1$ 分支来进行消融研究。删除两个分支后，训练时模型退化为普通的普通模型，并且仅达到 72.39% 的准确率。 $\times 1$ 时准确率提升至 73.15%，同一性时准确率提升至 74.79%。全功能RepVGGB0的准确率为75.14%，比普通普通模型高2.75%。从训练时（即尚未转换）模型的推理速度来看，通过结构重参数化去除恒等和 $\times 1$ 分支带来了显着的加速。

表 6：RepVGG-B0 上 120 个时期的消融研究。使用转换前的模型测试没有重新参数的推理速度（示例/秒）（批量大小= 128）。再次注意，所有模型都具有相同的最终结构。

然后我们构建了一系列变体和基线以在 RepVGG-B0 上进行比较（表 7）。同样，所有模型都经过 120 个 epoch 从头开始训练。

Identity w/o BN 删除了 Identity 分支中的 BN。
Post-addition BN 去除了三个分支中的 BN 层，并在相加后追加了一个 BN 层。也就是说，BN的位置从预加变成了后加。
+ReLU in Branches 将 ReLU 插入到每个分支中（BN 之后、加法之前）。由于这样的块无法转换为单个卷积层，因此没有实际用途，我们只是想看看更多的非线性是否会带来更高的性能。
DiracNet [39] 采用了精心设计的卷积核重参数化，如第 2.2 节中所述。我们使用其官方 PyTorch 代码来构建层来替换原始的 $\times 3$ 卷积。
Trivial Re-param 是通过直接向 $\times 3$ 内核添加恒等内核来对卷积内核进行更简单的重参数化，可以将其视为 DiracNet 的降级版本（ $\hat{W}=I+W$ [39]）。
不对称卷积块（ACB）[10]可以被视为结构重参数化的另一种形式。我们与 ACB 进行比较，看看结构重参数化的改进是否是由于组件级的过度参数化（即额外的参数使每个 $\times 3$ 卷积变得更强）。
Residual Reorg 通过以类似 ResNet 的方式重新组织每个阶段来构建每个阶段（每个块 2 层）。具体来说，生成的模型在第一阶段和最后阶段有一个 $\times 3$ 层，在第 2、3、4 阶段有 2、3、8 个残差块，并使用与 ResNet-18/34 类似的快捷方式。

我们认为结构重新参数相对于 DiractNet 和 Trivial Re-param 的优越性在于，前者依赖于通过具有非线性行为（BN）的具体结构的实际数据流，而后者仅使用卷积核的另一种数学表达式。前者的“re-param”意思是“使用一个结构体的参数来参数化另一个结构体”，而后者的意思是“先用另一组参数计算该参数，然后将它们用于其他计算”。对于像训练时间 BN 这样的非线性组件，前者不能用后者来近似。作为证据，删除 BN 会降低准确性，而添加 ReLU 会提高准确性。换句话说，虽然 RepVGG 块可以等效地转换为单个卷积进行推理，但推理时间等价并不意味着训练时间等价，因为我们无法构造一个具有与 RepVGG 块相同的训练时间行为的卷积层。

与 ACB 的比较表明，RepVGG 的成功不应简单地归因于每个组件的过度参数化的影响，因为 ACB 使用更多参数但性能较差。作为双重检查，我们用 RepVGG 块替换 ResNet-50 的每个 $\times 3$ 卷积，并从头开始训练 120 个 epoch。准确度为 76.34%，仅比 ResNet-50 基线高 0.03%，这表明 RepVGGstyle 结构重参数化不是通用的过参数化技术，而是训练强大的普通 ConvNet 的关键方法。与 Residual Reorg（具有相同数量的 $\times 3$ 卷积和额外的训练和推理快捷方式的真实残差网络）相比，RepVGG 的性能优于 0.58%，这并不奇怪，因为 RepVGG 的分支要多得多。例如，分支使 RepVGG 的 stage4 成为 $\times 3^{15}=2.8 \times 10^7$ 个模型的集合 [36]，而 Residual Reorg 的数量为 $2^8=256$ 。

4.3. Semantic Segmentation

我们验证了 ImageNetpretrained RepVGG 在城市景观上的语义分割的泛化性能 [4]（表 8）。我们使用 PSPNet [42] 框架，这是一个基数为 0.01、幂为 0.9、权重衰减为 10−4、全局批量大小为 16、在 8 个 GPU 上持续 40 个周期的多元学习率策略。为了公平比较，我们仅将 ResNet-50/101 主干更改为 RepVGG-B1g2/B2，并保持其他设置相同。继官方 PSPNet-50/101 [42] 在 ResNet-50/101 的最后两个阶段使用扩张卷积之后，我们也使 RepVGG-B1g2/B2 最后两个阶段的所有 3 × 3 卷积层扩张。然而，当前 3 × 3 扩张卷积的低效实现（尽管 FLOP 与 3 × 3 常规卷积相同）会减慢推理速度。为了便于比较，我们构建了另外两个 PSPNets（用 fast 表示），仅在最后 5 层（即 stage4 的最后 4 层和 stage5 的唯一层）进行扩张，因此 PSPNets 的运行速度略快于ResNet-50/101-主干对应。 RepVGG 主干网在平均 IoU 方面比 ResNet-50 和 ResNet-101 分别高出 1.71% 和 1.01%，且速度更快，而 RepVGG-B1g2-fast 在 mIoU 方面比 ResNet-101 主干网高 0.37，运行速度快 62%。有趣的是，扩张对于较大的模型似乎更有效，因为与 RepVGG-B1g2-fast 相比，使用更多扩张的卷积层并没有提高性能，但在合理的减速下将 RepVGG-B2 的 mIoU 提高了 1.05%。

表 8：在验证子集上测试的城市景观 [4] 语义分割。速度（示例/秒）是在同一 1080Ti GPU 上以批量大小 16、全精度 (fp32) 和输入分辨率 $713 \times 713$ 进行测试的。

4.4. Limitations

RepVGG 模型是快速、简单且实用的 ConvNet，专为 GPU 和专用硬件上的最大速度而设计，不太关心参数数量。它们比 ResNets 的参数效率更高，但可能不如低功耗设备的 MobileNets [16, 30, 15] 和 ShuffleNets [41, 24] 等移动机制模型受到青睐。

5. Conclusion

我们提出了 RepVGG，一种由 $\times 3$ 卷积和 ReLU 组成的堆栈的简单架构，特别适合 GPU 和专用推理芯片。通过我们的结构重参数化方法，它在 ImageNet 上达到了超过 80% 的 top-1 精度，并且与最先进的模型相比，显示出有利的速度与精度权衡。

你可能感兴趣的:(基础架构,计算机视觉,深度学习)

python中keras_Python深度学习——keras（一） weixin_39534321 python中keras
神经网络的核心组件是层(layer)，它是一种数据处理模块，可以看成是一个数据过滤器。进去一些数据，出来的数据变得更加有用(吃进去的是草，挤出来的是奶)。大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist#加载keras中的mn
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
关于双塔模型的简单介绍 eso1983 python 算法推荐算法
双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构，其核心思想是将用户和物品分别映射到不同的向量空间，通过计算两个向量的相似度来预测用户对物品的偏好或相关性。1.python示例使用python语言来简单示例一下实现过程如下：importtensorflowastffromtensorflow.keras.layersimportInput,Dense,Embedding,Concaten
DeepSeek在协同过滤和深度学习技术中的应用场景 python算法(魔法师版) 深度学习人工智能
DeepSeek作为一个集成多种先进技术的平台，利用协同过滤和深度学习技术在多个领域实现了创新应用。以下是一些具体的场景和示例，展示了这些技术如何被应用于实际问题中。一、推荐系统电子商务协同过滤：在电商平台中，协同过滤用于根据用户的历史行为（如购买记录、浏览历史等）推荐相关商品。基于用户的相似性或项目的相似性来生成个性化推荐。Python深色版本fromsurpriseimportDataset,
一篇文章了解AI大神何凯明 Ai知识精灵人工智能
何凯明（KaimingHe）是一位在国际计算机视觉和深度学习领域享有盛誉的科学家。以下是对他的一些详细介绍：个人背景：何凯明出生于中国，后赴美国深造。他分别在2007年和2011年在清华大学获得学士和博士学位，专业是电子工程。职业经历：在完成博士学位后，何凯明加入了微软亚洲研究院（MicrosoftResearchAsia）。2015年，他加入了FacebookAIResearch（FAIR），成
MOE模型入门云帆@ AI 人工智能
一、目录定义：MOE架构代表类型如何解决expert平衡的？而不是集中到某一专家。如何训练、微调MOE模型？基础架构优缺点不同MOE模型实现方式、训练方法二、实现定义：MOE架构MOE:混合专家模型，多个专家共同决策的模型。实现：将transformer模型中的每个前馈网络(FFN)层替换为MoE层，其中MoE层由两个核心部分组成:一个路由器（或者叫门控网络）和若干数量的专家。代表类型谷歌MOE，
基于深度学习的物体分割技术：从理论到实践人工智能_SYBH 深度学习人工智能神经网络机器学习 lstm
1.引言物体分割（ObjectSegmentation）是计算机视觉中的一项核心任务，其目标是将图像中的不同物体或区域分离出来，通常分为语义分割和实例分割两种类型。随着深度学习的迅猛发展，尤其是卷积神经网络（CNN）的应用，物体分割技术已取得了显著的进展。它被广泛应用于医学影像分析、自动驾驶、视频监控、机器人感知等领域。在本篇博客中，我们将深入探讨基于深度学习的物体分割技术，介绍其发展历程、核心原
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
AI浪潮下程序员的职业转型与技术进阶之路 nbsaas-boot 人工智能
一、引言1.1研究背景与意义在科技飞速发展的当今时代，人工智能（AI）无疑是最为耀眼的技术领域之一。从早期简单的专家系统到如今复杂的深度学习模型，AI技术经历了从理论探索到广泛应用的巨大跨越，正以前所未有的速度改变着我们的生活和工作方式。近年来，AI技术取得了一系列突破性进展。以GPT系列为代表的大型语言模型，展现出强大的自然语言处理能力，能够实现文本生成、对话交互、代码编写等多种任务。根据《20
TensorFlow实现卷积神经网络CNN 红叶骑士之初 Tensorflow
一、卷积神经网络CNN简介卷积神经网络（ConvolutionalNeuralNetwork，CNN）最初是为解决图像识别等问题设计的，CNN现在的应用已经不限于图像和视频，也可用于时间序列信号，比如音频信号和文本数据等。CNN作为一个深度学习架构被提出的最初诉求是降低对图像数据预处理的要求，避免复杂的特征工程。在卷积神经网络中，第一个卷积层会直接接受图像像素级的输入，每一层卷积（滤波器）都会提取
OpenCV图像旋转90度的最简单方法时光荏苒- opencv 计算机视觉人工智能 OpenCV
OpenCV是一个功能强大的计算机视觉库，提供了许多图像处理和计算机视觉算法。在OpenCV中，图像旋转是一项常见的操作。本文将介绍如何使用OpenCV将图像旋转90度的最简单方法。步骤1：导入OpenCV库在Python中使用OpenCV库需要先导入库。可以使用以下代码导入OpenCV库：importcv2步骤2：读取图像使用OpenCV读取图像需要使用cv2.imread()函数。该函数接受一
目标检测的超级英雄：YOLO带你识别世界星际编程喵 Python探索之旅目标检测 YOLO 目标跟踪人工智能计算机视觉 python
前言YOLO（YouOnlyLookOnce）是计算机视觉领域一颗璀璨的明星，它以高效、快速著称，成为目标检测算法的代表。今天，我们一起走进YOLO的世界，看看它如何神奇地识别图像中的物体。当然，不用担心，这篇文章会让你轻松理解，并且我会用幽默、通俗的语言给大家展示这项技术。相信我，看完之后，你会觉得YOLO不仅是个算法，更像是个看得懂、说得清的技术伙伴。简介YOLO不仅是一个简单的目标检测模型，
打架检测系统：基于YOLOv5的实时人群打架行为识别 2025年数学建模美赛 YOLO 深度学习 ui 计算机视觉视觉检测
1.引言打架检测，作为一个复杂且具有挑战性的任务，已经在多个领域展现出其巨大的应用潜力，尤其是在公共安全监控、安防摄像头、智能城市等应用场景中。通过深度学习技术，尤其是基于YOLOv5的目标检测，我们能够对实时视频流中的人群行为进行实时监控，并有效地检测和识别人群中的打架行为。本博客将详细介绍如何使用YOLOv5模型搭建一个打架检测系统，包含数据集准备、YOLOv5训练、UI界面设计以及优化和部署
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
Python 图像处理进阶：特征提取与图像分类极客代码玩转Python 玩转AI 开发语言 python 图像处理人工智能
特征提取特征提取是计算机视觉中的一个重要环节，它可以从图像中提取出有助于后续处理的特征，比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。SIFT（尺度不变特征变换）SIFT是一种用于检测图像中的关键点及其描述符的方法。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。原理：SIFT通过在不同尺度的空间内寻找极值点来检测关键点，并利用梯度方向的直方
神经架构搜索：自动化设计神经网络的方法俊星学长架构自动化神经网络
神经架构搜索：自动化设计神经网络的方法一、引言在深度学习领域，神经网络架构的设计对模型的性能具有至关重要的影响。传统的神经网络设计依赖于专家经验和大量实验，这一过程繁琐且耗时。为了解决这一问题，神经架构搜索（NeuralArchitectureSearch,NAS）应运而生。NAS是一种自动化设计神经网络架构的方法，旨在通过搜索最优的神经网络结构来提高模型性能。本文将详细介绍神经架构搜索的定义、产
深度学习盛行，还记得哪些传统机器学习方法和模型？硬件学长森哥人工智能深度学习机器学习人工智能
开头森哥说：假期前后在准备成像技术的总结，目前已完成两部分，争取在摸索出一些编辑和运营技巧后，完善成一个系列和大家见面；当然也有可能会通过一些更加贴合摄影实用的角度出一些更加浅显的内容。最终如何呈现还需要慢慢摸索。传统机器学习是指在深度学习盛行之前开发的机器学习和人工智能技术。这些传统方法通常依赖于手工设计的特征提取和模型结构。而深度学习是一种机器学习技术，它通过深层神经网络从原始数据中学习特征表
1、PyTorch 简介找个栗子 PyTorch开始到sci pytorch 人工智能 python
PyTorch是什么？首先，我们讲PyTorch，我们先讲它的前身--torch。1、torchTorch是PyTorch的前身，Torch是一个有着悠久历史的机器学习框架，最初由RonanCollobert、SoumithChintala和KorayKavukcuoglu等人开发。Torch是以Lua语言为基础，在2002年左右就开始逐渐发展起来，在计算机视觉、自然语言处理等领域有一定的应用。o
【PyTorch】6.张量运算函数：一键开启！PyTorch 张量函数的宝藏工厂 Icomi_ 805.Pytorch入门 pytorch 人工智能 python c语言 c++深度学习机器学习
目录1.常见运算函数个人主页：Icomi专栏地址：PyTorch入门在深度学习蓬勃发展的当下，PyTorch是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术，能够处理复杂的数据模式。通过PyTorch，我们可以轻松搭建各类神经网络模型，实现从基础到高级的人工智能应用。接下来，就让我们一同走进PyTorch的世界，探索神经网络与人
OpenCV在Python 3.6中的安装与应用教程北海有座岛
本文还有配套的精品资源，点击获取简介：OpenCV是一个功能丰富的计算机视觉库，适用于图像处理和分析。本文将介绍如何在Python3.6环境下安装和使用OpenCV，包括处理网络安装困难时的替代方案。同时，本文也涵盖了如何通过预编译的二进制文件（.whl）简化安装过程，并介绍了OpenCV的扩展模块和基础使用方法。1.OpenCV简介和应用领域OpenCV简介OpenCV（OpenSourceCo
无需标定板！Galibr：无需目标的LiDAR相机外参标定新方法计算机视觉工坊 3D视觉从入门到精通数码相机自动驾驶
编辑：3DCV添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程(星球成员免费学习)、最新顶会论文、3D视觉最新模组、3DGS系列(视频+文档)、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！写在前面这篇文章
线性回归的简单实现 SkaWxp 深度学习深度学习机器学习 mxnet gluon
本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了mxnet中的自动求导和数组结构frommxnetimportautograd,ndimportrandom生成随机数据集只有这个是用了自己造的数据，因为线
初入机器学习辰尘_星启机器学习人工智能深度学习 python mxnet
写在前面本专栏专门撰写深度学习相关的内容，防止自己遗忘，也为大家提供一些个人的思考一切仅供参考概念辨析深度学习：本质是建模，将训练得到的模型作为系统的一部分使用侧重于发现样本集中隐含的规律难点是认识并了解模型，合理设置初始模型，要对建模对象有比较深刻的认识依赖大量的准确训练样本强化学习：本质是系统，直接将训练得到的模型视作系统本身（激进的像“端到端”）侧重于最大化当前环境下的奖励，最终目标是寻找环
《SaaS架构设计》试读 DavyYew 11）SaaS与Cloud saas 架构设计云计算 salesforce 互联网数据库
SaaS基础架构—云计算今天的互联网业界对云计算的关注程度，已经不亚于对一次革命。微软、谷歌、Salesforce、Amazon等国外软件巨头纷纷推出了自己的云计算系统，意图领导这一轮的软件新浪潮。国内的阿里巴巴也已经投入大量资源进入云计算这片新的海洋。基于互联网的软件系统需要承担海量的数据、文件、数据库里的数据，等等。这就必然需要可扩充的、廉价的、可靠的和高性能的网络硬盘来提供图片、视频、博客等
深度学习：基于MindNLP的RAG应用开发 Landy_Jay 深度学习人工智能
什么是RAG？RAG（Retrieval-AugmentedGeneration，检索增强生成）是一种结合检索（Retrieval）和生成（Generation）的技术，旨在提升大语言模型（LLM）生成内容的准确性、相关性和时效性。基本思想：通过外部知识库动态检索与用户查询相关的信息，并将检索结果作为上下文输入生成模型，辅助生成更可靠的回答。与传统LLM的区别：传统LLM仅依赖预训练参数中的静态知
深度学习篇---张量&数据流动处理 Ronin-Lotus 深度学习篇深度学习人工智能 python TensorFlow Pytorch 张量数据流动处理
文章目录前言第一部分：张量张量的基本概念1.维度标量（0维）向量（1维）矩阵（2维）三维张量2.形状张量运算1.基本运算加法减法乘法除法2.广播3.变形4.转置5.切片6.拼接7.矩阵分解8.梯度运算：深度学习框架中的张量运算1.自动求导2.硬件加速3.高度优化第二部分：数据流动与处理1.磁盘（硬盘或固态硬盘）读取数据写入数据2.内存（RAM）加载程序和数据数据交换3.缓存CPU缓存磁盘缓存4.数
PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络
神经常微分方程（NeuralODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同，NeuralODEs将变换过程视为深度（或时间）的连续函数。这种方法为机器学习开创了新的研究方向，尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。本文将基于Torchdyn（一个专门用于连续深度学习和平衡模型的PyTorch扩展库）
基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版) 矩阵猫咪 cnn lstm pytorch 注意力机制卷积神经网络长短期记忆网络 Attention
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。在深度学习的众多模型中，卷积神经网络（CNN）和长短期记忆网络（LSTM）因其独特的优势
游戏Gala—基于星际文件系统的非中心化游戏中创算力游戏星际文件系统
如今游戏开发与两年前相比完全不同。今天的游戏是丰富的多媒体和艺术体验的结合，但这种体验深度是有代价的。这些版本中所有令人惊叹的设计、代码和基础架构都需要在存储解决方案中进行改进。随着沉浸式游戏迈向Web3前沿，该领域的开发人员也需要一些工具来组织、分析、归档和部署大量的数据。Galagame是一个能够满足这些需求的解决方案，并且帮助不同的团队和项目开发链上游戏。它的使命是建立一个非中心化的游戏平台
多租户架构未提供统一的安全策略和框架，导致安全策略不一致图幻未来网络安全
多租户架构下的网络安全分析与AI技术应用在云计算和大数据技术的快速发展背景下，多租户架构已成为企业应用的首选。多租户架构允许多个独立的应用共享同一套基础架构和资源池，从而降低了企业的运营成本。然而，多租户架构在给企业带来便利的同时，也面临着一系列安全挑战。本文将围绕多租户架构未提供统一的安全策略和框架导致安全策略不一致的问题展开分析，并探讨AI技术在网络安全领域的应用场景。一、多租户架构下的安全挑
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。