CSU迦叶

＜论文翻译＞RepVGG: Making VGG-style ConvNets Great Again

RepVGG:让VGG风格的卷积网络再一次伟大

文章目录

RepVGG:让VGG风格的卷积网络再一次伟大
- 摘要
- 1. Introduction
- 2. Related Work
- - 2.1 从单路径到多分支
  - 2.2 有效的单路径模型的训练
  - 2.3 模型重新参数化
  - 2.4 温诺格勒(Winograd)卷积
- 3. 通过结构性重新参数化构建RepVGG
- - 3.1 简单就是快，内存经济型，灵活
  - 3.2 训练时间多分支架构
  - 3.3 普通的推理模型的重新化参数
  - 3.4 架构特殊化
- 4. 实验
- - 4.1 RepVGG用于图像分类网络
  - 4.2 结构性的重新化参数是关键
  - 4.3 语义分割
  - 4.4 局限
- 5. 结论
- References

作者

＜论文翻译＞RepVGG: Making VGG-style ConvNets Great Again_第1张图片

摘要

我们提出了一个简单但功能强大的卷积神经网络架构，该架构具有类似于VGG的推理时间体(inference-time body)，该推理体仅由3×3卷积和ReLU的堆栈组成，而训练时间模型具有一个多分支拓扑。训练时间和推理时间架构的这种解耦是通过结构的重新参数化技术(structural re-parameterization technique)实现的，因此模型叫做RepVGG。在ImageNet上，RepVGG达到80％以上top-1精度，据我们所知这是普通模型中的首个。在NVIDIA 1080Ti GPU上，RepVGG模型的运行速度比ResNet-50快83％或101％与诸如EfficientNet和RegNet的最新模型相比，具有比ResNet-101更高的速度和更高的精度，并显示出良好的精度和速度之间的权衡。代码和经过训练的模型可以在这个地址找到:https://github.com/megvii-model/RepVGG.

1. Introduction

卷积神经网络(ConvNets)已经成为许多任务的主流解决方案。 VGG [30]通过由卷积，ReLU和池化组成的组成的简单架构在图像领域实现了巨大的成功。有了Inception [32，33，31，17]，ResNet [10]和DenseNet [15]，许多研究兴趣转移到精心设计的架构，使模型更多、更复杂。最近一些强大的架构是通过自动[43、28、22]或手动[27]架构搜索或在基础体系结构上搜索的复合缩放策略获得的[34]。

fig.1. ImageNet的Top-1准确性与实际速度之间的关系。左：轻量级和中量级RepVGG和训练了120个epoch的基线(baselines)。右：训练了200个epoch的重量级模型。速度是在相同的1080Ti测得的，一个batch的大小为128，全精度(fp32),单笔裁剪(single crop),以示例/秒(examples/second)为单位。用于EfficientNet-B3 [34]的输入分辨率为300，其他则为224。

Table.4. RepVGG模型和基线(baselines)在图网络(ImageNet)上进行了简单数据增强，训练了120个epoch。该速度在1080Ti上测得，批处理量为128，全精度（fp32），以示例/秒(examples/secnd)为单位进行了测量。我们算理论上所述的FLOP和Wino MULs写在了2.4。基线(baselines)是我们具有相同训练设置的实现。

尽管许多复杂的ConvNet都比简单的ConvNet提供更高的准确性，但缺点也很明显。1）复杂的多分支设计(例如，ResNet中的残差加法(residual-addition)和Inception中的分支级联(branch-concatenation))使模型难以实现和定制(customize)，降低了推断速度并降低内存利用率。 2）一些组件(例如，Xception[2]和MobileNets [14，29]中的深度智能卷积(depthwise conv)以及ShuffleNets[23，40]中的频道随机播放(channel ))增加了内存访问成本，并且缺乏各种设备的支持。有这么多影响推论速度的因素，每秒浮点运算次数（FLOP）不能准确反映实际速度。尽管一些新颖的模型的FLOP低于VGG和ResNet-18/34/50 [10]等老式模型，但它们可能并不运行得更快(Table.4)。因此，VGG和ResNets的原始版本在学术界和工业界仍被大量用于实际应用。

fig.2. RepVGG体系结构示意图。RepVGG有5个阶段，并在每个阶段开始时通过stride-2卷积进行下采样。在这里我们只显示一个特定阶段的前4层。受ResNet [10]的启发，我们也使用实体(identity)和1×1分支，但仅用于训练。

在本文中，我们提出了RepVGG，这是一种VGG风格的架构，其性能优于许多复杂的模型(fig.2)。RepVGG具有以下优点。
•模型具有类似VGG(也称为前馈)的朴素拓扑结构，没有任何分支。也就是说，每一层都只需要前一层的输出作为输入并且只输出到其下一层。
•模型的主体仅使用3×3 conv和ReLU。
•具体架构(包括具体深度和图层宽度)不会被实例化以自动搜索[43]，手动优化[27]，复合缩放[34]或其他繁琐的设计。

普通模型要达到和多分支架构可比的性能级别是极有挑战性的。一个解释是多分支的拓扑，例如ResNet，使该模型成为众多更浅的模型的隐式集合[35]，因此可以训练多分支模型避免了梯度消失的问题。

由于多分支体系结构的全部好处在于训练，而缺点则不希望用于推理，因此我们建议通过结构重新参数化(structural re-paramaterization)将训练时间的多分支和推理时间的普通架构解耦，这意味着通过转换其参数将架构转换为另一种。具体而言，一个网络结构是与一组参数耦合的，例如，一个conv层可由一个4th-order kernel tensor。如果某个结构的参数可以转换为与另一种结构耦合的另一组参数，我们可以用后者等效地替换前者，从而改变整个网络体系结构。

fig.4. RepVGG块的结构性重新参数化。为了便于可视化，我们假设C2 = C1 = 2，因此3×3层具有四个3×3矩阵，而1×1层的核是2×2矩阵。

具体来说，我们使用实体(identity)和1×1分支构造训练时的RepVGG，这是受了ResNet的启发，但通过结构性重新参数化可以删除分支（fig.2,4）。训练后，我们用简单的代数进行变换，因为一个实体分支可以看作是退化的1×1 conv，而后者又可以看作是退化的3×3 conv，因此我们可以构造一个具有训练好的原始3×3内核的参数的单一的3×3内核(这句话有点绕)，实体和1×1分支以及批归一化层(batch normalization)[17]。因此，转换后的模型具有许多3×3 conv层，将其保存以进行测试和部署。

fig.3. 剩余(residual)和普通模型中的峰值内存占用。如果残差块保持特征图(feature map)的大小，则特征图占用的内存峰值将是输入值的2倍。与因此忽略的特征相比，模型参数占用的内存较小。

值得注意的是，推理时间RepVGG的主体仅涉及一种单一类型的操作：跟随以ReLU的3×3 conv，这使得RepVGG在诸如GPU之类的通用计算设备上快速运行。更好的是，RepVGG允许专用硬件来实现更高的速度，因为给定了芯片尺寸和功耗，我们需要的操作类型越少，我们可以集成到芯片上的计算单元就越多。即，专用于RepVGG的推理芯片可以具有大量的3×3-ReLU单元和更少的存储单元（因为普通拓扑在存储方面是经济的，如fig.3所示）。我们的贡献总结如下。
•我们提出了RepVGG，这是一种简单的架构，与最新技术相比，具有良好的速度精度折衷。
•我们建议使用结构性重新参数化将训练时的多分支拓扑与推理时的纯体系结构分离。
•我们已经展示了RepVGG在图像分类和语义分割中的有效性，以及实现的效率和简便性。

2. Related Work

2.1 从单路径到多分支

在VGG [30]将ImageNet分类的top-1准确性提高到70％以上之后，在使ConvNets变得复杂以提高性能方面，出现了许多创新，例如，现代的GoogLeNet [32]和后来的采用精心设计的多分支架构的Inception模型[33，31，17]，ResNet [10]提出了一种简化的两分支架构，而DenseNet [15]通过连接低层和高层使拓扑更加复杂。神经架构搜索（NAS）[43、28、22、34]和手动设计空间设计[27]可以生成具有更高性能的ConvNet，但要付出大量计算资源或人力的代价。 NAS生成的模型的某些大型版本甚至无法在普通GPU上进行训练，因此限制了应用程序。除了执行上的不便外，复杂的模型可能会降低并行性[23]，因此减慢了推理速度。

2.2 有效的单路径模型的训练

已经进行了一些在没有分支结构的情况下训练ConvNets的尝试。但是，现有技术主要试图使非常深的模型以合理的精度收敛，而不是使其比复杂的模型获得更好的性能。因此，方法和结果模型既不简单也不实际。例如，一种初始化方法[36]被提出以训练非常深的普通的ConvNets。通过基于均值场理论的方案，训练了10,000层以上的网络，在MNIST上取得了超过99%的精度，在CIFAR-10上取得了82％以上的精度。尽管这些模型不切实际（即使LeNet-5 [19]在MNIST上可以达到99.3％的准确度，而VGG-16在CIFAR10上也可以达到93％以上的准确度），但是理论上的贡献是有见地的。最近的一项工作[24]结合了多种技术，包括Leaky ReLU，max-norm和小心的初始化。在ImageNet上，它显示具有147M参数的普通ConvNet可以达到74.6％的top-1精度，比其报告的基线（ResNet-101，76.6％，45M参数）低2％。

值得注意的是，本文不仅说明普通模型可以很好地收敛，而且不打算训练像ResNets这样的非常深的ConvNets，而是旨在构建一个具有合理深度和有利的精度-速度折衷的简单模型，可以使用最常见的组件（例如常规conv和BN）和简单的代数简单地实现。

2.3 模型重新参数化

DiracNet [38]是与我们相关的重新参数化方法。它通过将conv层的内核编码为W = diag（a）I + diag（b）Wnorm来构建深度普通模型，其中W是用于卷积的最终权重（将四阶张量视为矩阵），a和b是学习的向量，Wnorm是归一化的可学习内核。与具有相当数量参数的ResNet相比，DiracNet的top-1准确性比CIFAR100低2.29％（78.46％对80.75％），比ImageNet低0.62％（DiracNet-34的72.21％对ResNet-34的72.83％）。 DiracNet与我们的方法的不同之处在于：1）我们的结构重新参数化是实际的数据流通过一个具体的结构来实现的，之后可以将其转换成另一个，而DiracNet仅使用conv内核的另一个数学表达式来简化优化。即，结构上重新参数化的纯模型是真实的训练时多分支模型，而DiracNet不是。 2）DiracNet的性能高于一般参数化的普通模型，但低于相当大的ResNet，而RepVGG模型的性能超出ResNets很大的距离。非对称转换块（ACB）[9]采用非对称转换来增强常规conv的“骨架”，从将训练后的块转换为一个conv的意义上来说，这可以看作是结构重新参数化的另一种形式。与我们的方法相比，区别在于ACB是为组件级改进而设计的，并且可以用作任何架构中conv层的直接替代品，而我们的结构重新参数化对于训练普通的ConvNets至关重要，如4.2节所示。

Table.5. RepVGG模型和baselines在带有自动增强、标签平滑和mixup的情况下训练了200个epochs.

2.4 温诺格勒(Winograd)卷积

Table.1. 在NVIDIA 1080Ti上具有不同内核大小速度测试,批处理大小= 32，输入通道=输出通道= 2048，分辨率=56×56，步幅= 1。时间的结果是硬件预热后使用10次的结果平均。

RepVGG仅使用3×3 conv，因为它已在GPU和CPU上得到了一些现代计算库（如NVIDIA cuDNN [1]和Intel MKL [16]）的高度优化。Table.1显示了在1080Ti GPU上使用cuDNN 7.5.0测试的理论FLOP，实际运行时间和计算密度（以每秒Tera浮点运算为单位，即TFLOPS）2。结果表明，3×3 conv的理论计算密度约为其他的4倍，这表明总的理论FLOP不能替代不同结构中的实际速度。 Winograd算法[18]（仅当步幅为1时）是加速3×3 conv的经典算法，该类库已经得到了像cuDNN和MKL这样的类库的很好的支持（默认情况下启用）。例如，使用标准F（2×2、3×3）Winograd，3×3conv的乘积（MUL）减少为原来的4/9。由于乘法比加法耗时得多，因此我们计算MUL来衡量Winograd支持下的计算成本（在Table 4、5中由Wino MUL表示）。请注意，特定的计算库和硬件决定是否对于每个运营商使用Winograd，因为小规模的卷积由于内存开销未必会被加速。

3. 通过结构性重新参数化构建RepVGG

3.1 简单就是快，内存经济型，灵活

至少有三个使用简单ConvNets的理由：快、内存经济以及灵活。
**关于快。**许多最新的多分支架构具有比VGG更低的理论FLOP，但运行速度可能并不更快。例如，VGG-16有着EfficientNet-B3 [34]8.4倍的FLOP，但在1080Ti上的运行速度高出其1.8倍（表4），这意味着前者的计算密度是后者的15倍。除了Winograd conv带来的加速以外，FLOP和速度之间的差异可以归因于两个重要因素，它们对速度有很大影响，但FLOP并未考虑这些因素：内存访问成本（memory access cost,MAC）和并行度[23]。例如，尽管所需的分支加法或级联计算可以忽略不计，但MAC还是很重要的。此外，MAC在成组卷积中占时间使用的很大一部分。另一方面，有着相同数目的FLOP，具有高并行度的模型可能比具有低并行度的模型快得多。由于在Inception和自动生成的架构中广泛采用了多分支拓扑，因此使用了多个小运算符，而不是几个大运算符。先前的一项工作[23]报告说，NASNET-A [42]中的碎片运算符的数量（即，单个构建块中的单个conv或池操作的数量）为13，这对具有强大并行计算能力的设备（如GPU）不友好，引入了额外的开销，例如内核启动和同步。相比之下，这个数字在ResNets中是2或3，我们做到1：一次转换。
**关于内存经济。**多分支拓扑是内存效率低下的，因为每个分支的结果都需要保持到添加或串联为止，从而显着提高了内存占用的峰值。例如，如fig.3所示，一个剩余块的输入需要保持到它被相加。假设该块保持特征图的大小，则存储器占用的峰值为输入的2倍。相反，简单的拓扑结构允许在操作完成后立即释放特定层的输入所占用的内存。在设计专用硬件时，普通的ConvNet可以进行深度内存优化并降低内存单元的成本，因此我们可以将更多计算单元集成到芯片上。
**关于灵活。**多分支拓扑对架构规范施加了约束。例如，ResNet要求将conv层组织为残差块，这限制了灵活性，因为每个残差块的最后一个conv层必须产生相同形状的张量，否则快捷方式添加将没有意义。更糟糕的是，多分支拓扑限制了channel pruning的应用[20，12]，这是一种实用的技术，可以去除一些不重要的通道，并且某些方法可以通过自动发现每层的适当宽度来优化模型结构[7]。但是，多分支模型使修剪变得棘手，并导致显著的性能下降或低加速率。相比之下，简单的架构使我们可以根据我们的要求自由配置每个conv层，并进行修剪以获得更好的性能与效率间的权衡。

3.2 训练时间多分支架构

普通的ConvNets有很多优点，但有一个致命的缺点：性能不佳。例如，使用BN [17]等现代组件，VGG-16可以在ImageNet上达到72％的top-1精度，似乎已经过时。我们的结构化重新参数化方法受到ResNet的启发，该方法显式构造了一个捷径分支，将信息流建模为y = x + f（x），并使用残差块学习f。当x和f（x）的尺寸不匹配时，它变为y = g（x）+ f（x），其中g（x）是由1×1 conv实现的卷积捷径。 ResNets成功的一个解释是，这种多分支架构使该模型成为许多较浅模型的隐式集成[35]。具体来说，对于n个块，该模型可以解释为2 ^ n个模型的集合，因为每个块将流分支为两条路径。

鉴于多分支拓扑结构有着推理上的缺点但是分支似乎对训练有利，我们使用多个分支来制作众多模型的唯一训练时间集合。为了使大多数成员更浅或更简单，我们使用类似于ResNet的实体（仅在尺寸匹配时）和1×1分支，以便构建块的训练时信息流为y = x + g（x）+ f（x）。我们简单地堆叠几个这样的块来构建训练时间模型。从与[35]相同的角度来看，模型成为具有n个这样的块的3 ^ n个成员的集合。训练后，将其等效转换为y = h（x），其中h由单个conv层实现，并且其参数是通过一系列代数运算从训练后的参数中得出的。

3.3 普通的推理模型的重新化参数

(以下两段鉴于公式原因直接截图了)

上面的变换也适用于实体分支，因为身份映射可以视为以实体矩阵为内核的1×1 conv。经过这样的转换，我们将有一个3×3内核，两个1×1内核和三个偏置向量。然后，我们通过将三个偏差向量相加来获得最终偏差，并通过将1×1内核与3×3内核的中心点相加来获得最终3×3内核，这可以通过首先对两个1×1内核进行零填充转换为3×3内核，然后将三个内核相加轻松,如fig.4所示。请注意，此类转换的等效性要求3×3和1×1层具有相同的步幅，并且填充配置为后者应比前者少一个像素。例如，对于3×3的图层，将输入填充一个像素（这是最常见的情况），则1×1的图层应具有padding = 0。

3.4 架构特殊化

Table.2. RepVGG的架构具体化。例如，2x64a意味着阶段2有两层，每层有64a个channel.

Table.2显示了RepVGG的具体，包括深度和宽度。 RepVGG是VGG风格的，在某种意义上它采用简单的拓扑并大量使用3×3 conv，但是它不像VGG那样使用max pooling，因为我们希望主体仅具有一种类型的操作。我们将3×3层安排进5个阶段，阶段的第一层向下采样，步幅=2。对于图像分类，我们使用全局平均池化，然后使用完全连接的层作为头部。对于其他任务，可以在任何层产生的特征上使用特定于任务的头。

我们遵循三个简单的准则来决定每个阶段的层数。 1）第一阶段以高分辨率运行，这很耗时，因此我们仅使用一层来降低延迟。 2）最后一级应具有更多通道，因此我们仅使用一层来保存参数。 3）我们将最多的图层放到倒数第二个阶段(在ImageNet上具有14×14的输出分辨率)，紧随ResNet及其最新版本10、27、37(例如，ResNet-101在其14×14分辨率阶段使用69层)。我们让这五个阶段分别具有1、2、4、14、1层，构造出一个名为RepVGG-A的实例。我们还构建了更深的RepVGG-B，在stage2、3和4中各增加了2层。我们使用RepVGG-A与其他轻量级和中等重量的模型(包括ResNet-18 / 34/50和RepVGG-B)比较，使用RepVGG-B与其他高性能的模型比较。

我们通过均匀缩放[64、128、256、512]的经典宽度设置（例如VGG和ResNets）来确定图层宽度。我们使用乘数a来缩放前四个阶段，使用b来缩放最后一个阶段，通常设置b> a，因为我们希望最后一层对分类或其他下游任务具有更丰富的功能。由于RepVGG在最后阶段只有一层，因此较大的b不会显着增加等待时间或参数数量。具体而言，stage2、3、4、5的宽度为[64a，128a，256a，512b]。
为了避免在大特征图上进行大卷积，如果a <1，我们将减小stage1的大小，但不对其进行放大，以使stage1的宽度为min(64，64a)。

为了进一步减少参数和计算量，我们可以选择将按行排列的3×3 conv层与密集的层进行交织，以牺牲精度来提高效率。具体来说，我们为RepVGG-A的第3、5、7，…，21层以及RepVGG-B的第23、25和27层设置组数g。为简单起见，我们将此类层的g全局设置为1、2或4，而无需逐层调整。我们不使用相邻逐层的conv层，因为那样会禁用通道间信息交换并带来副作用[40]：某个通道的输出只能从一小部分输入通道中得出。请注意，1×1分支应具有与3×3 conv相同的g。

4. 实验

在本节中，我们将RepVGG的性能与ImageNet上的基线进行比较，通过一系列消融研究和比较证明结构性重新参数化的重要性，并验证RepVGG在语义分割上的泛化性能[41]。

4.1 RepVGG用于图像分类网络

Table.3. 由乘数a和b定义的RepVGG模型

我们在1k的Inage-Net上将RepVGG与经典和最先进的模型进行比较，其中包括ImageNet1K [5]上的VGG-16 [30]，ResNet [10]，ResNeXt [37]，EfficientNet [34]和RegNet [27]，其中包括1.28 用于训练的M张高分辨率图像，1000类别的50K验证图像。我们分别使用EfficientNet-B0 / B3和RegNet-3.2GF / 12GF作为中量级和重量级最新技术模型的代表。我们改变乘数a和b来生成一系列RepVGG模型以与基线进行比较。如Table.3中总结。

我们首先将RepVGG与最常用的基准ResNets [10]进行比较。为了与ResNet-18进行比较，我们为RepVGG-A0设置a = 0.75，b = 2.5。对于ResNet-34，我们使用更宽的RepVGG-A1。为了使RepVGG的参数比ResNet-50略少，我们构建RepVGG-A2的a = 1.5，b = 2.75。为了与更大的模型进行比较，我们构造了宽度增加的更深的RepVGG B0 / B1 / B2 / B3。对于那些具有交错的分组层的RepVGG模型，我们将g2 / g4附加到模型名称作为后缀。

为了训练轻量级和中量级模型，我们仅使用简单的数据增强管道，包括随机裁剪(random cropping)和左右翻转(left-right flipping)，遵循官方的PyTorch示例26。我们在8个GPU上使用256的全局批处理大小，将学习率初始化为0.1，并进行120个epoch的余弦退火，标准SGD的动量系数为0.9，并且在conv和完全连接层的内核上设置权重衰减为10^-4。对于包括RegNetX-12GF，EfficientNet-B3和RepVGG-B3在内的重量级模型，我们使用5-epoch预热，余弦学习率退火200个epoch，标签平滑33和混合39(以下[11])，以及一个自动增强(Autoaugment) [4]，随机裁剪和翻转的数据增强管道。 RepVGG-B2及其g2 / g4变体在这两种设置中都经过训练。我们测试每个模型的速度，批处理大小为128，在1080Ti GPU 上，首先喂入50个batch以预热硬件，然后记录50个batch并记录时间使用情况。为了公平地比较，我们在同一GPU上测试所有模型，并且所有基线的conv-BN序列也都转换为带偏差的conv(等式3)。

在Table.4和fig.1中，RepVGG显示出良好的精度-速度折衷。例如，就准确性和速度而言，RepVGG-A0比ResNet-18好1.25％和33％，RepVGG-A1比ResNet34好0.29％/ 64％，RepVGG-A2比ResNet-50好0.17％/ 83％。通过逐层交错(g2 / g4)，可以通过牺牲精度进一步加速RepVGG模型。例如RepVGG-B1g4比ResNet-101好0.37％/ 101％，而RepVGG-B1g2则以与ResNet-152相同的精度达到其2.66倍的速度。尽管参数数量不是我们主要关注的，以上所有RepVGG模型都比ResNets具有更高的参数效率。与经典的VGG-16相比，RepVGGB2仅具有58％的参数，但运行速度快10％，精度高6.57％。与用RePr [25]（一种基于修剪的精心设计的训练方法）训练的VGG模型（据我们所知，它是精度最高(74.5%)的类VGG模型）相比，RepVGG-B2的准确度超出其4.28％。

与最先进的基线相比，RepVGG考虑到其简单性也显示出良好的性能：RepVGG-A2比EfficientNetB0好1.37％/ 59％，RepVGG-B1比RegNetX3.2GF好0.39％，并且运行速度稍快。

值得注意的是，RepVGG模型经过200个epoch达到了80％以上的精度（表5），这是普通模型首次据我们所知赶上最新技术。与RegNetX-12GF相比，RepVGGB3的运行速度提高了31％，考虑到RepVGG不需要像RegNet [27]那样的大量人力来完善设计空间，并且架构超参数是随便设置的，因此这令人印象深刻。

作为计算复杂性的两个代理，我们计算了2.4部分中介绍的理论FLOP和Wino MULs。例如，我们发现Winograd算法不会加速EfficientNet-B0 / B3中的conv。Table.4显示Wino MUL在GPU上是更好的代理，例如ResNet-152的运行速度比VGG-16慢，理论FLOP较低，但Wino MUL较高。当然，实际速度应始终是黄金标准。

4.2 结构性的重新化参数是关键

Table.6. 在ImageNet上经过120个epoch的消融实验

Table.7. 在训练了120个epoch的RepVGG-B0上与变体和基线进行比较

在本小节中，我们验证了结构性重新参数化技术的重要性(Table. 6)。使用上述相同的简单训练设置，从头开始训练所有模型120个epoch。首先，我们通过从RepVGG-B0的每个块中删除实体和/或1×1分支来进行消融研究。删除全部分支后，训练时间模型会降级为简单的普通模型，并且只能达到72.39％的准确性。1x1分支精度提高到73.15％，实体的精度提高到74.79%。全功能RepVGG-B0的精度为75.14％，比一般的普通模型高2.75％。

• Identity w/o BN 删除了实体分支中的BN。
• Post-addition BN 会删除三个分支中的BN层，并在添加后附加一个BN层。即，将BN的位置由前添加更改为后添加。
• +ReLU in branches 将ReLU插入每个分支中(在BN之后，添加之前). 由于无法将这样的块转换为单个conv层，因此没有实际用途，我们仅希望了解更多的非线性是否会带来更高的性能。
• DiracNet [38] 采用了经过精心设计的conv内核重新参数化，如2.2中所述。 2.2。我们使用其官方PyTorch代码构建图层以替换原始的3×3 conv。
• Trivial Re-param 是通过将实体内核直接添加到3×3内核中来对conv内核进行更简单的重新参数化，可以将其视为DiracNet的降级版本(W’ = I + W [38])。
• Asymmetric Conv Block (ACB) [9] 可以看作是结构性重新参数化的另一种形式。我们将其与ACB进行比较，以查看结构性重新参数化的改进是否归因于组件级的超参数化(即额外的参数使每3×3 conv更强)。
• Residual Reorg 通过以类似于ResNet的方式重新组织每个阶段(每个块2层)。具体而言，生成的模型在第一和最后一个阶段具有一个3×3层，在stage2、3、4中具有2、3、8个残差块，并且使用类似于ResNet-18 / 34的快捷方式。

我们认为结构重参数优于DiractNet和琐碎重参数的事实在于，前者依赖于通过具有非线性行为(BN)的具体结构的实际数据流，而后者仅使用了conv核的另一种数学表达式。即，前者“重新参数化”的意思是“使用一个结构的参数来参数化另一个结构”，而后者的意思是“首先使用另一组参数计算参数，然后将其用于其他计算”。对于训练时间BN等非线性分量，前者无法近似。有证据表明，通过去除BN会降低准确性，而通过添加ReLU会提高准确性。换句话说，尽管可以将RepVGG块等效地转换为单个conv进行推理，但是推理时间等价并不意味着训练时间等价，因为我们无法构造一个conv层使其具有与RepVGG块相同的训练时间行为。

与ACB的比较表明，RepVGG的成功不应仅仅归因于每个组件的过度参数化，因为ACB使用更多的参数，但不能像RepVGG一样提高性能。仔细再检查一下，我们将ResNet-50的每3×3 conv转换用一个RepVGG块替换，并从头开始训练120个epoch。准确性为76.34％，仅比ResNet50基线高0.03％，这表明RepVGG风格的结构性重新参数化不是通用的过度参数化技术，而是对训练功能强大的普通ConvNets至关重要的方法。

与残差重组(residual reorg)相比，一个具有相同数量的3×3 conv和额外的捷径的真实残差网络，在训练和推理方面，RepVGG的表现高出0.58％，这并不奇怪，因为RepVGG的分支结构要多得多。例如，分支使RepVGG的stage4成为2×3 ^ 15 = 2.8×10 ^ 7个模型的整体[35]，而残差重组的数目为2 ^ 8 = 256。

4.3 语义分割

Table.8. 在验证子集上对Cityscapes [3]上的语义分割进行了测试。在同一1080Ti GPU上以批处理大小16，全精度（fp32）和输入分辨率713×713测试了速度（单位示例/秒）。

我们验证了ImageNet预训练的RepVGG在Cityscapes [3]上的语义分割的泛化性能，其中包含5K精细注释的图像和19个类别。我们使用PSPNet [41]框架，一个以0.01为底，功效为0.9，重量衰减为10 ^ −4且全局批次大小为16的多学习率策略。在8个GPU上训练了40个epoch。为了公平起见，我们仅将ResNet-50 / 101主干更改为RepVGG-B1g2 / B2，保持其他设置相同。

继正式实现PSPNet-50 / 101 [41]，即在ResNet-50 / 101的后两个阶段中使用膨胀的conv，我们还将RepVGG-B1g2 /的后两个阶段中的所有3×3 conv层B2扩张了。由于目前效率不高的3 x 3扩张conv(尽管FLOP与3 x 3常规conv相同)，这样的修改会减慢推理速度。为了便于比较，我们构建了另外两个(Table.8中用fast表示）仅在最后5层（即stage4的最后4层和stage5的唯一层）上进行扩张的PSPNet，以便于PSPNet比相当的ResNet-50 / 101骨干网快一点。结果表明，RepVGG主干网的性能比ResNet-50和ResNet-101分别高出1.71％和1.01％，在平均IoU情况下有着更高的速度。令人印象深刻的是，RepVGG-B1g2-fast在mIoU中比ResNet101主干网高0.37，运行速度快62％。有趣的是，对于较大的模型，扩张似乎更有效，因为与RepVGG-B1g2-fast相比，使用更多扩张的conv层不会提高性能，但会因合理地慢下来将RepVGG-B2的mIoU提高1.05％。

4.4 局限

RepVGG模型是快速，简单和实用的ConvNet，旨在在GPU和专用硬件上以最快的速度运行，而无需考虑参数或理论FLOP的数量。尽管RepVGG模型比ResNets更具参数效率，但对于低功耗设备，它们可能不如MobileNets [14、29、13]和ShuffleNets [40、23]这样的移动方式模型受青睐。

5. 结论

我们提出了RepVGG，这是一个由3×3 conv和ReLU构成的简单架构，这使其特别适合于GPU和专用推理芯片。通过我们的结构性重新参数化方法，如此简单的ConvNet在ImageNet上达到了80%的精确度第一，和与最先进的复杂模型相比，它显示出优良的速度精度折衷。

References

[1] Sharan Chetlur, Cliff Woolley, Philippe Vandermersch,Jonathan Cohen, John Tran, Bryan Catanzaro, and Evan Shelhamer. cudnn: Efficient primitives for deep learning.
arXiv preprint arXiv:1410.0759, 2014. 3
[2] Franc¸ois Chollet. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1251–1258, 2017. 1
[3] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016,pages 3213–3223. IEEE Computer Society, 2016. 8
[4] Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. Autoaugment: Learning augmentation strategies from data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 113–123,2019. 6, 7
[5] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition,2009. CVPR 2009. IEEE Conference on, pages 248–255. IEEE, 2009. 6
[6] Xiaohan Ding, Guiguang Ding, Yuchen Guo, and Jungong Han. Centripetal sgd for pruning very deep convolutional networks with complicated structure. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4943–4953, 2019. 4
[7] Xiaohan Ding, Guiguang Ding, Yuchen Guo, Jungong Han,and Chenggang Yan. Approximated oracle filter pruning for destructive cnn width optimization. In International Conference on Machine Learning, pages 1607–1616, 2019. 4
[8] Xiaohan Ding, Guiguang Ding, Jungong Han, and Sheng Tang. Auto-balanced filter pruning for efficient convolutional neural networks. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018. 4
[9] Xiaohan Ding, Yuchen Guo, Guiguang Ding, and Jungong Han. Acnet: Strengthening the kernel skeletons for powerful cnn via asymmetric convolution blocks. In Proceedings of the IEEE International Conference on Computer Vision,pages 1911–1920, 2019. 3, 7, 8
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 1, 2, 5, 6
[11] Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, and Mu Li. Bag of tricks for image classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 558–567, 2019. 6
[12] Yihui He, Xiangyu Zhang, and Jian Sun. Channel pruning for accelerating very deep neural networks. In International Conference on Computer Vision (ICCV), volume 2, page 6,2017. 4
[13] Andrew Howard, Ruoming Pang, Hartwig Adam, Quoc V.Le, Mark Sandler, Bo Chen, Weijun Wang, Liang-Chieh Chen, Mingxing Tan, Grace Chu, Vijay Vasudevan, and Yukun Zhu. Searching for mobilenetv3. In 2019 IEEE/CVF International Conference on Computer Vision, ICCV 2019,Seoul, Korea (South), October 27 - November 2, 2019, pages 1314–1324. IEEE, 2019. 9
[14] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017. 1, 9
[15] Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q. Weinberger. Densely connected convolutional networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, July 21-26, 2017, pages 2261–2269. IEEE Computer Society, 2017. 1, 2
[16] Intel. Intel mkl. https://software.intel.com/content / www / us / en / develop / tools / math -kernel-library.html, 2020. 3
[17] Sergey Ioffe and Christian Szegedy. Batch normalization:Accelerating deep network training by reducing internal covariate shift. In International Conference on Machine Learning, pages 448–456, 2015. 1, 2, 4
[18] Andrew Lavin and Scott Gray. Fast algorithms for convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4013–4021, 2016. 3 [19] Yann LeCun, Leon Bottou, Yoshua Bengio, and Patrick ´Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.3
[20] Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, and Hans Peter Graf. Pruning filters for efficient convnets. arXiv preprint arXiv:1608.08710, 2016. 4
[21] Tsung-Yi Lin, Priya Goyal, Ross B. Girshick, Kaiming He, and Piotr Dollar. Focal loss for dense object detection. In ´IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017, pages 2999–3007.IEEE Computer Society, 2017.
[22] Chenxi Liu, Barret Zoph, Maxim Neumann, Jonathon Shlens, Wei Hua, Li-Jia Li, Li Fei-Fei, Alan Yuille, Jonathan Huang, and Kevin Murphy. Progressive neural architecture search. In Proceedings of the European Conference on Computer Vision (ECCV), pages 19–34, 2018. 1, 2
[23] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun.Shufflenet v2: Practical guidelines for efficient cnn architecture design. In Proceedings of the European conference on computer vision (ECCV), pages 116–131, 2018. 1, 3, 4, 9
[24] Oyebade K Oyedotun, Djamila Aouada, Bjorn Ottersten, ¨et al. Going deeper with neural networks without skip connections. In 2020 IEEE International Conference on Image Processing (ICIP), pages 1756–1760. IEEE, 2020. 3
[25] Aaditya Prakash, James A. Storer, Dinei A. F. Florencio, and ˆCha Zhang. Repr: Improved training of convolutional filters. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019, Long Beach, CA, USA, June 16-20, 2019, pages 10666–10675. Computer Vision Foundation/ IEEE, 2019. 7
[26] PyTorch. Pytorch example. https://github.com/pytorch / examples / blob / master / imagenet /main.py, 2019. 6
[27] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick,Kaiming He, and Piotr Dollar. Designing network design ´spaces. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10428–10436, 2020. 1, 2, 5, 6, 7
[28] Esteban Real, Alok Aggarwal, Yanping Huang, and Quoc V Le. Regularized evolution for image classifier architecture search. In Proceedings of the aaai conference on artificial intelligence, volume 33, pages 4780–4789, 2019. 1, 2
[29] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4510–4520, 2018. 1, 9
[30] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 1, 2, 6
[31] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In Thirty-first AAAI conference on artificial intelligence, 2017. 1, 2
[32] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015.1, 2
[33] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages2818–2826, 2016. 1, 2, 6
[34] Mingxing Tan and Quoc V Le. Efficientnet: Rethinking model scaling for convolutional neural networks. arXiv preprint arXiv:1905.11946, 2019. 1, 2, 3, 6
[35] Andreas Veit, Michael J Wilber, and Serge Belongie. Residual networks behave like ensembles of relatively shallow networks. In Advances in neural information processing systems, pages 550–558, 2016. 2, 4, 8
[36] Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein,Samuel Schoenholz, and Jeffrey Pennington. Dynamical isometry and a mean field theory of cnns: How to train
10,000-layer vanilla convolutional neural networks. In International Conference on Machine Learning, pages 5393–5402, 2018. 3
[37] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, and ´Kaiming He. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1492–1500,2017. 5, 6
[38] Sergey Zagoruyko and Nikos Komodakis. Diracnets: Training very deep neural networks without skip-connections.arXiv preprint arXiv:1706.00388, 2017. 3, 7, 8
[39] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017. 6
[40] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun.Shufflenet: An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6848–6856, 2018. 1, 6, 9
[41] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, July 21-26, 2017,pages 6230–6239. IEEE Computer Society, 2017. 6, 8
[42] Barret Zoph and Quoc V Le. Neural architecture search with reinforcement learning. arXiv preprint arXiv:1611.01578,2016. 4
[43] Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V Le. Learning transferable architectures for scalable image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8697–8710, 2018. 1, 2

你可能感兴趣的:(语义分割,论文翻译,机器学习)

如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/