AI浩

RepLKNet将内核扩展到 31x31：重新审视 CNN 中的大型内核设计

文章目录

摘要
一、简介
二、相关工作
- 2.1、大内核模型
- 2.2. 模型缩放技术
- 2.3. 结构重新参数化
三、应用大卷积的指南
四、 RepLKNet：大内核架构
- 4.1、架构规范
- 4.2. 使大内核更大
- 4.3. ImageNet 分类
- 4.5.物体检测
五、讨论
- 5.1. 大内核 CNN 比深度小内核模型具有更大的 ERF
- 5.2. 大核模型在形状偏差上更类似于人类
- 5.3.大型内核设计是与 ConvNeXt 一起使用的通用设计元素
- 5.4. 大内核的性能优于具有高膨胀率的小内核
六、限制
七、结论

摘要

我们重新审视现代卷积神经网络 (CNN) 中的大内核设计。受vision transformers (ViT) 最新进展的启发，在本文中，我们证明了使用一些大型卷积核而不是一堆小核可能是一种更强大的范例。我们提出了五个指导方针，例如，应用重新参数化的大深度卷积来设计高效的高性能大内核 CNN。根据指南，我们提出了 RepLKNet，这是一种纯 CNN 架构，其内核大小高达 31×31，而不是常用的 3×3。RepLKNet 极大地缩小了 CNN 和 ViT 之间的性能差距，例如，在 ImageNet 和一些典型的下游任务上实现了与 Swin Transformer 相当或更好的结果，并且延迟更低。 RepLKNet 还显示出对大数据和大型模型的良好可扩展性，在 ImageNet 上获得 87.8% 的 top-1 准确率，在 ADE20K 上获得 56.0% mIoU，这在具有相似模型大小的最先进技术中非常具有竞争力。我们的研究进一步表明，与小核 CNN 相比，大核 CNN 具有更大的有效感受野和更高的形状偏差而不是纹理偏差。代码和模型在https://github.com/megvii-research/RepLKNet 上。

一、简介

卷积神经网络 (CNN) [42, 55] 曾经是现代计算机视觉系统中视觉编码器的常见选择。然而，最近，CNN [42, 55] 受到vision transformers (ViTs) [35,61, 89, 98] 的极大挑战，它们在许多视觉任务上都表现出了领先的性能——不仅是图像分类 [35, 109] 和表示学习 [4, 10, 17, 105]，还有许多下游任务，例如对象检测 [25,61]、语义分割 [98, 103] 和图像恢复 [11, 56]。为什么 ViT 超级强大？一些工作认为，ViTs 中的多头自我注意 (MHSA) 机制起着关键作用。他们提供了实证结果来证明，MHSA 更灵活 [52]，能够（更少的归纳偏差）[21]，对失真更稳健 [68, 103]，或者能够模拟长期依赖关系 [71, 93]。但是一些工作挑战了 MHSA [121] 的必要性，将 ViT 的高性能归因于适当的构建块 [34] 和/或动态稀疏权重 [40,116]。更多作品 [21,40,44,100,121] 从不同的角度解释了 ViT 的优越性。

在这项工作中，我们专注于一个观点：建立大感受野的方式。在 ViT 中，MHSA 通常设计为全局 [35、80、98] 或局部但具有大内核 [61、72、92]，因此单个 MHSA 层的每个输出都能够从大区域收集信息。然而，大内核在 CNN 中并不普遍使用（第一层 [42] 除外）。相反，一种典型的方式是使用许多小的空间卷积1 [42, 46, 49, 70, 79, 84, 114]（例如，3×3）来扩大最先进的感受野CNN。只有一些老式的网络，如 AlexNet [55]、Inceptions [81-83] 和一些源自神经架构搜索的架构 [39,45,58,122] 采用大空间卷积（其大小大于 5）作为主要部分。上面的观点自然会引出一个问题：如果我们对传统的 CNN 使用一些大的而不是许多小的内核会怎样？大内核还是构建大感受野的方式是缩小 CNN 和 ViT 之间性能差距的关键？

为了回答这个问题，我们系统地探索了 CNN 的大内核设计。我们遵循一个非常简单的“哲学”：只需将大的深度卷积引入常规网络，其大小范围从 3×3 到 31×31，尽管还有其他替代方案可以通过单层或几层引入大的感受野，例如特征金字塔 [96]、扩张卷积 [14、106、107] 和可变形卷积 [24]。通过一系列实验，我们总结了有效使用大卷积的五个经验指南：1）非常大的内核在实践中仍然是有效的； 2) 身份快捷方式至关重要，尤其是对于具有非常大内核的网络； 3）用小内核重新参数化[31]有助于弥补优化问题； 4) 大卷积比 ImageNet 更能提升下游任务； 5）即使在小特征图上，大内核也很有用。

基于上述指导方针，我们提出了一种名为 RepLKNet 的新架构，这是一种纯 CNN，其中使用重新参数化的大卷积来构建大的感受野。我们的网络总体上遵循 Swin Transformer [61] 的宏观架构，并进行了一些修改，同时用大的深度卷积替换了多头自注意力。我们主要对中型和大型模型进行基准测试，因为过去人们认为 ViT 在大数据和模型上优于 CNN。在 ImageNet 分类上，我们的基线（与 Swin-B 相似的模型大小），其内核大小高达 31×31，仅在 ImageNet-1K 数据集上训练的 top-1 准确率达到 84.8%，这比 Swin-B 好 0.3%，但延迟效率更高。

更重要的是，我们发现大内核设计在下游任务上特别强大。例如，在相似的复杂度和参数预算下，我们的网络在 COCO 检测 [57] 上比 ResNeXt-101 [104] 或 ResNet-101 [42] 骨干网高出 4.4%，在 ADE20K 分割 [120] 上高出 6.1%，这也在与对应的 Swin Transformers 相当甚至更好，但推理速度更快。鉴于更多的预训练数据（例如，73M 图像）和更多的计算预算，我们的最佳模型在具有相似模型大小的最先进技术中获得了非常有竞争力的结果，例如在 ImageNet 上的 top-1 准确率为 87.8%，在 ADE20K 上为 56.0%，这表明对大规模应用程序具有出色的可扩展性。

我们认为 RepLKNet 的高性能主要是因为通过大内核构建的大有效感受野 (ERF) [65]，如图 1 所示。此外，与传统 CNN 相比，RepLKNet 显示出利用更多的形状信息，这部分地符合人类的认知。我们希望我们的发现可以帮助理解 CNN 和 ViT 的内在机制。

二、相关工作

2.1、大内核模型

正如介绍中提到的，除了一些老式的模型，如 Inceptions [81-83] 之外，大型内核模型在 VGG-Net [79] 之后变得不流行。一项具有代表性的工作是全局卷积网络（GCN）[69]，它使用非常大的 1×K 卷积，然后是 K×1 来改进语义分割任务。然而，据报道大内核会损害 ImageNet 的性能。局部关系网络 (LRNet) [47] 提出了一种空间聚合算子 (LRLayer) 来代替标准卷积，可以将其视为动态卷积。 LR-Net 可以从 7×7 的内核大小中受益，但性能会随着 9×9 下降。使用与特征图一样大的内核大小，top-1 准确率从 75.7% 显着降低到 68.4%。

最近，Swin Transformers [61] 提出使用偏移窗口注意力来捕获空间模式，其窗口大小范围从 7 到 12，也可以看作是大内核的变体。后续 [33, 60] 采用更大的窗口尺寸。受这些本地转换器成功的启发，最近的一项工作 [40] 在 [61] 中用静态或动态 7×7 深度卷积替换了 MHSA 层，同时仍保持可比较的结果。尽管 [40] 提出的网络与我们的设计模式相似，但动机不同：[40] 没有研究 ERF、大内核和性能之间的关系；相反，它将视觉转换器的卓越性能归因于稀疏连接、共享参数和动态机制。另外三个具有代表性的作品是 Global Filter Networks (GFNets) [74]、CKConv [76] 和 FlexConv [75]。 GFNet优化了傅里叶域中的空间连接权重，相当于空间域中的循环全局卷积。 CKConv 将内核制定为连续函数来处理顺序数据，可以构造任意大的内核。 FlexConv 为不同的层学习不同的内核大小，可以和特征图一样大。尽管他们使用了非常大的内核，但他们并不打算回答我们想要回答的关键问题：为什么传统 CNN 的性能不如 ViT，以及如何在普通 CNN 中应用大内核。此外，[40] 和 [74] 都没有在强基线上评估他们的模型，例如，比 SwinL 更大的模型。因此，尚不清楚大内核 CNN 是否可以像变压器一样进行扩展。
相同的作品

ConvMixer [90] 使用多达 9×9 的卷积来替换 ViTs [35] 或 MLPs [87, 88] 的“混合器”组件。 MetaFormer [108] 建议池化层是自我注意的替代方案。 ConvNeXt [62] 采用 7×7 深度卷积来设计强大的架构，突破了 CNN 性能的极限。尽管这些作品表现出出色的性能，但它们并没有显示出更大的卷积（例如，31×31）带来的好处

2.2. 模型缩放技术

给定一个小模型，通常的做法是对其进行扩展以获得更好的性能，因此扩展策略在最终的准确性-效率权衡中起着至关重要的作用。对于 CNN，现有的缩放方法通常侧重于模型深度、宽度、输入分辨率 [32、70、84]、瓶颈比和组宽度 [32、70]。然而，内核大小经常被忽略。在秒。在图 3 中，我们将展示内核大小也是 CNN 中重要的缩放维度，尤其是对于下游任务

2.3. 结构重新参数化

结构重新参数化 [27-31] 是一种通过转换参数来等效转换模型结构的方法。例如，RepVGG 针对深度推理时间类 VGG（例如，无分支）模型，并在训练期间构建了与 3×3 层平行的额外 ResNet 样式快捷方式。与难以训练的真实 VGG 模型相比 [42]，这种捷径帮助模型达到了令人满意的性能。训练后，快捷方式通过一系列线性变换被吸收到并行的 3×3 内核中，从而得到的模型成为 VGG-like 模型。在本文中，我们使用这种方法将一个相对较小（例如 3×3 或 5×5）的内核添加到一个非常大的内核中。通过这种方式，我们使非常大的内核能够捕获小规模的模式，从而提高模型的性能。

三、应用大卷积的指南

对 CNN 简单地应用大卷积通常会导致性能和速度下降。在本节中，我们总结了有效使用大内核的 5 条准则。

准则 1：大的深度卷积在实践中可能是有效的。人们认为，大内核卷积的计算成本很高，因为内核大小会二次增加参数和 FLOP 的数量。通过应用深度（DW）卷积可以极大地克服这个缺点[18,46]。例如，在我们提出的 RepLKNet（详见表 5）中，将不同阶段的内核大小从 [3, 3, 3, 3] 增加到 [31, 29, 27, 13] 只会增加 FLOPs 和参数数量分别下降 18.6% 和 10.4%，这是可以接受的。剩余的 1×1 卷积实际上主导了大部分复杂性。

有人可能会担心 DW 卷积在现代并行计算设备（如 GPU）上效率很低。传统的 DW 3×3 内核 [46, 77, 114] 确实如此，因为 DW 操作引入了较低的计算与内存访问成本的比率 [66]，这对现代计算架构不友好。但是，我们发现当内核大小变大时，计算密度会增加：例如，在 DW 11×11 内核中，每次从特征图中加载一个值，它最多可以进行 121 次乘法运算，而在 3× 3 kernel这个数字只有9个。因此，根据roofline模型，当kernel size变大时，实际延迟应该不会随着FLOPs的增加而增加。

备注 1. 不幸的是，我们发现现成的深度学习工具（例如 Pytorch）对大型 DW 卷积的支持很差，如表 1 所示。因此我们尝试了几种方法来优化 CUDA 内核。基于 FFT 的方法 [67] 似乎可以合理地实现大卷积。然而，在实践中，我们发现分块（逆）隐式 gemm 算法是更好的选择。该实现已集成到开源框架 MegEngine [1] 中，我们在此省略细节。我们还为 PyTorch 发布了一个高效的实现 [2]。表 1 显示，与 Pytorch 基线相比，我们的实现效率更高。通过我们的优化，RepLKNet 中 DW 卷积的延迟贡献从 49.5% 降低到 12.3%，这与 FLOPs 占用大致成正比。

准则 2：标识快捷方式至关重要，尤其是对于具有非常大内核的网络。为了证明这一点，我们使用 MobileNet V2 [77] 进行基准测试，因为它大量使用 DW 层并且有两个已发布的变体（有或没有快捷方式）。对于大内核对应物，我们只需将所有 DW 3×3 层替换为 13×13。所有型号
在 ImageNet 上使用相同的训练配置训练 100 个 epoch（详见附录 A）。表 2 显示大内核将 MobileNet V2 的准确率提高了 0.77%。但是，没有捷径，大内核将准确率降低到只有 53.98%。

备注 2. 该指南也适用于 ViT。最近的一项工作 [34] 发现，如果没有身份捷径，注意力会随着深度成倍地下降，从而导致过度平滑问题。尽管大核 CNN 可能会以与 ViT 不同的机制退化，但我们也观察到没有捷径，网络很难捕获局部细节。从与 [94] 类似的角度来看，快捷方式使模型成为由具有不同感受野 (RF) 的众多模型组成的隐式集合，因此它可以从更大的最大 RF 中受益，同时不会失去捕获小规模模式的能力。

准则 3：用小内核重新参数化 [31] 有助于弥补优化问题。我们将 MobileNet V2 的 3×3 层分别替换为 9×9 和 13×13，并可选择采用结构重新参数化 [27,28,31] 方法。具体来说，我们构建了一个与大层平行的 3×3 层，然后在批量归一化 (BN) [51] 层之后将它们的输出相加（图 2）。训练后，我们将小核和BN参数合并到大核中，这样得到的模型就相当于训练的模型，但不再有小核。表 3 显示直接将内核大小从 9 增加到 13 会降低准确性，而重新参数化解决了该问题。

然后，我们在 Cityscapes [22] 上使用 DeepLabv3+ [16] 将 ImageNet 训练的模型转移到语义分割。我们只替换主干并保留MMSegmentation [20] 提供的所有默认训练设置。观察结果与 ImageNet 上的类似：3×3 re-param 将 9×9 模型的 mIoU 提高了 0.19，13×13 模型提高了 0.93。通过如此简单的重新参数化，将内核大小从 9 增加到 13 不再降低 ImageNet 和 Cityscapes 的性能。

备注 3. 众所周知，ViT 存在优化问题，尤其是在小型数据集上 [35, 59]。一种常见的解决方法是引入卷积先验，例如，为每个自注意力块 [19,101] 添加一个 DW 3×3 卷积，这与我们的类似。这些策略在网络之前引入了额外的平移等效性和局部性，从而更容易在小型数据集上进行优化而不会失去一般性。与 ViT 的行为 [35] 类似，我们还发现，当预训练数据集增加到 7300 万张图像时（请参阅下一节中的 RepLKNet-XL），可以省略重新参数化而不会降级。

准则 4：大卷积比 ImageNet 分类更能促进下游任务。表 3（重新参数后）显示将 MobileNet V2 的内核大小从 3×3 增加到 9×9，ImageNet 准确度提高了 1.33%，但 Cityscapes mIoU 提高了 3.99%。表 5 显示了类似的趋势：随着内核大小从 [3, 3, 3, 3] 增加到 [31, 29, 27, 13]，ImageNet 准确率仅提高了 0.96%，而 ADE20K [120] 上的 mIoU 提高 3.12%。这种现象表明，ImageNet 分数相似的模型在下游任务中可能具有非常不同的能力（正如表 5 中的底部 3 个模型）。

备注 4. 造成这种现象的原因是什么？首先，大内核设计显着增加了有效感受野 (ERF) [65]。许多工作已经证明了“上下文”信息，这意味着大的 ERF，在许多下游任务（如对象检测和语义分割）中至关重要 [63、69、96、106、107]。我们将在第二节讨论这个话题。 5. 其次，我们认为另一个原因可能是大内核设计为网络贡献了更多的形状偏差。简而言之，ImageNet 图片可以根据 [8, 36] 中提出的纹理或形状正确分类。然而，人类主要基于形状提示而不是纹理来识别物体，因此具有更强形状偏差的模型可能会更好地转移到下游任务。最近的一项研究 [91] 指出 ViT 的形状偏差很强，这部分解释了为什么 ViT 在传输任务中非常强大。相比之下，在 ImageNet 上训练的传统 CNN 倾向于偏向纹理 [8,36]。幸运的是，我们发现简单地扩大 CNN 中的内核大小可以有效地改善形状偏差。详情请参阅附录 C。

准则 5：大内核（例如，13×13）即使在小特征图（例如，7×7）上也很有用。为了验证这一点，我们将 MobileNet V2 最后阶段的 DW 卷积扩大到 7×7 或 13×13，因此内核大小与特征图大小（默认为 7×7）相当甚至更大。我们按照指南 3 的建议对大内核应用重新参数化。表 4 显示虽然最后阶段的卷积已经涉及非常大的感受野，但进一步增加内核大小仍会导致性能提升，尤其是在 Cityscapes 等下游任务上。

备注 5. 当内核大小变大时，请注意 CNN 的平移等方差并不严格成立。如图 3 所示，相邻空间位置的两个输出仅共享一部分内核权重，即通过不同的映射进行转换。该属性也符合 ViT 的“哲学”——在获得更多容量之前放松对称性。有趣的是，我们发现在 Transformer 社区中广泛使用的 2D 相对位置嵌入（RPE）[5,78] 也可以被视为大小为 (2H -1)×(2W -1) 的大深度内核，其中 H 和 W 分别是特征图的高度和宽度。大内核不仅有助于学习概念之间的相对位置，而且由于填充效应[53]，还可以编码绝对位置信息。

四、 RepLKNet：大内核架构

遵循上述指导方针，在本节中，我们提出了 RepLKNet，这是一种具有大内核设计的纯 CNN 架构。据我们所知，到目前为止，CNN 仍然在小型模型中占主导地位 [113,115]，而在更复杂的预算下，视觉转换器被认为比 CNN 更好。因此，在本文中，我们主要关注相对较大的模型（其复杂度与 ResNet-152 [42] 或 Swin-B [61] 相当或更大），以验证大内核设计是否可以消除性能差距在 CNN 和 ViT 之间。

4.1、架构规范

我们在图 4 中勾勒出 RepLKNet 的架构：

Stem是指开始层。由于我们针对下游密集预测任务的高性能，我们希望在开始时通过几个卷积层捕获更多细节。在第一个 3×3 和 2× 下采样之后，我们安排一个 DW 3×3 层来捕获低级模式，一个 1×1 卷积层和另一个 DW 3×3 层用于下采样。

Stages 1-4 每个都包含几个 RepLK 块，它们使用快捷方式（指南 2）和 DW 大内核（指南 1）。我们在 DW conv 之前和之后使用 1×1 conv 作为一种常见做法。请注意，每个 DW large conv 使用 5×5 内核进行重新参数化（指南 3），这在图 4 中未显示。除了提供足够感受野和聚合空间信息能力的 large conv 层外，模型的表征能力也与深度密切相关。为了提供更多的非线性和跨通道的信息通信，我们希望使用 1×1 层来增加深度。受已在变压器 [35,61] 和 MLP [27,87,88] 中广泛使用的前馈网络 (FFN) 的启发，我们使用了一个类似的 CNN 样式块，由快捷方式、BN、两个 1×1层和 GELU [43]，所以它被称为 ConvFFN Block。与在全连接层之前使用 Layer Normalization [3] 的经典 FFN 相比，BN 具有可以融合到 conv 中进行高效推理的优势。通常，ConvFFN 模块的内部通道数是输入的 4 倍。简单地按照将注意力和 FFN 块交错的 ViT 和 Swin，我们在每个 RepLK 块之后放置一个 ConvFFN。

Transition Blocks 放置在阶段之间，首先通过 1×1 conv 增加通道维度，然后使用 DW 3×3 conv 进行 2× 下采样。

总之，每个阶段都有三个架构超参数：RepLK Blocks B 的数量、通道维度 C 和内核大小 K。因此，RepLKNet 架构由 [B1, B2, B3, B4],[C1, C2, C3, C4],[K1, K2, K3, K4]。

4.2. 使大内核更大

我们通过固定 B=[2, 2,18, 2], C=[128, 256, 512, 1024] 继续评估 RepLKNet 上的大内核，改变 K 并观察分类和语义分割的性能。在没有仔细调整超参数的情况下，我们随便将内核大小分别设置为 [13, 13, 13, 13], [25, 25, 25, 13], [31, 29, 27, 13]，并参考模型为 RepLKNet-13/25/31。我们还构建了两个小内核基线，其中内核大小均为 3 或 7 (RepLKNet-3/7)。

在 ImageNet 上，我们使用 AdamW [64] 优化器、RandAugment [23]、mixup [111]、CutMix [110]、Rand Erasing [118] 和 Stochastic Depth [50] 训练了 120 个 epoch，遵循最近的工作 [4, 61 , 62, 89]。详细的训练配置见附录 A。

对于语义分割，我们使用 ADE20K [120]，这是一个广泛使用的大规模语义分割数据集，包含 150 个类别的 20K 图像用于训练和 2K 用于验证。我们使用 ImageNet 训练的模型作为主干，并采用由 MMSegmentation [20] 实现的 UperNet [102] 和 80K 迭代训练设置并测试单尺度 mIoU。

表 5 显示了我们在不同内核大小下的结果。在 ImageNet 上，虽然将内核大小从 3 增加到 13 会提高准确性，但将它们变得更大并不会带来进一步的改进。然而，在 ADE20K 上，将内核从 [13, 13, 13, 13] 扩大到 [31, 29, 27, 13] 带来了 0.82 的 mIoU，而参数仅增加了 5.3%，FLOPs 增加了 3.5%，这凸显了用于下游任务的大内核。

在以下小节中，我们使用具有更强训练配置的 RepLKNet-31 与 ImageNet 分类、Cityscapes/ADE20K 语义分割和 COCO [57] 对象检测的最新技术进行比较。我们将上述模型称为 RepLKNet-31B（B 表示 Base），将 C = [192、384、768、1536] 的更广泛的模型称为 RepLKNet-31L（Large）。我们构建了另一个 RepLKNet-XL，其 C = [256, 512, 1024, 2048] 和 RepLK 块中的 1.5 倍倒置瓶颈设计（即 DW 大卷积层的通道是 1.5 倍作为输入）。

4.3. ImageNet 分类

由于 RepLKNet 的整体架构类似于 Swin，我们希望首先进行比较。对于 ImageNet-1K 上的 RepLKNet-31B，我们将上述训练计划扩展到 300 个 epoch 以进行公平比较。然后我们对输入分辨率为 384×384 的 30 个 epoch 进行微调，使得总的训练成本远低于 Swin-B 模型，后者是从头开始用 384×384 训练的。然后我们在 ImageNet-22K 上预训练 RepLKNet-B/L 模型并在 ImageNet-1K 上进行微调。 RepLKNetXL 在我们名为 MegData73M 的私有半监督数据集上进行了预训练，该数据集在附录中进行了介绍。我们还展示了批量测试的吞吐量 64 在同一个 2080Ti GPU 上。训练配置见附录。

表 6 表明，尽管非常大的内核不适用于 ImageNet 分类，但我们的 RepLKNet 模型显示出准确度和效率之间的良好折衷。值得注意的是，仅通过 ImageNet-1K 训练，RepLKNet-31B 的准确率达到 84.8%，比 Swin-B 高 0.3%，运行速度快 43%。而且即使 RepLKNet-XL 的 FLOP 比 Swin-L 更高，它的运行速度也更快，这凸显了超大内核的效率。

4.4.语义分割

然后，我们使用预训练模型作为 Cityscapes（表 7）和 ADE20K（表 8）的主干。具体来说，我们使用由 MMSegmentation [20] 实现的 UperNet [102] 以及 Cityscapes 的 80K 迭代训练计划和 ADE20K 的 160K 迭代训练计划。由于我们只想评估主干，我们不使用任何高级技术、技巧或自定义算法。

在 Cityscapes 上，ImageNet-1K 预训练的 RepLKNet-31B 明显优于 Swin-B（单尺度 mIoU 为 2.7），甚至优于 ImageNet-22K 预训练的 Swin-L。即使配备了为视觉转换器定制的技术 DiversePatch [38]，22K 预训练的 Swin-L 的单尺度 mIoU 仍然低于我们的 1K 预训练的 RepLKNet-31B，尽管前者有 2 倍参数。

在 ADE20K 上，RepLKNet-31B 在 1K 和 22K 预训练方面都优于 Swin-B，并且单尺度 mIoU 的边际尤其显着。使用我们的半监督数据集 MegData73M 进行预训练，RepLKNet-XL 实现了 56.0 的 mIoU，这表明对大规模视觉应用的可扩展性是可行的。

4.5.物体检测

对于目标检测，我们使用 RepLKNets 作为 FCOS [86] 和 Cascade Mask R-CNN [9,41] 的主干，它们是一阶段和二阶段检测方法的代表，也是 MMDetection [13] 中的默认配置. FCOS 模型使用 2x（24-epoch）训练计划进行训练，以便与来自相同代码库 [20] 的 X101（ResNeXt-101 [104] 的缩写）基线进行公平比较，其他结果使用 Cascade Mask R -CNN 都使用 3x (36-epoch)。同样，我们只是简单地替换了主干，不使用任何高级技术。表 9 显示 RepLKNets 的性能优于 ResNeXt-101-64x4d 高达 4.4 mAP，同时具有更少的参数和更低的 FLOP。请注意，使用 HTC [12]、HTC++ [61]、Soft-NMS [7] 或 6x（72-epoch）时间表。与 Swin 相比，RepLKNets 以更少的参数和更低的 FLOP 实现了更高或相当的 mAP。值得注意的是，RepLKNet-XL 实现了 55.5 的 mAP，这再次证明了可扩展性。

五、讨论

5.1. 大内核 CNN 比深度小内核模型具有更大的 ERF

我们已经证明大内核设计可以显着提升 CNN（尤其是在下游任务上）。然而，值得注意的是，大内核可以通过一系列小卷积[79]来表示，例如，一个 7×7 的卷积可以分解为三个 3×3 内核的堆栈而不会丢失信息（之后需要更多的通道）保持自由度的分解）。鉴于这一事实，自然会出现一个问题：为什么可能包含数十或数百个小卷积（例如，ResNets [42]）的传统 CNN 仍然表现不如大内核网络？

我们认为，就获得大的感受野而言，单个大内核比许多小内核更有效。首先，根据有效感受野 (ERF) [65] 的理论，ERF 与 O(KpL) 成正比，其中 K 是内核大小，L 是深度，即层数。换句话说，ERF 随内核大小线性增长，而随深度呈次线性增长。其次，增加的深度引入了优化难度[42]。尽管 ResNets 似乎克服了这个困境，设法训练了一个具有数百层的网络，但一些工作 [26,94] 表明 ResNets 可能不像看起来那么深。例如，[94] 表明 ResNets 的行为类似于浅层网络的集合，这意味着即使深度显着增加，ResNets 的 ERF 仍然可能非常有限。这种现象在以前的作品中也有经验观察[54]。总而言之，大内核设计需要更少的层来获得大的 ERF，并且避免了深度增加带来的优化问题。

为了支持我们的观点，我们选择 ResNet-101/152 和前面提到的 RepLKNet-13/31 作为小内核和大内核模型的代表，它们都在 ImageNet 上训练有素，并使用来自 ImageNet 的 50 张图像进行测试验证集大小调整为 1024×1024。为了可视化 ERF，我们使用了 [54] 之后的附录 B 中介绍的一种简单而有效的方法（代码在 [2] 中发布）。简而言之，我们生成一个聚合贡献得分矩阵 A (1024×1024)，其中每个条目 a (0 ≤ a ≤ 1) 测量输入图像上相应像素对最后一个生成的特征图中心点的贡献层。图 1 显示了 ResNet-101 的高贡献像素聚集在中心点周围，但外部点的贡献非常低，表明 ERF 有限。 ResNet-152 显示出类似的模式，表明更多的 3×3 层不会显着增加 ERF。另一方面，图 1 © 中的高贡献像素分布更均匀，表明 RepLKNet-13 关注更多外部像素。使用更大的内核，RepLKNet-31 使高贡献像素分布更均匀，表明 ERF 更大。

表 10 给出了一个定量分析，我们报告了一个最小矩形的高贡献面积比 r，该矩形覆盖了给定阈值 t 上的贡献分数。例如，ResNet-101 的 20% 的像素贡献（A 值）位于中心的 103×103 区域内，因此面积比为 (103=1024)2 = 1.0%，t = 20%。我们做几个有趣的观察。 1) ResNets 虽然更深，但 ERF 比 RepLKNets 小得多。例如，ResNet-101 超过 99% 的贡献分数位于仅占总面积 23.4% 的小区域内，而 RepLKNet-31 的这种面积比率为 98.6%，这意味着大部分像素对最后的预测。 2）在 ResNet-101 中添加更多层并不能有效地扩大 ERF，而按比例放大内核会以边际计算成本提高 ERF。

5.2. 大核模型在形状偏差上更类似于人类

我们发现 RepLKNet-31B 比 Swin Transformer 和小内核 CNN 具有更高的形状偏差。

最近的一项工作 [91] 报告说，视觉转换器更类似于人类视觉系统，因为它们更多地基于对象的整体形状进行预测，而 CNN 更关注局部纹理。我们遵循其方法并使用其工具箱 [6] 来获得在 ImageNet-1K 或 22K 上预训练的 RepLKNet-31B 和 Swin-B 的形状偏差（例如，基于形状而不是纹理做出的预测比例），以及两个小内核基线 RepLKNet-3 和 ResNet-152。图 5 显示 RepLKNet 比 Swin 具有更高的形状偏差。考虑到 RepLKNet 和 Swin 具有相似的整体架构，我们认为形状偏差与有效感受野密切相关，而不是自我注意的具体公式（即查询键值设计）。这也解释了 1）[91] 报告的 ViTs [35] 的高形状偏差（因为 ViT 采用全局注意力），2）1K 预训练 Swin 的低形状偏差（局部窗口内的注意力），以及 3）形状小内核基线 RepLKNet-3 的偏差，非常接近 ResNet-152（两个模型都由 3×3 卷积组成）。

5.3.大型内核设计是与 ConvNeXt 一起使用的通用设计元素

用 31×31 的内核替换 ConvNeXt [62] 中的 7×7 卷积带来了显着的改进，例如，ConNeXt-Tiny + 大内核 >ConNeXt-Small 和 ConNeXt-Small + 大内核 >ConNeXt-Base。我们使用最近提出的 ConvNeXt [62] 作为基准架构来评估大内核作为通用设计元素。我们只需将 ConvNeXt [62] 中的 7×7 卷积替换为 31×31 的内核。 ImageNet（120 epochs）和 ADE20K（80K 迭代）上的训练配置与 Sec. 中显示的结果相同。 4.2.表 11 表明，尽管原始内核已经是 7×7，但进一步增加内核大小仍然带来显着的改进，尤其是在下游任务上：对于 31×31 大的内核，ConvNeXt-Tiny 优于原始 ConvNeXt-Small，并且大内核 ConvNeXt-Small 优于原始 ConvNeXt-Base。同样，这种现象表明内核大小是一个重要的缩放维度。

5.4. 大内核的性能优于具有高膨胀率的小内核

详情请参阅附录 C。

六、限制

尽管大内核设计大大提高了 CNN 在 ImageNet 和下游任务上的性能，但是，根据表 6，随着数据和模型规模的增加，RepLKNets 开始落后于 Swin Transformers，例如 RepLKNet-31L 的 ImageNet top-1 准确率比使用 ImageNet-22K 预训练的 Swin-L 低 0.7%（而下游分数仍然相当）。目前尚不清楚这种差距是由次优的超参数调整造成的，还是由于数据/模型扩大时出现的 CNN 的其他一些基本缺陷。我们正在努力解决这个问题。

七、结论

本文重新审视了在设计 CNN 架构时长期以来一直被忽视的大型卷积核。我们证明了使用几个大内核而不是许多小内核可以更有效地产生更大的有效感受野，大幅提升 CNN 的性能，尤其是在下游任务上，并在数据和模型扩大时大大缩小 CNN 和 ViT 之间的性能差距 . 我们希望我们的工作能够推动 CNN 和 ViT 的研究。一方面，对于 CNN 社区，我们的研究结果表明我们应该特别注意 ERF，这可能是高性能的关键。另一方面，对于 ViT 社区，由于大卷积可以替代具有相似行为的多头 self-attention，它可能有助于理解 self-attention 的内在机制。

你可能感兴趣的:(图像分类,cnn,计算机视觉,深度学习)

anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL