dear_queen

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

论文：https://arxiv.org/abs/2207.14284
代码：https://github.com/raoyongming/HorNet

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

摘要
1 introduction
2. related work
3. method
- 3.1 gnConv: Recursive Gated Convolutions
- 3.2模型架构
4 实验
- 4.1 ImageNet分类
- 4.2 .密集预测任务
- 4.3分析。
5. 总结

摘要

近年来，视觉transformer在基于点积自注意的空间建模机制驱动下，在各种任务中取得了巨大的成功。在本文中，我们展示了视觉transformer背后的关键成分，即输入自适应、远程和高阶空间交互，也可以通过基于卷积的框架有效地实现。我们提出了递归门控卷积(gnConv)，它执行与门控卷积和递归设计的高阶空间交互。新的运算具有高度的灵活性和可定制性，它兼容各种卷积的变体，并将自注意的二阶相互作用扩展到任意阶，而不增加大量的计算量。gnConv可以作为即插即用模块来改进各种视觉变压器和基于卷积的模型。在此基础上，我们构建了一个新的通用视觉骨干家族，命名为HorNet。在ImageNet分类、COCO对象检测和ADE20K语义分割方面的大量实验表明，在总体架构和训练配置相似的情况下，HorNet的表现明显优于Swin transformer和ConvNeXt。对于更多的训练数据和更大的模型尺寸，HorNet也显示出良好的可扩展性。除了在视觉编码器中的有效性，我们还表明gnConv可以应用于任务特定的解码器，并不断提高密集预测性能，以更少的计算。我们的结果表明，gnConv可以是一个新的基本模块的视觉建模，有效地结合了视觉变形器和cnn的优点。代码可从https://github.com/raoyongming/HorNet获得。
总结摘要：
本文总结了视觉transformer成功的关键因素是通过自我注意操作实现输入自适应、远程和高阶空间交互的空间建模新方法，也可以通过基于卷积的框架有效地实现，前人工作已经尝试过奖自适应、远程的方法迁移至CNN中，目前对高阶空间交互的方法没有尝试过，为此本文展示了所有三个关键成分都可以使用基于卷积的框架有效地实现。故而提出了gnconv这个即插即用的模块。该模块通过门控卷积和递归设计实现高阶空间相互作用。而不是简单地模仿成功的设计在自我关注。

1 introduction

自AlexNet[29]在过去十年中引入以来，卷积神经网络(CNN)推动了深度学习和计算视觉领域的显著进步。cnn有许多很好的特性，使它们自然适合广泛的视觉应用。翻译等方差为主要视觉任务引入了有用的归纳偏差，并使不同输入分辨率之间的可转移性。高度优化的实现使得它在高性能gpu和边缘设备上都非常高效。架构的演变[30,29,46,47,22,23,48]进一步增加了它在各种视觉任务中的受欢迎程度。

基于transformer的体系结构[16,49,39]的出现极大地挑战了cnn的主导地位。通过结合CNN架构中一些成功的设计和新的自我注意机制，视觉transformer在各种视觉任务中表现出领先的性能，如图像分类[12,39,45]，目标检测[64,38]，语义分割[6,8]和视频理解[58,18]。是什么让视觉transformer比cnn更强大?通过学习视觉上的新设计，对CNN的架构做了一些改进[40]对采用vision Transformer元架构改进CNN进行了深入的研究，提出使用较大的7×7内核构建现代CNN。[43]和[14]建议使用更大的内核来分别学习全局过滤器和31×31卷积的长期关系。[20]表明，输入自适应权值在视觉变形器中发挥着关键作用，并在具有动态卷积的Swin变形器中取得了类似的性能[4,26]。然而，尚未从高阶空间交互的角度分析点积自我注意在视觉任务中的有效性。

由于非线性，深度模型中两个空间位置之间存在复杂的高阶相互作用，而自我注意等动态网络的成功表明，建筑设计引入的显式高阶空间相互作用有利于提高视觉模型的建模能力。如图1所示，平面卷积运算没有明确考虑空间位置(即红色特征)与其邻近区域(即浅灰色区域)之间的空间相互作用。增强的卷积运算，如动态卷积[4,26,20]，通过生成动态权值引入显式的空间相互作用。变形金刚[51]中的点积自我注意操作由两个连续的空间相互作用组成，通过在查询、键和值之间执行矩阵乘法。视觉建模基本操作的发展趋势表明，提高空间交互的顺序可以提高网络容量。

在本文中，我们总结了视觉transformer成功的关键因素是通过自我注意操作实现输入自适应、远程和高阶空间交互的空间建模新方法。虽然之前的工作已经成功地将视觉变形器的元架构[40,20,43,14]、输入自适应权值生成策略[20]和大范围建模能力[43,14]移植到CNN模型中，但尚未研究高阶空间交互机制。我们展示了所有三个关键成分都可以使用基于卷积的框架有效地实现。我们提出了递归门控卷积(gnConv)，通过门控卷积和递归设计实现高阶空间相互作用。而不是简单地模仿成功的设计在自我关注，gnConv有几个额外的有利的特性:
1)高效。基于卷积的实现避免了自我注意的二次复杂度。在执行空间交互过程中逐步增加通道宽度的设计也使我们能够实现具有有限复杂性的高阶交互;
2)可扩展。我们将自注意中的二阶相互作用扩展到任意阶，进一步提高了建模能力。
由于我们不对空间卷积的类型做假设，gnConv兼容各种核大小和空间混合策略，如[43,14];
3) Translation-equivariant。gnConv完全继承了标准卷积的平移等方差，在主要视觉任务中引入了有益的诱导偏差，避免了局部注意带来的不对称[39,32]。
总结一下特性
1.具备和卷积一样逐步增加通道宽度的方法，该设计相较于完全使用self-attention式的方法降低了一定的复杂度；
2.self-attention是关注于二阶相互作用，本文所提方法可兼容不同尺寸的核实现高阶空间交互，可具有更好的自适应性。
3.gnconv继承了卷积的平移不变性，具备卷积的平移不变性优势，同时加入了诱导偏差，可平衡transformer和CNN一个关注全局一个关注局部的问题。

在本文中，我们总结了视觉transformer成功的关键因素是通过自我注意操作实现输入自适应、远程和高阶空间交互的空间建模新方法。虽然之前的工作已经成功地将视觉变形器的元架构[40,20,43,14]、输入自适应权值生成策略[20]和大范围建模能力[43,14]移植到CNN模型中，但尚未研究高阶空间交互机制。我们展示了所有三个关键成分都可以使用基于卷积的框架有效地实现。

我们提出了递归门控卷积(gnConv)，通过门控卷积和递归设计实现高阶空间相互作用。而不是简单地模仿成功的设计在自我关注

，gnConv有几个额外的有利的特性:1)高效。基于卷积的实现避免了自我注意的二次复杂度。

在执行空间交互过程中逐步增加通道宽度的设计也使我们能够实现具有有限复杂性的高阶交互;2)可扩展。我们将自注意中的二阶相互作用扩展到任意阶，进一步提高了建模能力。

由于我们不对空间卷积的类型做假设，gnConv兼容各种核大小和空间混合策略，如[43,14];3) Translation-equivariant。gnConv完全继承了标准卷积的平移等方差，在主要视觉任务中引入了有益的诱导偏差，避免了局部注意带来的不对称[39,32]。

在gnConv的基础上，我们构建了一个新的通用视觉骨干家族——HorNet。为了验证我们模型的有效性，我们在ImageNet分类[13]、COCO对象检测[36]和ADE20K语义分割上进行了大量的实验[65]。使用相同的7×7内核/窗口和类似的整体架构和训练配置，HorNet比Swin表现更好。
和ConvNeXt在所有不同复杂程度的任务中都有很大的优势。使用全局内核大小[43]可以进一步扩大这个差距。在训练数据较多、模型尺寸较大的情况下，大黄蜂也表现出良好的可扩展性，ImageNet- 22k预训练时，在ImageNet上top-1准确率达到87.7%，在ADE20K值上mIoU达到54.6%，在COCO值上边框AP达到55.8%。除了在视觉编码器中应用gnConv之外，我们还进一步测试了我们设计在特定任务解码器上的通用性。

我们将gConv加入到广泛应用的特征融合模型FPN[34]中，开发出HorFPN来建模不同层次特征的高阶空间关系。我们观察到，HorFPN还可以以较低的计算成本持续改进各种密集预测模型。我们的结果表明，gnConv可以是一个有前途的替代自我注意的视觉建模，并有效地结合了视觉变形器和cnn的优点。

2. related work

vision transformer Transformer架构[51]最初是为自然语言处理任务设计的。Dosovitskiy等人[16]表明，仅由Transformer块和一个补丁嵌入层构建的视觉模型也可以达到与CNNs竞争的性能，许多新的模型被提出来修改基于Transformer的架构，使其更适合各种视觉任务[39,53,54,9,60]。与[16]的原始设计不同，最先进的视觉变形器通常采用类似cnn的层次结构，将所有patch之间的全局自注意变为局部自注意，以避免二次元复杂度。

在本文中，我们遵循了之前分层vision transformer[39]的整体架构，并将self-attention子层替换为我们提出的gnConv，以便与之前基于变压器的模型进行公平的比较。
convolution-based models 受到近期vision transformer成功的启发，多篇论文提出采用transformer风格的架构和大内核尺寸的空间卷积来提高cnn的性能。**Han等人[20]**用大内核动态卷积替换了Swin变形金刚中的窗口自注意，取得了更好的性能。**GFNet[43]**建议执行全局空间交互，就像在频域使用全局滤波器的视觉变形器一样，这相当于使用全局内核大小和圆形填充的深度卷积。**ConvNeXt[40]**深入分析了最近的视觉变形金刚的设计，并提出了一个具有7×7深度卷积的强卷积模型。**RepLKNet[14]**使用非常大的内核(到31×31)探索CNN模型，表现出良好的可扩展性。

VAN[19]和FocalNet[59]采用门控卷积进行输入自适应注意，分别采用大核扩张卷积和多次连续3×3卷积产生权值。以前的工作主要集中在元架构[61]、大核设计和输入自适应权值，通过学习视觉变形器来改进cnn。本文提出了一种新的高阶空间注意的视角来分析视觉变形器的优点。我们表明，提出的HorNet结合了cnn和vision transformer的优势，是各种视觉任务的更好的架构。
小结一下：
这些论文最好都去研读下，可以更好的理解本文并找到新的论文创新点思路；

混合模型。将视觉变压器与cnn相结合开发混合架构是解决各种视觉识别问题的新方向。最近，人们做出了一些努力，将这两种类型的块体整合成一个统一的模型，采用顺序[12,27,62,57]或并行[42,11]设计。许多增强视觉变形器还在基本构造块中使用轻量级卷积来有效地捕获相邻模式[15,54,17]或放松自我注意的二次复杂度[9,53,18]。与这些混合模型不同的是，我们的目标是开发一个无自我注意的模型，同时结合视觉变形器和cnn的有利特性。

3. method

3.1 gnConv: Recursive Gated Convolutions

在本节中，我们将介绍gnConv，一个实现长期和高阶空间相互作用的高效操作。gnConv是用标准的卷积、线性投影和elementwise乘法构建的，但具有与自我注意类似的输入自适应空间混合功能。
带门控卷积的输入自适应交互。视觉变形器最近的成功主要依赖于对视觉数据中空间相互作用的正确建模。与CNNs简单地使用静态卷积核来聚合相邻特征不同，vision transformer应用多头自我注意来动态生成权重来混合空间标记。然而，自注意输入量的二次元复杂度极大地阻碍了视觉变形器的应用，特别是在需要更高分辨率特征图的分割和检测等下游任务中。在这项工作中，我们不像以前的方法那样降低自我注意的复杂性[39,9,52]，而是寻求一种更高效、更有效的方式，通过卷积和全连接层等简单操作来执行空间相互作用。
该方法的基本操作是门控卷积(gConv)。设x∈RHW ×C为输入特征，则门控卷积y =gConv(x)的输出可以写成:

其中φin、φout为进行信道混合的线性投影层，f为深度卷积。注意p(i,c) 1 = p j∈Ωi wci→jq(j,c) 0 p(i,c) 0，其中Ωi是以i为中心的局部窗口，w表示f的卷积权值。因此，上述公式通过元素乘显式引入了相邻特征p(i) 0和q(j) 0之间的相互作用。

当每个p(i) 0与其相邻特征q(j) 0只相互作用一次时，我们认为gConv中的相互作用为一阶相互作用。
递归门控的高阶交互。在与gConv实现高效的一阶空间相互作用后，我们设计了递归门控卷积gnConv，通过引入高阶相互作用进一步增强模型容量。形式上，我们首先用φin得到一组投影特征p0和{qk}n−1 k=0:

然后递归地执行门控卷积

我们将输出放大1/α以稳定训练。{fk}是一组深度卷积层，{gk}用于匹配维度的不同顺序:

最后，我们将最后一个递归步骤qn的输出输入到投影层φout，得到gnConv的结果。由递归式(3.3)可以看出，pk的相互作用阶数每阶递增1。因此，我们可以看到gnConv实现了n阶空间相互作用。值得注意的是，我们只需要一个f就可以将特征{qk}n−1 k=0拼接在一起进行深度卷积，而不是像式(3.3)那样每递归一步都要计算卷积，这样可以进一步简化实现，提高gpu上的效率。为了保证高阶交互不会引入过多的计算开销，我们将每个阶的通道维数设为:

这种设计表明我们以一种从粗到细的方式执行交互，其中较低的阶数用更少的通道计算。此外，φin(x)的通道维数恰好为2C，即使n增加，总失败次数也可严格有界。可以证明(见附录A):

其中K为深度卷积的核大小。因此，我们的gnConv以类似卷积层的计算成本实现了高阶交互。

class gnconv(nn.Module):
    def __init__(self, dim, order=5, gflayer=None, h=14, w=8, s=1.0):
        super().__init__()
        self.order = order
        self.dims = [dim // 2 ** i for i in range(order)]
        self.dims.reverse()
        self.proj_in = nn.Conv2d(dim, 2*dim, 1)

        if gflayer is None:
            self.dwconv = get_dwconv(sum(self.dims), 7, True)
        else:
            self.dwconv = gflayer(sum(self.dims), h=h, w=w)
        
        self.proj_out = nn.Conv2d(dim, dim, 1)

        self.pws = nn.ModuleList(
            [nn.Conv2d(self.dims[i], self.dims[i+1], 1) for i in range(order-1)]
        )

        self.scale = s
        print('[gnconv]', order, 'order with dims=', self.dims, 'scale=%.4f'%self.scale)

    def forward(self, x, mask=None, dummy=False):
        B, C, H, W = x.shape

        fused_x = self.proj_in(x)
        pwa, abc = torch.split(fused_x, (self.dims[0], sum(self.dims)), dim=1)

        dw_abc = self.dwconv(abc) * self.scale

        dw_list = torch.split(dw_abc, self.dims, dim=1)
        x = pwa * dw_list[0]

        for i in range(self.order -1):
            x = self.pws[i](x) * dw_list[i+1]

        x = self.proj_out(x)

        return x

与大内核卷积的长期交互。视觉变形器和传统cnn的另一个区别是感受野。传统的CNNs[46,22]通常通过整个网络使用3×3卷积，而视觉变形器则在整个特征图[16,49]或相对较大的局部窗口内(如7×7)计算自我注意。视觉变形金刚的大接受域使其更容易捕获长期依赖关系，这也是公认的视觉变形金刚的关键优势之一。受此设计的启发，最近有一些努力将大核卷积引入到CNNs中[14,40,43]。为了使我们的gnConv能够捕获长期交互，我们采用了两个深度卷积f的实现:

•7×7 Convolution. 7×7是Swin变形金刚[39]和ConvNext[40]的默认窗口/内核大小。对[40]的研究表明，该内核大小在ImageNet分类和各种下游任务上具有良好的性能。我们按照这个配置来公平地与视觉变形金刚和现代cnn的代表作品进行比较。

•全局过滤器(GF)。GF层[43]将频域特征与可学习的全局滤波器相乘，相当于一个具有全局核大小和圆形填充的空间域卷积。我们使用了GF层的改进版本，其中一半的通道使用全局过滤器处理，另一半使用3×3深度卷积处理，并且只在后期使用GF层来保留更多的局部细节。

视觉模型中的空间相互作用。我们从空间相互作用的角度回顾了一些代表性的视觉模型设计，如图1所示。具体来说，我们感兴趣的是特征xi与其相邻特征xj, j∈Ωi之间的相互作用。通过使用[31,1]中用于解释交互效应(IE)的工具，我们在附录b中直观地分析了显式空间交互的顺序。我们的分析从一个新的视角揭示了视觉变形金刚与之前架构的一个关键区别，即视觉变形金刚在每个基本块中都有更高阶的空间交互。这一结果启发我们探索一种能够实现更高效、更有效的两阶以上空间相互作用的建筑。如上所述，我们提出的gnConv可以实现具有有界复杂度的任意阶交互。同样值得注意的是，与宽度[63]和深度[22]等深度模型中的其他缩放因子类似，单纯增加空间相互作用的阶数而不考虑模型的总体容量并不会得到很好的权衡[48]。本文在分析设计良好的模型的空间交互顺序的基础上，重点研究了一种更强的可视化建模体系结构。我们相信对高阶空间相互作用进行更全面、更正式的讨论将是未来的一个重要方向。

与点积自我注意的关系。虽然我们的gnConv的计算很大程度上不同于点积的自我注意，我们将表明，gnConv也完成了输入自适应空间混合的目标。设M为多头自我注意(MHSA)得到的注意矩阵，由于混合权值可能会随着信道的不同而不同，我们将M写成(mcij)。位置i第c个信道的空间混合结果(在最终信道混合投影之前)为

式中wV为V投影层的权值。注意点积运算得到的mij包含一阶相互作用。另一方面，gnConv的输出(在φout之前)可以写成

其中wn−1是fn−1的卷积权值，wφin是φin的线性权值，gn−1 = gn−1(pn−1)是pn−1的投影。从式(3.8)的公式中，我们发现我们的gnConv也实现了以{hcij}为权值的输入自适应空间混合。由于hij是由pn−1计算得到的，其中pn−1包含n - 1级相互作用，因此我们可以把gnConv看作是空间混合权的自注意的扩展。因此，我们的gnConv可以更好地模拟更复杂的空间相互作用。

图2总结了gnConv和我们的实现的细节。

3.2模型架构

HorNet。gnConv可以代替视觉变形金刚[49,39]或现代CNNs[40]中的空间混合层。我们遵循与[53,39]相同的元架构来构建HorNet，其中基本块包含一个空间混合层和一个前馈网络(FFN)。

根据模型大小和gnConv中深度卷积fk的实现，我们有两个系列的模型变体，分别是HorNet-T/S/B/L7×7和HorNet-T/S/B/LGF。我们考虑流行的Swin Transformer[39]和ConvNeXt[40]作为视觉变压器和CNN基线，因为我们的模型是基于卷积框架实现的，同时具有像视觉变压器一样的高阶交互。为了与基线进行公平的比较，我们直接跟踪Swin transformer - s /B/L[39]块的数量，但在阶段2中插入一个额外的块，以使整体复杂度接近，导致所有模型变体的每个阶段都有[2,3,18,2]块。我们简单地调整通道的基本数量C来构建不同大小的模型，并按照惯例将4个阶段的通道数量设置为[C, 2C, 4C, 8C]。对于HorNet-T/S/B/L，我们分别使用C = 64、96、128、192。我们将每个阶段的交互顺序(即gnConv中的n)默认设置为2、3、4、5，这样，最粗顺序C0的通道在不同阶段是相同的。

HorFPN。除了在视觉编码器中使用gnConv，我们发现我们的gnConv可以作为标准卷积的一个增强的替代方案，在广泛的基于卷积的模型中考虑高阶空间相互作用。因此，我们用gnConv代替FPN[35]中的空间卷积来进行特征融合，以改善下游任务的空间交互。具体来说，我们将不同金字塔层次的特征融合后，加入我们的gnConv。对于对象检测，我们将自顶向下路径后的3×3卷积替换为每一层的gnConv。对于语义分割，我们只需用gnConv替换多级特征映射拼接后的3×3卷积，因为最终的结果是直接从这个拼接特征预测出来的。

根据fk的选择，我们还有两个实现HorFPN7×7和HorFPNGF。

4 实验

我们进行了大量的实验来验证我们方法的有效性。我们给出了ImageNet[13]上的主要结果，并将它们与各种体系结构进行了比较。我们还在常用的语义分割基准ADE20K[65]和对象检测数据集COCO[36]上对我们的模型在下游密集预测任务上进行了测试。最后，我们对我们的设计进行了烧蚀研究，并分析了gnConv在各种模型上的有效性。

4.1 ImageNet分类

设置。我们在广泛使用的ImageNet[13]数据集上进行图像分类实验。我们使用标准的ImageNet-1K数据集，按照常规做法训练HorNet-T/S/B模型。

为了与之前的工作进行公平的比较，我们直接使用[40,39,49]的训练配置来训练我们的模型。我们用224 × 224输入对模型进行了300次的训练。为了评估我们设计的缩放能力，我们在ImageNet-22K数据集上进一步训练HorNet-L模型，该数据集包含超过10倍的图像和更多的类别。模型经过90个epoch的训练，然后在[40]之后的30个epoch对ImageNet-1K进行微调。更多的细节可以在附录C中找到。

表1:ImageNet分类结果。我们将我们的模型与具有类似失败和参数的最先进的视觉变形器和cnn进行比较。我们报告了ImageNet验证集上排名前1的准确性，以及参数和失败次数。我们还展示了Swin transformer的改进，它具有与我们的模型相似的总体架构和训练配置。“↑384”表示该模型在384×384图像上微调了30个epoch。我们的模型用灰色标出。

表2:不同主干的目标检测和语义分割结果。我们使用supernet[56]进行语义分割，使用Cascade Mask R-CNN[2]进行目标检测。‡表示模型在ImageNet-22K上进行了预训练。对于语义分割，我们报告了单尺度(SS)和多尺度(MS) mIoU。对于ImageNet-1K预训练模型和ImageNet-22K预训练模型，FLOPs的图像大小分别为(2048,512)和(2560,640)。对于对象检测，我们报告方框AP和掩码AP。失败是根据输入大小(1280,800)来测量的。我们的模型用灰色标出。

结果。表1总结了我们ImageNet分类实验的结果。我们看到，我们的模型实现了非常有竞争力的性能与最先进的视觉变形金刚和cnn。值得注意的是，大黄蜂超过了Swin变形金刚和ConvNeXt，这有类似的整体架构和训练配置的各种模型大小和设置的健康边缘。

尽管最近一些混合架构的工作[33,37,55]或在模型宽度和深度上更仔细的设计，在ImageNet-1K上取得了比HorNet更好的性能，我们认为我们的模型也将受益于这些技术，获得更好的性能。我们的模型也适用于更大的图像分辨率、更大的模型尺寸和更多的训练数据。这些结果清楚地证明了我们设计的有效性和通用性。

表3:HorFPN与标准FPN在不同骨干上的比较。我们使用supernet 160K和Mask R-CNN 1× schedule分别进行语义分割和目标检测。我们发现，在这两个任务上，我们的HorFPN始终优于具有各种骨干的标准FPN。

4.2 .密集预测任务

大黄蜂用于语义分割。我们使用常用的UperNet[56]框架在ADE20K[65]数据集上评估我们的HorNet用于语义分割任务。使用全局批大小为16的AdamW[41]优化器对所有模型进行160k次迭代训练。ImagNet-1k (HorNet-T/S/B)预训练模型训练时的图像大小为512 × 512, ImageNet-22K预训练模型(HorNet-L)训练时的图像大小为640 × 640。结果总结在表2的左侧，其中我们报告了验证集上的单尺度(SS)和多尺度(MS) mIoU。我们的HorNet7×7和HorNetGF模型都优于Swin[39]和ConvNeXt[40]模型，具有相似的模型大小和失败。具体来说，HorNetGF模型在单尺度mIoU中取得了比HorNet7×7和ConvNeXt系列好很多的结果，这表明由全局过滤器捕获的全局交互有助于语义分割。值得注意的是，我们发现HorNet-L7×7and HorNet-LGF的失败次数甚至比ConvNeXt-XL少25%。这些结果清楚地证明了我们的HorNet在语义分割上的有效性和可扩展性。

大黄蜂用于目标检测。我们还在COCO[36]数据集上评估我们的模型。我们采用cascade Mask R-CNN框架[21,2]使用HorNet-T/S/B/L骨干进行目标检测和实例分割。在Swin[39]和ConvNeXt[40]之后，我们使用3×多尺度训练计划。表2的右边部分比较了我们的大黄蜂模型和Swin/ConvNeXt模型的框AP和掩码AP。同样，我们展示了我们的HorNet模型在盒AP和掩码AP上都取得了比Swin/ConvNeXt同类产品一致且显著更好的性能。与ConvNeXt相比，HorNetGF系列获得了+1.2 ~ 2.0盒AP和+1.0 ~ 1.9掩码AP。

再次，我们的大型模型HorNet-L7×7和HorNetGF可以超过ConvNeXt-XL，这进一步验证了在更大的模型尺寸和更大的预训练数据集下良好的可转移性。

HorFPN用于密集预测。我们现在展示了gnConv的另一个应用，即作为一个更好的融合模块，可以更好地捕捉密集预测任务中不同层次特征之间的高阶相互作用。具体来说，我们直接修改了supernet[56]和Mask R-CNN[21]中3.2节描述的FPN[35]，分别用于语义分割和目标检测。我们在表3中展示了结果，其中比较了我们的HorFPN和标准FPN在不同主干网上的性能，包括ResNet-50/101 [22]， Swin-S[39]和HorNet-S7×7。

对于语义分割，我们发现我们的HorFPN可以显著减少失败(约50%)，同时实现更好的验证mIoU。对于对象检测，我们的HorFPN在不同主干线上的盒AP和掩码AP性能也优于标准FPN，大约减少30G的FLOPs。

此外，我们观察到HorFPNGF始终比HorFPN7×7更好，这表明在融合层次特征时全局交互也很重要。

4.3分析。

我们提供了详细的消融研究gnConv和我们的大黄蜂在表4。我们首先研究了表4a中我们大黄蜂的模型设计。我们的基线([])是通过简单地将self-attention替换为7×7在Swin-T[39]中的深度卷积得到的。我们首先证明**SE[24]和n = 1 (g{1,1,1,1}Conv)的gnConv比基线模型[]更好**，g{1,1,1,1}Conv稍好一些。然后，我们对每个阶段的相互作用阶n进行烧蚀，发现:(1)如果在4个阶段共享n，精度将随着n的增大而增加，但是n = 4时，在82.5处饱和;(2)逐步增加的阶数(g{2,3,4,5}Conv)可以进一步提高精度。通过调整网络的深度和宽度(HorNet-T7×7)，并对深度卷积(HorNet-TGF)应用Global Filter[43]，我们最终的模型建立在g{2,3,4,5}Conv上。这些结果清楚地表明，我们的gnConv是一个有效的和可扩展的操作，可以更好地捕捉高阶空间相互作用比自我注意和深度卷积。

表4:gnConv应用于其他模型/手术的消融研究及结果。我们在(a)中提供了我们设计的烧蚀研究。[*]表示我们模型的基线。基线和最终模型用灰色突出显示。在(b)和©中，我们将提出的gnConv应用于具有类似复杂程度的各向同性模型，包括ViT/DeiT-S[16,49]和其他空间混合操作，包括3×3深度卷积和3×3池，在[61]中使用。

gnConv用于各向同性模型。我们还评估了gnConv在各向同性结构上(具有恒定的空间分辨率)。我们用gnConv替换DeiT-S[49]中的自我注意，并将块数调整为13，得到各向同性HorNet-S7×7和HorNet-SGF。我们在表4b中比较了DeiT-S、各向同性ConvNeXt-S和各向同性HorNet-S。虽然各向同性的ConvNeXt-S不能改善DeiT-S，但我们的各向同性大黄蜂已经大大超过了DeiT-S。这些结果表明，与普通卷积相比，我们的gnConv能够更好地实现自我注意功能，具有更好的模拟复杂空间相互作用的能力。

gnConv用于其他操作。为了进一步证明gnConv的通用性，我们使用3×3深度卷积和3×3池[61]作为gnConv的基本操作。表4c中的结果表明，gnConv还可以大大改善这两个操作，这表明我们的gnConv在配备一些更好的基本操作时可能更强大。

Accuracy-complexity权衡。我们在图3中可视化了Swin、ConvNeXt和HorNet系列的精度-复杂性权衡。为了公平的比较，我们将输入图像的大小固定为224 × 224，并使用HorNet7×7，这样所有的比较模型都是基于7×7本地窗口。我们看到，在模型大小、失败和GPU延迟方面，大黄蜂可以实现比代表性视觉变形金刚和现代cnn更好的权衡。

局限性。虽然HorNet显示了更好的整体延迟-精度权衡，但我们注意到，在GPU上类似的失败情况下，HorNet比ConvNeXt更慢，这可能是由于执行高阶交互的更复杂的设计造成的。我们认为，为高阶空间相互作用开发一种更加硬件友好的操作是一个有趣的未来方向来改进我们的工作。

5. 总结

我们提出了一种递归门控卷积(gnConv)，通过门控卷积和递归设计实现高效、可扩展、平移等价的高阶空间相互作用。

gnConv可以在各种视觉变形器和基于卷积的模型中代替空间混合层。在操作的基础上，我们构建了一个新家族的通用视觉大黄蜂骨干。大量的实验证明了gnConv和HorNet在常用的视觉识别基准上的有效性。我们希望我们的尝试可以启发未来进一步探索视觉模型中的高阶空间相互作用。

参考
CNN具有平移不变性和局部性，缺乏全局建模长距离建模的能力，引入自然语言处理领域的框架Transformer来形成CNN+Transformer架构，充分两者的优点，提高目标检测效果，本人经过实验，对小目标以及密集预测任务会有一定的提升效果。视觉 Transformers 的最新进展在基于点积 self-attention 的新空间建模机制驱动的各种任务中取得了巨大成功。递归门控卷积（gnConv），它通过门控卷积和递归设计执行高阶空间交互。新操作具有高度的灵活性和可定制性，它兼容各种卷积变体，并将自注意力中的二阶交互扩展到任意阶，而不会引入大量额外的计算。gnConv 可以作为一个即插即用的模块来改进各种视觉 Transformer 和基于卷积的模型。

你可能感兴趣的:(论文整理,深度学习,人工智能,transformer)

多模态实操第一弹：多模态AI是什么？能做什么？江凯吴杰多模态的尝试人工智能
多模态AI专栏第一期：多模态人工智能概述与应用你是否想过，AI如何像人一样同时"看、听、说"？本期专栏将带你深入了解多模态AI的核心原理、发展脉络、关键技术、典型应用，并为后续实战打下坚实基础。最后，我们将详细介绍本系列所用的ERIT数据集及其任务背景。目录1.什么是多模态AI？2.多模态AI的发展历程3.多模态AI的核心技术4.多模态AI的应用场景5.多模态AI的挑战与机遇6.专栏预告与ERIT
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
十分钟了解人工智能的过去、现在与未来 ithadoop 人工智能人工智能
十分钟了解人工智能的过去、现在与未来人工智能(AI)作为重塑人类社会的技术革命，正以前所未有的速度改变着我们的工作方式、生活方式和思维方式。从1943年人工神经元模型的提出，到2025年AI应用场景的全面爆发，AI发展经历了多个关键阶段。在接下来的十分钟里，我们将通过图文解说，快速了解AI从萌芽到现在的历程，以及未来可能带来的机遇与挑战。一、人工智能的过去：从理论奠基到技术突破1.萌芽阶段(194
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
探索 AI 系统提示与模型资源库：`system-prompts-and-models-of-ai-tools` 几道之旅人工智能智能体及数字员工人工智能
在当今的人工智能领域，系统提示和工具模型的优化与应用对于提升AI助手的性能和响应质量至关重要。x1xhlol开源的system-prompts-and-models-of-ai-tools仓库为开发者们提供了一个丰富的资源集合，涵盖了多种AI工具的系统提示、工具和模型。仓库概述这个仓库包含了超过7500行的代码和文档，详细介绍了多个知名AI工具的系统提示和相关模型，其中包括FULLv0、Curso
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
多模态AI：让机器像人一样“全感官”理解世界 Echo_Wish 前沿技术人工智能人工智能
多模态AI：让机器像人一样“全感官”理解世界咱们人类理解世界，从来不是只靠单一感官：眼睛看到画面，耳朵听到声音，皮肤感受到温度，嘴巴尝到味道，甚至鼻子闻到气味。正是这多感官的“多模态”输入，构筑了我们对复杂世界的深刻认知。而人工智能领域的多模态学习（MultimodalLearning），正是让机器拥有“多感官”理解能力的技术突破。今天，我想跟大家聊聊：多模态学习为何重要？当前有哪些创新模型？如何
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
最新人工智能硬件培训AI 基础入门学习课程参考2025版（大模型篇）聆思科技AI芯片聆思大模型开发板实践分享大模型语音交互人工智能语音识别视觉检测 AI编程人机交互
前言在人工智能大模型重塑教育与社会发展的当下，无论是探索未来职业方向，还是更新技术储备，掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手，到课堂用于学术研究的智能工具，大模型正在工作生活教育等领域发挥着越来越重要的作用。针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求，我们根据CSK6大模型语音视觉开发板已有功能，整理了一份适合基于本开发板进行教学活动的学习课程参考给大家备
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
提升AI产品竞争力：可用性评估的10个核心维度 AGI大模型与大数据研究院人工智能 ai
提升AI产品竞争力：可用性评估的10个核心维度关键词：AI产品、可用性评估、用户体验、人机交互、产品竞争力、评估维度、人工智能摘要：本文深入探讨了提升AI产品竞争力的10个核心可用性评估维度。我们将从用户角度出发，系统性地分析如何评估和优化AI产品的可用性，包括易用性、效率、可学习性、容错性等关键指标。通过详细的案例分析和实用建议，帮助产品团队打造更具竞争力的AI解决方案。背景介绍目的和范围本文旨
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
大学专业科普 | 物联网、自动化和人工智能
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。物联网专业课程设置基础课程：包括物联网概论、电子电工基础、计算机网络技术、数据库应用基础、C语言程序设计等。专业核心课程：传感器与传感网技术、自动识别技术与应用、单片机基础、物联网通信技术、嵌入式系统设计、无线传感器网络等。实践课
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
当前最好的0样本文本转语音是哪个模型？ skywalk8163 多媒体人工智能人工智能 MegaTTS3
综合排名前三模型‌MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer+WaveVAE‌架构，在韵律自然度榜单SpeechArena排名第一11‌开源地址‌：GitHub官方仓库（免费商用）‌MiniMaxSpeec
招标专家随机抽选——抽取结果打印模板设计—未来之窗智能编程——仙盟创梦IDE 未来之窗软件服务招标专家仙盟创梦IDE 东方仙盟
打印代码function未来之窗_人工智能_打印指定区域(魔都id){varmode="iframe";varclose=false;varextraCss=`.cyberwinqrimg{display:inline-block!important;}`;varkeepAttr=[];keepAttr.push($("#"+魔都id).html());varheadElements=',';va
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，