#今日论文推荐# 超越 ConvNeXt、RepLKNet | 看 51×51 卷积核如何破万卷

#今日论文推荐# 超越 ConvNeXt、RepLKNet | 看 51×51 卷积核如何破万卷

自从Vision Transformers (ViT) 出现以来,Transformers迅速在计算机视觉领域大放异彩。卷积神经网络 (CNN) 的主导作用似乎受到越来越有效的基于Transformer的模型的挑战。最近,一些先进的卷积模型使用受局部大注意力机制驱动设计了大Kernel的卷积模块进行反击,并显示出吸引人的性能和效率。其中之一,即 RepLKNet,以改进的性能成功地将Kernel-size扩展到 31×31,但与 Swin Transformer 等高级 ViT 的扩展趋势相比,随着Kernel-size的持续增长,性能开始饱和。

在本文中,作者探索了训练大于 31×31 的极端卷积的可能性,并测试是否可以通过策略性地扩大卷积来消除性能差距。这项研究最终得到了一个从稀疏性的角度应用超大kernel的方法,它可以平滑地将kernel扩展到 61×61,并具有更好的性能。基于这个方法,作者提出了Sparse Large Kernel Network(SLaK),这是一种配备 51×51 kernel-size的纯 CNN 架构,其性能可以与最先进的分层 Transformer 和现代 ConvNet 架构(如 ConvNeXt 和 RepLKNet,关于 ImageNet 分类以及典型的下游任务。

1应用超过 31×31 的超大卷积核

作者首先研究了大于 31×31 的极端Kernel-size的性能,并总结了3个主要观察结果。这里作者以 ImageNet-1K 上最近开发的 CNN 架构 ConvNeXt 作为进行这项研究的 benchmark

作者关注最近使用 MixupCutmixRandAugment 和 Random Erasing 作为数据增强的作品。随机深度标签平滑作为正则化应用,具有与 ConvNeXt 中相同的超参数。用 AdamW 训练模型。在本节中,所有模型都针对 120 个 epoch 的长度进行了训练,以仅观察大Kernel-size的缩放趋势。

论文题目:More ConvNets in the 2020s : Scaling up Kernels Beyond 51 × 51 using Sparsity
详细解读:https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909icon-default.png?t=M666https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,大数据)