#今日论文推荐# Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?

#今日论文推荐# Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?

最近的研究表明,Transformer 具有强大的远程关系建模的能力,但在捕获高频局部信息方面却无能为力。为了解决这个问题,本文提出了 Inception Transformer,简称 iFormer,可以有效地学习视觉数据中包含高频和低频信息的综合特征。
具体来说,本文设计了一个 Inception mixer卷积最大池化的优势移植到 Transformer 中捕获高频信息。与最近的mixer不同,Inception mixer通过通道拆分机制带来更高的效率,同时采用并行卷积/最大池化路径和自注意力路径作为high-frequency mixerlow-frequency mixer可以灵活地对分散在其中的判别信息进行建模。
考虑到Low-level Layer在捕捉高频细节方面发挥更多作用,而High-level Layer在建模低频全局信息方面发挥更多作用,作者进一步引入frequency ramp structure,即逐渐减小送到high-frequency mixer的维度,并增加low-frequency mixer的维度(一句话就是ResNet的层次设计思想),可以有效地权衡不同层的高频和低频分量。
在一系列视觉任务上对 iFormer 进行了基准测试,并展示了它在图像分类、COCO检测和 ADE20K 分割方面的出色表现。例如,iFormer-S 在 ImageNet-1K 上达到了 83.4% 的 top-1 准确率,比 DeiT-S 高出 3.6%,在只有 1/4 的参数和 1/3 的FLOPs的情况下甚至略好于更大的模型 Swin-B (83.3%)。

Transformer 席卷了自然语言处理 (NLP) 领域,在许多 NLP 任务(例如机器翻译和问答)中实现了惊人的高性能。这在很大程度上归功于其强大的Self-Attention机制对数据中的长期依赖关系进行建模的能力。它的成功促使研究人员研究它对计算机视觉领域的适应,而 Vision Transformer (ViT) 是先驱。该架构直接继承自 NLP,但应用于以原始图像块作为输入的图像分类。后来,许多 ViT 变体被开发出来,以提高性能或扩展到更广泛的视觉任务,例如目标检测和分割。

ViT 及其变体在视觉数据中具有很强的捕获低频的能力,主要包括场景或对象的全局形状和结构,但对于学习高频的能力不是很强,主要包括局部边缘和纹理。这可以直观地解释:Self-Attention是 ViTs 中用于在非重叠 patch tokens之间交换信息的主要操作,也是一种全局操作,相对于高频局部信息Self-Attention更能捕获数据中低频的全局信息。

论文题目:Inception Transformer
详细解读:https://www.aminer.cn/research_report/62bd58597cb68b460fdf5dadicon-default.png?t=M5H6https://www.aminer.cn/research_report/62bd58597cb68b460fdf5dad
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,大数据)