Patches Are All You Need
发表时间:[Submitted on 24 Jan 2022];
发表期刊/会议:Computer Vision and Pattern Recognition;
论文地址:https://arxiv.org/abs/2201.09792;
代码地址:https://github.com/locuslab/convmixer;
尽管CNN多年以来一直是计算机视觉任务的主要架构,但最近的一些工作表明,基于Transformer的模型,尤其是ViT,在某些情况下会超越CNN的性能(尤其是后来的swin transformer,完全超越CNN, 里程碑);
然而,因为Transformer的self-attention运行时间为二次的/平方的( O ( n 2 ) O(n^2) O(n2)),ViT使用patch embedding,将图像的小区域组合成单个输入特征,以便应用于更大的图像尺寸。
这就引出一个问题: ViT的性能是由于Transformer本身就足够强大,还是因为输入是patch?
本文为后者提供了一些证据;
本文提出一种非常简单的模型:ConvMixer,思想类似于MLP-Mixer;
MLP-Mixer直接在作为输入的patch上操作,分离空间和通道维度的混合信息,并在整个网络中保持相同的大小和分辨率。
ConvMixer只使用标准卷积来实现混合步骤。
尽管它很简单,但本文表明ConvMixer在类似的参数计数和数据集大小方面优于ViT、MLP-Mixer和它们的一些变体,此外还优于经典视觉模型(如ResNet)。
本文探索一个问题:ViT的性能强大是因为Transformer结构本身,还是更多的来源于这种patch的表征形式?
本文提出一个非常简单的卷积架构,我们称之为“ConvMixer”,因为它与最近提出的MLP-Mixer相似(Tolstikhin et al, 2021)。
ConvMixer的许多方面都和ViT或MLP-Mixer类似:
不同之处:
结论:patch的表征形式很重要;
如图2所示:
Pytorch实现:
class ConvMixerLayer(nn.Module):
def __init__(self,dim,kernel_size = 9):
super().__init__()
#残差结构
self.Resnet = nn.Sequential(
nn.Conv2d(dim,dim,kernel_size=kernel_size,groups=dim,padding='same'),
nn.GELU(),
nn.BatchNorm2d(dim)
)
#逐点卷积
self.Conv_1x1 = nn.Sequential(
nn.Conv2d(dim,dim,kernel_size=1),
nn.GELU(),
nn.BatchNorm2d(dim)
)
def forward(self,x):
x = x +self.Resnet(x)
x = self.Conv_1x1(x)
return x
class ConvMixer(nn.Module):
def __init__(self,dim,depth,kernel_size=9, patch_size=7, n_classes=1000):
super().__init__()
self.conv2d1 = nn.Sequential(
nn.Conv2d(3,dim,kernel_size=patch_size,stride=patch_size),
nn.GELU(),
nn.BatchNorm2d(dim)
)
self.ConvMixer_blocks =nn.ModuleList([])
for _ in range(depth):
self.ConvMixer_blocks.append(ConvMixerLayer(dim=dim,kernel_size=kernel_size))
self.head = nn.Sequential(
nn.AdaptiveAvgPool2d((1,1)),
nn.Flatten(),
nn.Linear(dim,n_classes)
)
def forward(self,x):
#编码时的卷积
x = self.conv2d1(x)
#多层ConvMixer_block 的计算
for ConvMixer_block in self.ConvMixer_blocks:
x = ConvMixer_block(x)
#分类输出
x = self.head(x)
return x
model = ConvMixer(dim=128,depth=2)
print(model)
ConvMixer(
(conv2d1): Sequential(
(0): Conv2d(3, 128, kernel_size=(7, 7), stride=(7, 7))
(1): GELU()
(2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
)
(ConvMixer_blocks): ModuleList(
(0): ConvMixerLayer(
(Resnet): Sequential(
(0): Conv2d(128, 128, kernel_size=(9, 9), stride=(1, 1), padding=same, groups=128)
(1): GELU()
(2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
)
(Conv_1x1): Sequential(
(0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
(1): GELU()
(2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
)
)
(1): ConvMixerLayer(
(Resnet): Sequential(
(0): Conv2d(128, 128, kernel_size=(9, 9), stride=(1, 1), padding=same, groups=128)
(1): GELU()
(2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
)
(Conv_1x1): Sequential(
(0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
(1): GELU()
(2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
)
)
)
(head): Sequential(
(0): AdaptiveAvgPool2d(output_size=(1, 1))
(1): Flatten(start_dim=1, end_dim=-1)
(2): Linear(in_features=128, out_features=1000, bias=True)
)
)
ConvMixer的实例化依赖于四个参数:
其他ConvMixer模型的命名规则:ConvMixer-h/d;
本文的架构是基于混合的想法;特别地,我们选择了深度卷积dw来混合空间位置和点卷积来pw混合通道位置。
以前工作的一个关键观点是,MLP和自我注意可以混合远的空间位置,也就是说,它们可以有任意大的接受域。因此,我们使用大核卷积来混合遥远的空间位置。
虽然自我注意和MLP理论上更灵活,允许大的接受域和内容感知行为,但卷积的归纳偏差非常适合视觉任务。通过使用这样的标准操作,我们也可以看到与传统的金字塔形、逐步下采样的卷积网络设计相比,patch表示本身的效果。
主要在ImageNet-1k分类上评估ConvMixers,没有任何预训练或其他数据;
将ConvMixer添加到timm框架,并使用接近标准的设置对其进行训练: 除了默认的timm增强外,我们还使用RandAugment、mixup、CutMix、随机擦除和梯度范数裁剪。使用AdamW优化器;
由于计算量有限,我们绝对没有在ImageNet上进行超参数调优,并且训练的epoch比竞争对手少。
因此,我们的模型可能过度正则化或不正则化,我们报告的准确性可能低估了我们模型的能力。
将ConvMixer模型与ResNet/DeiT/ResMLP比较,结果如表1、图1所示;