CNN和Transformer哪个更接近人类视觉?

Are Convolutional Neural Networks or Transformers more like human vision?

https://arxiv.org/abs/2105.07197

S Tuli, I Dasgupta, E Grant, T L. Griffiths

[DeepMind & UC Berkeley & Princeton University]

摘要:现代计算机视觉机器学习模型在特定的视觉识别任务上的准确率超过了人类,特别是在像ImageNet这样的数据集上。然而,高精度可以用许多方式实现。机器学习系统找到的具体的决策函数,不仅取决于该系统用到的数据,还取决于模型的归纳偏差,这些偏差通常更难刻画。在这项工作中,我们跟踪了神经网络模型的深入行为分析的最新趋势,通过观察错误模式(beyonds “准确性”评估指标)。我们的重点是比较一套标准的卷积神经网络(CNNs)和最近提出的基于注意的网络,视觉Transformer(ViT),它放松了CNNs的平移不变性约束,因此代表了一个具有较弱的归纳偏置的模型。基于注意的网络在视觉任务上比CNNs具有更高的准确度,我们使用新的度量标准来检验更细粒度的错误一致性,证明了它们的错误也更符合人类的错误。这些结果对于建立更像人类的视觉模型,以及理解人类的视觉对象识别都有意义。

引言
卷积神经网络(CNN)目前是许多计算机视觉任务的事实标准,包括目标检测(Ren et al.,2015)、图像分类(Krizhevsky et al.,2012)、分割(Girshick et al.,2014)、人脸识别(Schroff et al.,2015)和图像描述(L。陈等人,2017)。CNN中的归纳偏置受到灵长类视觉系统的启发,它们的层激活被用来解释其中的神经激活(Yamins et al.,2014)。最近的大量工作已经深入到理解CNN在ImageNet等流行数据集上学习的表示和策略(Geirhos et al.,2020;赫尔曼等人,2020年)。其中大部分采取行为分析的形式;i、 例如,分析模型分类以深入了解底层表示。这项工作的一个关键发现是,网络倾向于按纹理而不是形状对图像进行分类(Baker et al.,2018)。另一方面,人类优先使用形状信息进行分类(Kucker等人,2019)。例如,CNN很难识别出保留形状而不是纹理的草图,而这些草图很容易被人类分类。

诊断数据集(diagnostic datasets,Geirhos等人,2019;纳文,1977)的可用性显著改善了人类视觉和神经网络之间关系的分析。例如,Geirhos et al.(2019)提出了样式化的ImageNet,其中一个类的纹理可以应用于另一个类的图像(保持形状;参见图1)。此数据集上的模型性能允许我们确定模型是否偏向于形状或纹理。另一个相关的行为分析则考虑标准数据集上的错误一致性,而不是在专门设计的数据集上进行测试(Geirhos等人,2020)。

然而,机器学习的最新发展表明,卷积可能不是计算机视觉所必需的。新的Transformer架构已成功用于基于视觉的任务(Vaswani等人,2017)。这些不具有卷积所提供的对局部空间结构的结构归纳偏置。取而代之的是,它们完全建立在灵活的注意力分配上。虽然Transformer的成功在语言方面得到了最广泛的证明(Devlin等人,2019年),但其在视觉任务中的应用也优于最先进的CNN(Chen, M.Generative pretraining from pixels,2020;Dosovitskiy等人,ViT. 2021年)。

在本文中,我们比较了其中一个基于注意的模型,视觉Transformer(ViT)(Dosovitskiy等人,2021年)标准CNNs以及人类,在视觉分类任务。我们专注于了解CNNs或ViTs在分类行为上是否更像人类。

卷积与注意力

卷积神经网络通过展示ImageNet等大规模图像分类数据集的最新性能,标志着深度学习作为一种强大且可扩展的方法的出现(Krizhevsky et al.,2012)。卷积层卷积输入并将其结果传递给下一层(见图2(a))。这种硬编码具有平移不变性,图像中的每个patch用相同的权值进行处理。这类似于视觉皮层神经元对特定刺激的反应(Lecun等人,1998)。通过训练这些卷积滤波器的权重,CNN可以学习每个特定类别的图像表示,并且已经证明与视觉皮层中的处理有许多相似之处(Yamins等人,2014)。这些归纳偏置使得CNN在视觉任务上的表现大大优于全连接的网络。然而,这种局部连通性会导致全局上下文的丢失;例如,它可以鼓励偏向于基于纹理而不是形状进行分类(Hermann et al.,2020)。解决这一问题的一些方法是对图像的增强版本进行培训,并结合自上而下的信息(Cao等人,2015)。

Transformer模型提供了另一种方法(Vaswani等人,2017)。Transformer的主要支柱是自注意力。这种机制允许我们在上下文中提高某些信息的相关性。这可用于局部感受野,先前的研究表明,多头自我注意层(如我们使用的)的表现类似于卷积层(Cordonnier et al.,2020)。然而,Transformer要灵活得多,不一定总是使用卷积。这种灵活性导致了它们在自然语言处理方面的巨大成功,在自然语言处理中,人们可能不得不关注与当前单词不同距离的信息。他们最近在视觉领域也取得了成功(M。陈等,2020;Dosovitskiy等人,2021年)。在本文中,我们研究了这种增加的灵活性是否允许Transformer提供比CNN更人性化的表示。

测量误差一致性

机器学习和人工智能研究以及认知科学和行为神经科学的一个中心问题是确定两个决策者(无论是人类还是人工智能模型)是否使用相同的策略来解决给定的任务。大多数跨系统的比较只考虑它们对任务的准确性。但是,有许多方法可以在测试集上实现相同的平均精度。首先,两个系统在哪些刺激没有被正确分类上会有所不同,而准确度指标并不能捕捉到这一点。第二,虽然只有一种方法是正确的,但也有许多方法是错误的系统也可以系统地改变他们如何错误分类刺激。我们将在下面讨论这些差异的各种度量方法。( First, two systems can differ in which stimuli they failto classify correctly, which is not captured by accuracy metrics. Second, while there is only one way to be right, there are many ways to be wrong—systems can also vary systematically in how they misclassify stimuli. We consider various measures of these differences below.)

错误重叠。

首先,我们考虑如何衡量两个系统的相似性,在哪些刺激,他们往往误判。作为第一步,我们可以简单地考虑下到个别试验的决定中有多少是相同的(要么都是正确的,要么都是错误的)。我们称之为观测误差重叠。这由给出,其中是两个系统“一致”的频率;也就是两个系统都分类正确或者都分类错误的频率。随着系统的准确度的提高,这个指标也会增加,因为重叠的正确决策的数量会增加。

用Cohen's校正准确度.       考虑这样一个系统:在每次试验中,正确的概率为。这相当于从参数为的二项式分布中提取独立同分布样本(This amounts to taking i.i.d. samples from a binomial with parameter p_correct.)。这两种模型的观测误差重叠随着的提高而增大;也就是,they will have a higher error overlap expected by chance。这是通过比较独立二项式观测器和的精度作为各自的概率来计算的:。期望重叠(expected overlap)可以用来归一化观测到的误差重叠,给出一种误差一致性度量,称为Cohen's :    

Cohen's在之前的研究中已经被用于比较人类和神经网络(Geirhos等人,2020)。然而,它不考虑系统对图像的错误分类,它只考虑分类是否正确。它也很难解释不同系统之间的相似性和差异来自何处。

更细致的错误分类调查   

 通过比较两个分类器的混淆矩阵,我们可以在不损失信息的情况下比较两个分类器所做的决策,混淆矩阵是一个表,该表累积了分类器所做的每个决策的真实类和预测类。然而,这是一个非常高维的, 例如,ImageNet包含1000个不同的细粒度类,这样混淆矩阵就有个元素,而且是非常稀疏的,大多数非对角项将为零。此外,收集足够的人类数据来填充相应的人类决策混淆矩阵是困难的。

一种解决方案是使用WordNet层次结构(Miller,1995)将类分为更高级别的类别;这就给出了16个所谓的“entry级”类别,即,飞机、熊、自行车、鸟、船、瓶子、汽车、猫、椅子、钟、狗、大象、键盘、刀、烤箱和卡车(Geirhos等人,2019年))。为了在这16个类上评估这些ImageNet训练模型,我们收集了模型估计的类概率,并通过对属于每个类别的ImageNet类的概率求和,将这些概率映射到16个entry级类别,为每个模型生成16×16的混淆矩阵。

我们可以使用这个混淆矩阵来生成两个分类器之间的各种比较度量。这些措施比前面介绍的度量Cohen's更灵活,因为它们捕获关于哪些错误分类的元素被错误分类为什么的信息。这为考虑混淆矩阵中的簇结构的更复杂的分析打开了大门。例如,把一辆car错分为truck会更像是人类会犯的错误,相比把car分类为狗而言。

具体地说,我们通过计算每个类中的元素被错误分类的次数,并normalizing with the net number of errors made,来生成类中错误的概率分布。特别地,为了得到错误的概率分布,(其中是维概率simplex),我们对每一类的误差项进行归一化:

其中是要定义的错误计数(a count of errors defined to be defined)。

然后我们计算这些分布之间的Jensen-Shannon(JS)距离,

其中是两个概率分布和的逐点平均值(即,和是两个系统误差的概率分布),是Kullback-Leibler散度。JS距离是Kullback-Liebler散度的对称平滑版本,

较低的JS距离意味着分类器具有较高的错误一致性。这项措施,不像Cohen's,仅关注示例容易被错误分类的相似性,并且不受分类器整体精度的影响(c.f.,Geirhos et al.,2020)。在下一节中,我们将在卷积模型和Transformer模型中计算这些与人类分类行为的距离,展示这些距离如何比现有的Cohen等度量方法产生更多的信息。在接下来的内容中,我们定义了JS距离的两个变体,它们的粒度一个更小,一个更粗(two variants of the JS distance that are less and more granular)。

Class-wise的JS距离。    产生一个非常接近Cohen的误差一致性度量, 我们折叠混淆矩阵的列(预测的标签),并计算16个真类(true classes)的累积误差,如下所示:

其中是所讨论的给定系统的混淆矩阵。在这种情况下,对于给定数量的输出类(本例中为16个),类间JS距离比较哪些类被错误分类(which classes were misclassified)

Inter-class的JS距离。我们还可以使用混淆矩阵来计算更细粒度的度量。特别地,我们可以直接计算错误的完整分布之间的距离,给出240维类间错误分布(即对应于16×16混淆矩阵的非对角线条目)通过将错误计数作为混淆矩阵的非对角元素(we can directly compute the distances between the full distribution of errors giving a 240-dimensional inter-class error distribution (i.e., p ∈ ∆240 corresponding to the off-diagonal entries of the 16 × 16 confusion matrix) by taking the error counts to be the off-diagonal elements of the confusion matrix):

在这种情况下,Inter-class的JS距离比较哪些类被误分类为哪些类(what classes were misclassified as what)

一个有趣的发现是,图3(b)表明类间JS距离与Cohen距离没有相关性,而不是图3(a)中类间JS所显示的强相关性κ 这意味着这个指标提供了超越科恩的洞察力κ 与人类测量误差一致性。

方法

我们分析了不同算法(最流行的CNN,即ResNet(Kolesnikov et al.,2020)和最近提出的基于注意的视觉变换器(ViT)(Dosovitskiy et al.,2021))的错误一致性。使用的ViT和ResNet模型在ImageNet-21K(也称为“完整ImageNet,2011年秋季发布”)和ILSVRC-2012数据集(Russakovsky等人,2015)上进行了预先培训。所使用的ViT模型包括ViT-B/16、ViT-B/32、ViT-L/16和ViT-L/32,所使用的ResNet模型是BiT-M-R50x11。我们在一个专门设计的诊断数据集上测试了这些,即样式化的ImageNet数据集,其中纹理和形状之间的线索冲突是通过基于纹理的样式转换生成的(Geirhos et al.,2019)2。

所有结果以95%置信区间报告交叉验证试验误差。

结果

首先,我们发现类的JS距离与Cohen距离密切相关κ 当对样式化ImageNet(SIN)数据集上的一系列模型进行评估时(图3(a))。我们还发现,这一指标与训练任务的准确性没有显著的相关性(图3(c)),这进一步证明了SIN等诊断数据集的错误一致性可以独立于训练任务的准确性。然而,当将该测量与SIN的准确度(图3(d))进行比较时,我们可以看到,有人为错误的JS距离越小,SIN的准确度就越高;i、 例如,更高的形状偏置(参见下面的“形状偏置”部分)。


图4显示了SIN数据集上所考虑模型的不同错误一致性度量的比较。我们先比较一下科恩的κ 穿过ResNet和ViT。在第一次比较Transformer和CNNs之间的误差一致性时,我们发现ViT比ResNet更符合人类。然后比较新的JS距离度量。我们首先考虑类的距离。高科恩κ JS距离越小,误差一致性越强。我们绘制了JS距离的递减幅度,以直观地突出模式与科恩的相似性κ. 我们发现这种模式对科恩来说是重复的κ 是用类的JS距离复制的;i、 例如,ViT比CNNs更像人类。最后,我们考虑了240种错误类型的全联合分布之间的距离或类间JS距离。我们注意到一个令人惊讶的发现,ViT的类间JS距离比ResNet的高。

形状偏置

在对视觉对象进行分类时,CNN对纹理的依赖性比对形状的依赖性更强(Baker等人,2018),而人类倾向于相反的偏好。在这里,我们研究了ViTs和CNNs在这种形状偏置上的比较。形状偏置被定义为模型正确预测形状或纹理预测正确的试验形状的时间百分比(Geirhos et al.,2020)。我们通过评估SIN数据集的性能来测试这一点。此数据集包含每个图像中对象的形状和纹理发生冲突的图像。利用这个数据集,我们可以测试一个系统是否基于形状或纹理进行分类。

我们使用与上一节相同的模型,以相同的方式进行训练。然后我们分析了它们在SIN数据集上的测试性能。我们首先收集分类器标签与物体的真实纹理或真实形状匹配的所有试验。然后我们检查其中哪一部分形状正确,而纹理正确。此测试的结果如图5所示。右侧的小条形图表示准确度(答案对应于正确的纹理或形状类别)。我们发现ViT比传统cnn具有更高的形状偏置。这在一定程度上解释了上一节中的类度量与主要按形状而不是纹理对对象进行分类的人之间更高的错误一致性。然而,当考虑到全误差分布时,ResNet比ViT更人性化,这似乎与这一发现不符。为了理解这一点,我们注意到形状偏置分析只考虑形状或纹理被正确预测的情况。它只包含与图像真实纹理匹配的错误分类。因此,它不包含全部错误分布所反映的大多数错误分类。因此,在全误差分布中,ResNet确实优于ViT,这只能通过类间JS距离来揭示。

使用增强数据进行微调

到目前为止,我们只考虑在相同的固定计算机数据集上训练的模型的性能。然而,观察到的数据结构可以显著地改变所学的表征。Brendel&Bethge(2019)表明,ImageNet在很大程度上可以仅使用局部信息来解决,这表明在解决该数据集时,纹理偏置是一种生态理性的启发式方法。Geirhos et al.(2019)表明,通过将ImageNet对象的纹理更改为随机选择的绘画的纹理,在数据集上进行纹理被迫不具信息性的训练,会导致几乎与人类一样高的形状偏置。Hermann等人(2020年)表明,简单的数据扩充在学习形状偏置方面也起着重要作用。特别是,涉及颜色失真、噪声和模糊的自然主义数据增强显著降低了纹理偏置,而随机作物增强则增加了ImageNet训练CNN中的纹理偏置(Hermann et al.,2020)。这些发现突出了训练数据在学习表征中的关键作用。在本节中,我们将研究数据扩充如何影响这些系统学习的表示,特别是这种微调如何影响它们与人类行为的相似性。


方法

在先前确定的基于注意和卷积的模型中,我们训练最小的ViT模型(ViT-B/32)和最小的ResNet(BiT-M-R50x1)。进一步的工作可以在训练两种架构的模型时观察可训练参数数目的影响。

我们使用T中的增广。Chen等人(2020)和Hermann等人(2020):旋转(±90◦  , 180◦  随机),随机剪切(大小为2的矩形× 2像素到图像宽度的一半),Sobel滤波,高斯模糊(内核大小=3×3像素)、颜色失真(颜色抖动概率为80%,颜色下降概率为20%)和高斯噪声(标准化图像的标准偏置为0.196)。这些增强应用于ImageNet数据集,然后用于微调模型。对于ViT,我们使用余弦阶跃衰减,训练100个历元,初始学习率为0.3。对于ResNet,我们使用线性阶跃衰减,训练了5000个历元,初始学习率为0.03。基于用于预训练的网络结构及其超参数,选择适当的训练配方(Dosovitskiy et al.,2021;Kolesnikov等人,2020年)。有关超参数优化的更多详细信息,以及用于培训和实施的实验的源代码,请访问:https://github.com/shikhartuli/cnn txf偏置。

错误一致性

我们用这些微调模型重复上面的误差一致性分析。这些结果如图6所示。我们发现,微调使ResNet在误差一致性方面不那么人性化(Cohen的显著差异)κ 以及类间JS距离,在类间JS距离中是一个不显著的趋势)。这是令人惊讶的,因为这些增强已经被发现会增加形状偏置(见下一节),人们会预期增加的形状偏置将意味着与人类更大的错误一致性。另一方面,我们发现ViT的误差一致性在微调过程中没有显著变化,事实上,ViT的趋势(统计上不显著)与ResNet相反,特别是误差一致性的改善。

形状偏置

我们用这些微调模型重复上述形状偏置分析,结果如图7所示。与Hermann等人(2020)的先前发现一致,我们发现微调后ResNet增加了其形状偏置。我们发现在微调之后,ViT也增加了它的形状偏置。


对准确性的影响


微调改变了所使用的表示,我们研究了这如何影响ML系统与人类分类行为的相似性。然而,这种微调如何影响原始训练任务的准确性还有待观察。我们在图8中对此进行了分析。我们发现,对增强数据的训练增加了形状偏置,并略微降低了ImageNet的精度,这一点得到了先前工作的证实(Hermann et al.,2020)。ResNet的精确度下降比ViT更为显著。


结论


在这项工作中,我们从一致性的角度探讨了不同视觉模型与人类视觉的关联程度。我们看到,最近提出的Transformer网络不仅在图像分类任务的精度上优于CNNs,而且具有更高的形状偏置,并且在很大程度上更符合人为错误。我们探讨了这种一致性与新的指标,超越了先前提出的科恩的κ. 此外,我们对两个模型(Transformer和传统的卷积神经网络)进行了微调,发现这增加了CNN和Transformer的形状偏置。我们观察到,与CNNs相比,Transformer在保持其精度的同时,其形状偏置也相当大。这可能是由注意力模型的性质来解释的,它允许把注意力集中在图像中对给定任务很重要的部分,而忽略其他噪声背景来进行预测。


更多的测试仍然可以在Transformer模型上进行。例如,ViTs可与iGPT(M。Chen等人,2020)来了解这个家族中的建筑如何影响形状和纹理偏置。这可以帮助我们制定架构“特征”,有助于更好地模拟类似大脑的网络。此外,我们介绍的JS度量可以用来分析在许多其他方面产生的错误。例如,我们还可以测量模型错误分类之间的“概念级”相似性(比如狗对猫而不是卡车)。这也有助于探索这样一个前提,即人类不仅可以使用形状/纹理,还可以使用“概念”进行分类(Speer et al.,2017)。对于科恩这样的标量度量,这是不可能的κ. 此外,通过将这些人为错误一致性度量作为训练损失的一部分,我们可以得到更接近“类人策略”的模型。这也有助于简化或规范这些模型,减少训练的计算成本。

你可能感兴趣的:(CNN和Transformer哪个更接近人类视觉?)