Image as Set of Points

摘要

什么是图像以及如何提取潜在特征?卷积网络(ConvNets)将图像视为矩形的有组织像素,并通过局部区域的卷积运算提取特征;视觉转换器(ViTs)将图像视为一系列补丁,并通过全局范围内的注意力机制提取特征。在这项工作中,我们介绍了一种直观而有前途的视觉表示范式,称为上下文聚类。上下文聚类将图像视为一组无组织点,并通过简化的聚类算法提取特征。详细地,每个点包括原始特征(例如,颜色)和位置信息(例如,坐标),并且采用简化的聚类算法来分层地对深度特征进行分组和提取。我们的CoC是无卷积和注意力的,并且只依赖于聚类算法进行空间交互。由于设计简单,我们表明CoCs通过聚类过程的可视化赋予了令人满意的可解释性。我们的CoCs旨在为图像和视觉表现提供一个新的视角,这可能在不同领域有广泛的应用,并展现出深刻的见解。尽管我们没有针对SOTA性能,但在几个基准测试中,COC仍然取得了与ConvNets或ViT相当甚至更好的结果。代码位于:https://github.com/ma-xu/Context-Cluster.

1.介绍

我们提取特征的方式在很大程度上取决于我们如何解读图像。卷积神经网络(Convolutional Neural Networks,简称ConvNets)作为一种基本范式,近年来在计算机视觉领域占据主导地位,大大提高了各种视觉任务的性能(He等人,2016;Xie等人,2021;Ge等人,2021)。在方法上,ConvNets将图片概念化为矩形形式的排列像素的集合,并以滑动窗口的方式使用卷积来提取局部特征。得益于一些重要的归纳偏置,如locality 和translation equivariance,ConvNets被认为是高效的。最近,视觉变形金刚(ViTs)对ConvNets在视觉领域的霸主地位提出了重大挑战。源于语言处理,Transformers(Vaswani et al.,2017)将图像视为一系列补丁,并采用全局范围的自注意操作来自适应地融合来自补丁的信息。利用所得模型(即ViT),ConvNets中的固有归纳偏置被放弃,并获得了令人满意的结果(Touvron等人,2021)。

最近的研究表明,视觉社区取得了巨大的进步,这主要建立在卷积或注意力之上(例如,ConvNeXt(Liu等人,2022)、MAE(He等人,2021)和CLIP(Radford等人,2021))。同时,一些尝试将卷积和注意力结合在一起,如CMT(Guo等人,2022a)和CoAtNet(Dai等人,2021)。这些方法在网格中扫描图像(卷积),但探索序列的相互关系(注意力),在不牺牲全局接收(注意力)的情况下享受局部先验(卷积)。虽然它们继承了两者的优势,并取得了更好的实证表现,但见解和知识仍然局限于ConvNets和ViTs。我们强调,除了卷积和关注之外,一些特征提取器也值得研究,而不是被引诱进入追求增量改进的陷阱。虽然卷积和注意力被认为对视野有显著的好处和巨大的影响,但它们并不是唯一的选择。基于MLP的体系结构(Touvron等人2022发表的论文,Tolstikhin等人,2021发表的会议论文)表明,纯基于MLP设计也可以实现类似的性能。此外,将图网络作为特征提取器被证明是可行的(Han et al.,2022)。因此,我们期待一种新的特征提取范式,它可以提供一些新的见解,而不是渐进的性能改进。

Image as Set of Points_第1张图片

在这项工作中,我们回顾了基础视觉表示的经典算法,聚类方法(Bishop和Nasrabadi,2006)。从整体上讲,我们将图像视为一组数据点,并将所有点分组到聚类中。在每个聚类中,我们将点聚合到一个中心,然后自适应地将中心点分配给所有点。我们将此设计称为上下文聚类。图1说明了该过程。具体来说,我们将每个像素视为具有颜色和位置信息的5维数据点。从某种意义上说,我们将图像转换为一组点云,并利用点云分析的方法(Qi et al.,2017b;Ma et al.,2022)进行图像视觉表示学习。这桥接了图像和点云的表示,显示出强大的泛化能力,并为多种模态的轻松融合开辟了可能性。对于一组点,我们引入了一种简化的聚类方法来将点分组为聚类。聚类处理与SuperPixel(Ren&Malik,2003)有着相似的想法,将相似的像素分组,但它们有着根本的不同。据我们所知,我们是第一个为通用视觉表示引入聚类方法并使其发挥作用的人。相反,SuperPixel和更高版本主要用于图像预处理(Jampani等人,2018)或语义分割等特定任务(Yang等人,2020;Yu等人,2022b)。

我们基于上下文聚类实例化我们的深度网络,并将生成的模型命名为上下文聚类(context Clusters,CoCs)。我们的新设计本质上不同于ConvNets或ViTs,但我们也从中继承了一些积极的哲学,包括ConvNets的层次表示(Liu et al.,2022)和ViTs的Metaformer(Yu et al.,2022c)框架。CoCs显示出明显的优势。首先,通过将图像视为一组点,CoCs对不同的数据域(如点云、RGBD图像等)表现出很强的泛化能力。其次,上下文聚类处理为CoCs提供了令人满意的可解释性。通过可视化每一层中的聚类,我们可以明确地理解每一层的学习。尽管我们的方法不以SOTA性能为目标,但在几个基准测试中,它仍然取得了与ConvNets或ViT相当甚至更好的性能。我们希望我们的上下文聚类将为愿景社区带来新的突破。

2.相关工作

图像处理中的聚类:虽然图像处理中的聚类方法(Castleman,1996)在深度学习时代已经失宠,但它们从未从计算机视觉中消失。SuperPixel是一项历史悠久的工作(Ren&Malik,2003),它通过将一组具有共同特征的像素分组,将图像分割成多个区域。鉴于所需的稀疏性和简单的表示,SuperPixel已经成为图像预处理的常见实践。SuperPixel应用在整个图像上对像素进行了详尽的聚类(例如,通过K-means算法),这使得计算成本很高。为此,SLIC(Achanta et al.,2012)将聚类操作限制在局部区域,并均匀地初始化K均值中心,以实现更好、更快的收敛。近年来,聚类方法的兴趣激增,并与深度网络密切相关(Li&Chen,2015;Jampani等人,2018;Qin等人,2018年;Yang等人,2020)。为了创建深度网络的超级像素,SSN(Jampani et al.,2018)提出了一种可微分的SLIC方法,该方法是端到端可训练的,并享有良好的运行时间。最近,人们尝试将聚类方法应用于特定视觉任务的网络,如分割(Yu et al.,2022b;Xu et al.,2022)和细粒度识别(Huang&Li,2020)。例如,CMT DeepLab(Yu et al.,2022a)将分割任务中的对象查询作为聚类中心,并将分组像素分配给每个聚类的分割。然而,据我们所知,还没有通过聚类进行一般视觉表示的工作。我们的目标是弥补空缺,同时从数字和视觉上证明其可行性。

ConvNets &ViTs:自深度学习时代以来,ConvNets一直主导着视觉社区(Si-monyan和Zisserman,2015;He等人,2016)。最近,ViTs(Dosovitskiy et al.,2020)向视觉社区引入了纯粹基于注意力的转换器(Vaswani et al.,2017),并在各种视觉任务上设置了新的SOTA性能。一个常见且可信的推测是,这些令人欣慰的成就归功于自我注意机制。然而,这种直观的联想很快就受到了挑战。大量实验还表明,ResNet(He等人,2016)可以通过适当的训练配方和最少的修改实现与ViT相当甚至更好的性能(Wightman等人,2021;Liu等人,2022年)。我们强调,虽然卷积和注意力可能具有独特的优点(即,ConvNets具有归纳偏置(Liu et al.,2022),而ViTs擅长泛化(Yuan et al.,2021b)),但它们没有表现出显著的性能差距。与卷积和注意力不同,在这项工作中,我们从根本上提出了一种使用聚类算法进行视觉表示的新范式。通过定量和定性分析,我们表明我们的方法可以作为一个新的通用主干,并具有令人满意的可解释性。

最新进展:在ConvNets和ViT的框架内,已经做出了大量努力来提高视觉任务的性能(Liu等人,2021b;Ding等人,2022b;Wu等人,2021)。为了利用卷积和注意力,一些工作学习以混合模式混合这两种设计,如CoAtNet(Dai等人,2021)和Mobile-Former(Chen等人,2022b)。我们还注意到,最近的一些进展探索了更多的视觉表示方法,超越了卷积和注意力。类MLP模型(Tolstikhin等人,2021;Touvron等人,2022;Hou等人,2022.Chen等人,2022a)直接考虑空间交互的MLP层。此外,一些工作采用转换(Lian等人,2021;Huang等人,2021)或池化(Yu等人,2022c)进行局部的信息传递。与我们将图像视为无序数据集的工作类似,Vision GNN(ViG)(Han et al.,2022)为视觉任务提取图级特征。不同的是,我们直接应用了传统图像处理中的聚类方法,并表现出了很好的泛化能力和可解释性。

3.方法

上下文聚类放弃了流行的卷积或注意力机制,转而新颖地考虑经典算法聚类来表示视觉学习。在本节中,我们首先描述上下文聚类的pipeline。然后对所提出的用于特征提取的上下文聚类操作(如图2所示)进行了全面解释。之后,我们建立了上下文聚类的体系结构。最后,一些公开的讨论可能有助于个人理解我们的工作,并根据我们的上下文聚类探索更多方向。
Image as Set of Points_第2张图片

3.1 上下文聚类算法的流程

从图像到点集:给定一个图像 I ∈ R 3 × w × h I \in R^{3 \times w \times h} IR3×w×h,我们首先用每个像素 I i j I_{ij} Iij的2D坐标来增强图像,其中每个像素的坐标表示为 [ i / w − 0.5 , j / h − 0.5 ] [i /w−0.5,j/h−0.5] [i/w0.5j/h0.5]。研究进一步的位置增强技术以潜在地提高性能是可行的。考虑到这种设计的简单性和实用性。然后将增强图像转换为点(即像素)的集合 P ∈ R 5 × n P∈R^{5×n} PR5×n,其中 n = w × h n=w×h n=w×h是点的数量,并且每个点都包含特征(颜色)和位置(坐标)信息;因此,点集可能是无序和无组织的。
Image as Set of Points_第3张图片
我们通过提供一个新的图像视角,一组点,获得了出色的泛化能力。一组数据点可以被认为是通用的数据表示,因为大多数领域中的数据可以作为特征和位置信息的组合(或两者中的任何一个)给出。这启发我们将图像概念化为一组点。

特征提取与图像点集 根据ConvNets方法(He et al.,2016;Liu et al.,2022),我们使用上下文聚类块分层提取深层特征(见图2供参考, § 3.2 §3.2 §3.2供解释)。图3显示了我们的上下文聚类架构。给定一组点 P ∈ R 5 × n P∈R^{5×n} PR5×n,为了计算效率,我们首先减少点的数量,然后应用一系列上下文聚类块来提取特征。为了减少点的数量,我们在空间中均匀地选择一些锚点,并通过线性投影连接和融合最近的 k k k个点。注意,如果所有点都按顺序排列,并且 k k k被正确设置(比如4和9等),则这种减少可以通过卷积运算来实现,就像在ViT中一样(Dosovitskiy等人,2020)。为了明确前面所述的中心和锚,我们强烈建议读者查看附录 § B §B §B

特定任务的应用程序 对于分类,我们对最后一个块的输出的所有点进行平均,并使用FC层进行分类。对于检测和分割等下游密集预测任务,我们需要在每个阶段后按位置重新排列输出点,以满足大多数检测和分割头的需求(例如,Mask RCNN(He et al.,2017))。也就是说,上下文聚类在分类方面提供了显著的灵活性,但仅限于密集预测任务的需求和我们的模型配置之间的折衷。我们希望创新的检测和分割头(如DETR(Carion et al.,2020))能够与我们的方法无缝集成。

3.2 上下文聚类操作

在本小节中,我们将介绍我们工作中的关键贡献,即上下文聚类操作。从整体上讲,我们首先将特征点分组为聚类;然后,每个聚类中的特征点将被聚合,然后被调度回原来的像素点,如图1所示。

上下文聚类. 给定一组特征点 P ∈ R n × d P∈R^{n×d} PRn×d,我们根据相似性将所有点分为几个组,每个点只分配给一个聚类。我们首先将 P P P线性投影到 P s P_s Ps以进行相似性计算。根据传统的超级像素方法SLIC(Achanta et al.,2012),我们在空间中均匀地提出 c c c个中心,并且通过对其 k k k个最近点进行平均来计算中心特征。然后,我们计算 P s P_s Ps和由此产生的中心点集之间的成对余弦相似矩阵 S ∈ R c × n S∈R^{c×n} SRc×n。由于每个点都包含特征和位置信息,在计算相似性时,我们隐式地突出了点的距离(位置)以及特征相似性。之后,我们将每个点分配到最相似的中心,从而产生 c c c个聚类。值得注意的是,每个聚类可能具有不同数量的点。在极端情况下,一些聚类可能有零点,在这种情况下它们是多余的。

特征聚合. 我们根据与中心点的相似性动态聚合各个簇中的所有点。假设一个簇包含 m m m个点( P P P中的一个子集),并且 m m m个点和中心之间的相似性是 s ∈ R m s∈R^m sRm s s s中的一个子集),我们将这些点映射到值空间,得到 P v ∈ R m × d ′ P_v∈R^{m×d^′} PvRm×d,其中 d ′ d^′ d是值维。我们还提出了价值空间中的中心 v c v_c vc,就如同提出的聚类中心。聚合特征 g ∈ R d ′ g∈R^{d^′} gRd由下式给出:

在这里插入图片描述

这里, α α α β β β是可学习的标量,用于缩放和移动相似性, s i g ( ⋅ ) sig(·) sig是sigmoid函数,用于将相似性重新缩放到(0,1)。 v i v_i vi表示 P v P_v Pv中的第 i i i个点。根据经验,这种策略将比直接应用原始相似性获得更好的结果,因为不涉及负值。不考虑Softmax,因为这些点彼此不矛盾。我们在公式1中加入了数值中心 v c v_c vc,以获得数值稳定性,并进一步强调局部性。为了控制大小,通过因子 C C C对聚合特征进行归一化。

聚合特征的分派.
然后基于相似性将聚合特征 g g g自适应地分派到聚类中的每个点。通过这样做,点可以相互通信,并共享聚类中所有点的特征,如图1所示。对于每个点 p i p_i pi,我们将其更新为:
在这里插入图片描述
在这里,我们遵循相同的过程来处理相似性,并应用完全连接(FC)层来匹配特征维度(从值空间维度 d ′ d^′ d到原始维度 d d d

多头计算. 我们承认自我注意机制中的多头设计(Vaswani et al.,2017),并使用它来增强我们的上下文聚类。为了简单起见,我们考虑了 h h h个头,并将值空间 P v P_v Pv和相似性空间 P s P_s Ps的维数都设置为 d ′ d^′ d。多头操作的输出通过FC层进行级联和融合。正如我们经验证明的那样,多头架构也有助于我们的上下文聚类得到令人满意的改进。

3.3 结构初始化

虽然上下文聚类从根本上不同于卷积和注意力,但ConvNets和ViTs的设计哲学,如层次表示和元变换器架构(Yu et al.,2022c),仍然适用于上下文聚类。为了与其他网络保持一致,并使我们的方法与大多数检测和分割算法兼容,我们在每个阶段中以16、4、4和4的因子逐渐减少点数。在第一阶段,我们为选定的锚点考虑16个最近邻居,在其余阶段,我们选择他们的9个最近邻居。一个根本问题是计算效率。假设我们有 n n n d d d维点和 c c c个聚类,计算特征相似性的时间复杂度将为 O ( n c d ) O(ncd) Oncd,当输入图像分辨率高时(例如,224×224),这是不可接受的。为了避免这个问题,我们通过将点划分为几个局部区域来引入区域划分,如Swin Transformer(Liu et al.,2021b),并局部计算相似性。因此,当局部区域的数量设置为r时,我们显著地将时间复杂度降低了r的因子,从O(ncd)降低到 O ( r × n / r × c / r × d ) O(r×n/r×c/r×d) Or×n/r×c/r×d。详细配置见附录 § A §A §A。请注意,如果我们将点集划分为几个局部区域,则会限制上下文聚类的接受域,并且局部区域之间没有可用的通信。

3.4 讨论

聚类的固定中心还是动态中心?传统的聚类算法和SuperPixel技术都会迭代更新中心,直到收敛。然而,当聚类被用作每个构建块中的关键组件时,这将导致高昂的计算成本。推理时间将呈指数级增长。在上下文聚类中,我们将固定中心视为推理效率的替代方案,这可以被认为是准确性和速度之间的折衷。
重叠聚类还是非重叠聚类?我们只将点分配给一个特定的中心,这与以前的点云分析设计理念不同。我们有意坚持传统的聚类方法(非重叠聚类),因为我们想证明简单和传统的算法可以作为通用的主干。尽管重叠聚类可能会产生更高的性能,但它对我们的方法来说并不是必不可少的,并且可能会导致额外的计算负担。

Image as Set of Points_第4张图片

4.实验

我们在ImageNet-1K(Deng et al.,2009)、ScanObjectNN(Uy et al.,2019)、MS COCO(Lin et al.,2014)和ADE2K(Zhou et al.,2017)数据集上验证了上下文聚类,用于图像分类、点云分类、对象检测、实例分割和语义分割任务。即使我们没有像ConvNeXt(Liu et al.,2022)和DaViT(Ding et al.,2022a)那样追求最先进的性能,上下文聚类在所有任务上仍然呈现出有希望的结果。详细的研究证明了我们的上下文聚类的可解释性和泛化能力。

4.1 ImageNet-1K上的图像分类

我们在ImageNet-1K训练集(约130万张图像)上训练上下文聚类,并在验证集时进行评估。在这项工作中,我们遵守(Dai等,2021; Wightman,2019; Touvron等,2021; Yu等,2022cc)的常规训练配方。对于数据增强,我们主要采用随机的水平翻转,随机像素擦除,混合,cutmix和标签平滑。Adamw(Loshchilov&Hutter,2019年)用于在310个epoch内训练我们的所有模型,动量为0.9,重量衰减为0.05。默认情况下,学习率设置为0.001,并使用余弦计划(Loshchilov&Hutter,2017)进行调整。默认情况下,对8个A100 GPU进行了培训,其小批量大小为128(总计1024)。我们使用指数移动平均值(EMA)来增强训练,类似于较早的研究(Guo等,2022b; Touvron等,2021)。表1报告了使用的参数,FLOPs,分类精度和吞吐量。•表示我们用来将点分为[49,49,1,1]的不同区域分区方法。从经验上讲,表1中的结果表明我们提出的上下文聚类的有效性。我们的上下文聚类能够使用类似数量的参数和FLOPs获得比广泛使用的基线的可比性甚至更好的性能。我们的上下文聚类约有2500万参数,超过了增强的Resnet50(Wightman等,2021),而Pvt-Small则超过1.1%,并达到80.9%的TOP-1准确性。此外,我们的上下文聚类显然优于基于MLP的方法。这种现象表明,我们方法的性能不记入MLP块,并且上下文聚类块基本上有助于视觉表示。上下文聚类-TI和上下文聚类-TI之间的性能差异可以忽略不计,这证明了我们上下文聚类对局部区域分配策略的稳健性。我们认识到我们的结果无法与SOTA性能相匹配(例如,CoatNet-0到达81.6%的精度,具有可比数量的参数(与COC-Tiny)相当),但我们强调,我们正在追求并证明新功能提取范式的可行性。我们通过将图像概念化为一组点并自然应用聚类算法以进行特征提取来成功放弃网络中的卷积和关注。与卷积和关注相反,我们的上下文聚类对其他领域数据具有极好的普遍性,并具有有希望的解释性。

组件消融表2报告了在ImageNet-1K上消除Context Cluster Small变体中的每个单独成分的结果。为了去除多头设计,我们为每个块使用一个头部,并在四个阶段中将头部尺寸编号分别设置为[16,32,96,128]。当位置信息被去除时,由于点是无序的,模型变得不可访问。从cifar(Krizhevsky et al.,2009)数据集中也可以看到类似的现象。在没有控制聚类操作的情况下,性能下降了3.3%。此外,多头设计能够将结果提高0.9%。结合所有组件,我们达到了77.5%的top-1精度。
Image as Set of Points_第5张图片

4.2 可视化聚类

为了更好地理解上下文聚类,我们在图4中绘制了聚类图,我们还展示了ViTs的注意力图和ConvNets的类激活图(即CAM)(Zhou et al.,2016)。请注意,这三种Map在概念上是不同的,不能直接进行比较。我们列出了另外两个(注意力和类激活)映射供参考,并演示了ViTs、ConvNets和我们的上下文聚类中的内部操作。详细设置可以在图4的标题中找到。随着点数的减少,细节被合并以形成上下文聚类。三个观察结果证明了我们的上下文聚类的正确性和有效性。首先,我们的方法在最后阶段将单个鹅作为一个对象上下文进行了明确的聚类,并将背景草分组在一起。从之前的阶段也可以观察到类似的现象,但在更详细的局部区域。其次,我们的上下文聚类甚至可以在非常早期的阶段(例如,第一和第二阶段)对类似的上下文进行聚类。放大红框中的细节,我们可以看到属于鹅颈的点清楚地聚集在一起,这表明我们的方法具有强大的聚类能力。最后,我们注意到,大多数聚类强调局部性,而一些聚类(颜色为亮绿色)非常显示全局性,如最后阶段的聚类图所示。这进一步证明了设计理念;我们鼓励将相似的点分组,但对感受野没有限制。可视化聚类图和详细分析表明,我们的上下文聚类是有效的,并表现出很好的可解释性。值得注意的是,当删除区域划分操作时,我们的方法以SuperPixel风格展示了有希望的聚类结果。更多示例请参见附录。

4.3 三维点云分类ScanObjectNN

Image as Set of Points_第6张图片
上下文聚类是点云的自然拟合Qi等人(2017b);Lu等人(2022)。因此,我们还研究了我们的点云分类方法。我们选择PointMLP(Ma et al.,2022)作为我们模型的基础,因为它的性能和易用性。详细地说,我们只考虑一个头部,并将头部尺寸数设置为 m i n ( C / 4 , 32 ) min(C/4,32) minC/432,其中$c¥表示每层中的通道数。我们将上下文线索块放在PointMLP中的每个残差点块之前。由此产生的模型被称为PointMLP-CoC。请注意,更好的设置会提高性能,但这不是我们研究的重点。我们在表3中报告了所有类别的平均准确度(mAcc)和所有实例的总体准确度(OA)。在表3中,我们给出了所有类别的平均准确度(mAcc)和所有样本的总体准确度(OA)。实验结果表明,我们的方法可以显著提高PointMLP的性能,平均精度提高了0.5%(84.4%对83.9%),总体精度提高了0.8%(86.2%对85.4%)。请注意,只有在上下文聚类中引入一个头部才能获得有希望的增益;有了更多的头和精心的设置,性能就会得到提高。最重要的是,结果表明,我们的方法可以高度推广到不同的领域,例如点云。我们预计,当应用于更多的域时,我们的上下文聚类将令人满意地运行,几乎没有修改。

4.4 MS-COCO上的对象检测和实例分割

接下来,我们研究了上下文聚类对下游任务的泛化能力,包括对象检测和实例分割。我们在MS COCO 2017基准(Lin et al.,2014)上进行了实验,该基准有118k张图像用于训练,5k张图像用于验证。在之前的工作之后,我们将我们的模型与Mask RCNN(He et al.,2017)集成,用于对象检测和实例分割任务。所有模型都使用1×scheduler (12个时期)进行训练,并使用ImageNet预训练的权重进行初始化。为了进行比较,我们认为ResNet是ConvNets的代表,PVT是ViTs的代表。我们在表4中报告了评估指标平均精度(mAP)。我们注意到,由于图像分辨率的差异,直接采用ImageNet的上下文聚类配置可能不适合下游任务。对于分类任务,我们将在一个局部区域中有49个点和4个中心。检测和分割任务对于图像大小(1280,800)具有相同配置的1000个点。很明显,将1000个点分组为4个聚类会产生较差的结果。为此,我们研究了局部区域的4个、25个和49个中心,并将得到的模型分别称为Small/4、Small/25和Small/49。表4中的结果表明,我们的上下文聚类对下游任务表现出了很好的泛化能力。如果配置得当(局部区域有25个中心),我们的CoC Small/25在检测和实例分割任务上都优于ConvNet和ViT基线。与我们的预期一致,只有4个中心无法准确建模大型局部区域,不必要的中心也无法进一步提高性能。更多结果见附录 § C §C §C

Image as Set of Points_第7张图片

4.5 ADE20K上的语义分割

我们在ADE20K(Zhou et al.,2017)数据集上检查了配备语义FPN(Kirillov et al.,2019)的上下文聚类,用于语义分割任务。对于训练、验证和测试,ADE20K包括20k、2k和3k个图像,每个图像对应于150个语义类别中的一个。为了进行公平的比较,我们在四个V100 GPU上对批量大小为16的所有模型进行80k次迭代的训练,并采用PVT中使用的标准数据增强方法(Wang等人,2021)。AdamW优化器的初始学习率为 2 × 1 0 − 4 2×10^{-4} 2×104,用于训练我们所有的模型。我们使用0.9次方的多项式衰减时间表来降低学习率。
Image as Set of Points_第8张图片

表5中报告了ADE20K的实验结果。我们展示了我们的上下文聚类使用相似数量的参数明显优于PVT和ResNet。这些有希望的改进可以归功于我们新颖的上下文聚类操作。我们的上下文聚类类似于SuperPixel,它是一种过度分割技术。当应用于特征提取时,我们期望上下文聚类可以过度分割中间特征中的上下文,并显示语义分割任务的改进。与对象检测和语义分割任务不同,中心数对结果的影响很小。更多结果见附录 § C §C §C.

5.结论

我们介绍了上下文聚类,这是一种新的用于视觉表示的特征提取范式。受点云分析和SuperPixel算法的启发,我们将图像视为一组无组织的点,并使用简化的聚类方法来提取特征。在图像解释和特征提取操作方面,上下文聚类从根本上不同于ConvNets和ViTs,并且在我们的架构中不涉及卷积或注意力。我们没有追求SOTA性能,而是表明我们的上下文聚类可以在多个任务和域上实现与ConvNet和ViT基线相当甚至更好的结果。最值得注意的是,我们的方法显示出良好的解释性和泛化性。我们希望我们的上下文聚类除了卷积和注意力之外,还可以被认为是一种新颖的视觉表示方法。正如 § 3 §3 §3末尾所讨论的,我们新的视觉表现视角和设计也带来了新的挑战,主要是在准确性和速度之间的折衷。更好的策略值得探索。脱离当前的检测和分割框架,将我们的上下文聚类哲学应用于其他任务也是一个值得追求的方向。

References

Image as Set of Points

你可能感兴趣的:(深度学习,机器学习,计算机视觉)