Group ViT(Semantic Segmentation Emerges from Text Supervision)

Group ViT(Semantic Segmentation Emerges from Text Supervision)CVPR2022

来自文本的监督信号,并不依赖于Segmentation mask的手工标注。而是像CLIP一样利用图像文本对使用对比学习的方式进行无监督的训练。

视觉方面做分割,grouping是一种常用的方法。如果有一些聚类的中心点,从这些中心点开始发散,把周围相似的点逐渐扩散成一个group,那这个group即相当于一个Segmentation mask。

Group ViT(Semantic Segmentation Emerges from Text Supervision)_第1张图片

让模型在最初的时候能将周围相邻相似的像素点group起来,变成Segmentation mask。Group ViT的贡献就是在也有的ViT模型中加入Grouping Block,同时加入了可学习的Group Tokens

图像编码器就是一个ViT,12层Transformer Layers。输入有两个部分,一个是来自原始图像的Patch Embedding,另外一个是可学习的Group Tokens。假设输入图像为224*224@3,每个patch的大小为16×16,得到14×14个196个长为384(196×384)的序列。(384对应ViT-small,特征维度384)。另外一个输入Group Tokens初始设为64×38464可以理解为64个聚类中心,代表每张图片有64个类别。6层Transformer Layers交汇之后认为Group Tokens学的已经差不多了,聚类中心也学的不错了,加入一个Grouping Block聚类一下,合并称为更大的Group,学到一些更有语义的信息。利用Grouping Block将图像(Patch Embedding)上的直接assign到64个Group Tokens上。相当于做了一次聚类的分配。

Group ViT(Semantic Segmentation Emerges from Text Supervision)_第2张图片

Grouping Block先用类似自注意力的方式算了一下相似度矩阵,然后利用相似度矩阵帮助聚类中心的分配,并将196×684降维到64×384。聚类中心分配过程不可导,利用gumbel softmax将该过程变成可导的。第二阶段使用8个Group Tokens将相似的类别进一步合并,将64个Group合并为8个Group。目前图像被分成了8大块,每个块代表一个类别的特征。然后与CLIP一致,通过图像文本对算一个对比学习的loss,然后训练。CLIP中,一个文本对应一张图像的特征,很容易算一个对比学习的loss。但是现在文本端为一个特征,图像端则为8×384的8个特征,无法与文本特征匹配。作者使用了Avg Pooling的方式。得到一个1×384的特征,这样文本特征和图像特征就可以匹配起来了。

Group ViT(Semantic Segmentation Emerges from Text Supervision)_第3张图片

接下来看模型如果做zero-shot的推理过程。文本和图像分别经过各自的编码器得到文本特征和图像特征,然后计算相似度,得到最匹配的图像文本对。局限性在于最后的聚类中心(Group Tokens)只有8类,从一张图像中最多分割出八个目标。

Group ViT(Semantic Segmentation Emerges from Text Supervision)_第4张图片

作者也做了消融实验,发现64-8的组合效果最好。

Group ViT(Semantic Segmentation Emerges from Text Supervision)_第5张图片

每个阶段可视化如图所示,第一阶段中Group5的类别为眼睛,图中确实可以将不同生物眼睛很好的分割出来。第二阶段对应大的目标区域,第三行第二阶段Group6对应类别草地,草地也被较好的分割出来。Grouping Token起到了聚类中心的作用,用Grouping这种思想完成无监督的分割。

Group ViT(Semantic Segmentation Emerges from Text Supervision)_第6张图片

与baselin方法比起来确实有提升,第一个用文本做监督信号的工作。还可以做zero-shot 的推理。但是对于有监督的模型如DeepLabV3plus已经达到了87左右的mlou,高了30多个点。

未来工作,一是没有使用dense prediction的特性,如空洞卷积、金字塔池化以及U-Net的结构,从而获取更多的上下文信息和多尺度信息。另一方面是推理过程中,作者设定了相似度阈值0.9,对于相似度小于0.9的阈值,则认为是背景类。

论文链接:http://arxiv.org/abs/2202.11094

参考:CLIP 改进工作串讲(上)【论文精读】_哔哩哔哩_bilibili

你可能感兴趣的:(计算机视觉)