详解一篇CLIP应用在语义分割上的论文

来源:投稿 作者:xin
编辑:学姐 

详解一篇CLIP应用在语义分割上的论文_第1张图片

Motivation:

目前虽然已经有很多工作去改进CLIP,但是这些改进都是集中在image-text match级别的分类问题上,很少有人涉足稠密预测领域。故本文在这方面进行了探索,即如何把CLIP训练好的image-text匹配的知识,迁移到下游pixel-text匹配的任务上。

Method

相比于传统的Pre-training + Fine-tuning的范式CLIP类的模型融入了文本信息。将CLIP的知识迁移到稠密预测任务上有两个难点:
1、如何将V-L pretrained利用在稠密预测任务上很少有人涉足,且像之前pretrained backbone一样会忽略语言先验。
2、由于上游对比学习学的是image-text的配对,而稠密预测任务是pixel-text的配对。

详解一篇CLIP应用在语义分割上的论文_第2张图片

为了解决上述问题,本文提出了DenseCLIP模型。模型具体框架如下:

详解一篇CLIP应用在语义分割上的论文_第3张图片

针对将image-text match到pixel-text match的问题,论文提出了语言指导的稠密预测,具体过程为:

详解一篇CLIP应用在语义分割上的论文_第4张图片

详解一篇CLIP应用在语义分割上的论文_第5张图片

详解一篇CLIP应用在语义分割上的论文_第6张图片

详解一篇CLIP应用在语义分割上的论文_第7张图片

其中v_{pre}\in{R^{N\times{C}}}为视觉上下文。然后将基线模板中的p替换为v_{pre},以此达到上下文视觉感知的目的。

详解一篇CLIP应用在语义分割上的论文_第8张图片

作者也进行了两种方式的比较,最终选择了post的方法。因为pre的方法在推理过程中需要text encoder额外的前传(因为其依赖于视觉特征),而post的方法可以预先存储提取出来的文本特征,减少text encoder在推理过程中带来的开销。此外post的结果比pre的好。故选择post方法。

为了将DenseCLIP模型更好的应用于不同的稠密预测任务,作者针对不同任务提出了不同的额外损失函数。由于score map可以看作低分辨率的分割结果,作者使用如下公式计算额外损失:

详解一篇CLIP应用在语义分割上的论文_第9张图片

Result

在ADE20K的分割结果

ADE20K可视化结果

关注下方《学姐带你玩AI》

回复“500”获取AI必读高分论文合集

(包含语义分割等多个细分方向)

码字不易,欢迎大家点赞评论收藏!

你可能感兴趣的:(粉丝的投稿,深度学习干货,人工智能干货,深度学习,人工智能,计算机视觉,语义分割)