来源:投稿 作者:xin
编辑:学姐
目前虽然已经有很多工作去改进CLIP,但是这些改进都是集中在image-text match级别的分类问题上,很少有人涉足稠密预测领域。故本文在这方面进行了探索,即如何把CLIP训练好的image-text匹配的知识,迁移到下游pixel-text匹配的任务上。
相比于传统的Pre-training + Fine-tuning的范式CLIP类的模型融入了文本信息。将CLIP的知识迁移到稠密预测任务上有两个难点:
1、如何将V-L pretrained利用在稠密预测任务上很少有人涉足,且像之前pretrained backbone一样会忽略语言先验。
2、由于上游对比学习学的是image-text的配对,而稠密预测任务是pixel-text的配对。
为了解决上述问题,本文提出了DenseCLIP模型。模型具体框架如下:
针对将image-text match到pixel-text match的问题,论文提出了语言指导的稠密预测,具体过程为:
其中为视觉上下文。然后将基线模板中的p替换为,以此达到上下文视觉感知的目的。
作者也进行了两种方式的比较,最终选择了post的方法。因为pre的方法在推理过程中需要text encoder额外的前传(因为其依赖于视觉特征),而post的方法可以预先存储提取出来的文本特征,减少text encoder在推理过程中带来的开销。此外post的结果比pre的好。故选择post方法。
为了将DenseCLIP模型更好的应用于不同的稠密预测任务,作者针对不同任务提出了不同的额外损失函数。由于score map可以看作低分辨率的分割结果,作者使用如下公式计算额外损失:
在ADE20K的分割结果
ADE20K可视化结果
关注下方《学姐带你玩AI》
回复“500”获取AI必读高分论文合集
(包含语义分割等多个细分方向)
码字不易,欢迎大家点赞评论收藏!