【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation

这篇论文是CLIP模型较早的在弱监督分割上应用的论文。

论文标题:

Cross Language Image Matching for Weakly Supervised Semantic Segmentation

作者信息:

【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第1张图片

代码地址:

https://github.com/CVI-SZU/CLIMS

Abstract

(CAM的缺点)CAM只激活个别类别的对象区域,并且经常错误的把很多相似的区域也包含进来。
(WSSS的缺点)传统的WSSS只給一个标签,无法抑制其他物体的边界。
作者提出了 Cross Language Image Matching (CLIMS),核心想法就是通过NLP的监督(和CLIP相同)获得更完整的CAM的物体图像,并且抑制近似类别但属于背景的区域。
作者设计了三个损失函数,分别是 1.object region loss 2.background region loss 3. label matching loss

Introduction

【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第2张图片
(现存框架的问题)常规WSSS任务三段:1.生成CAM.2细化CAM.3训练完整的分割模型。
仅有固定的物体类别能进行训练,在产生CAM的过程中出现了不必要的背景信息的激活。

(作者方法的优势)CLIMS是基于CLIP的,CLIP可以从NLP中学习更广阔的语义的概念,而不仅仅只是预先确定好的类别,那么CLIMS就有潜力学习到多个类别的高质量的CAM,剔除一些无关的背景。

(关键做法)作者使用卷积层替换掉了GAP和全连接,让后面的CLIP层直接引导CAM的生成。又提出三个损失函数:
L O T M L_{OTM} LOTM:Object region and Text label Matching Loss (目标区域和text label的匹配损失)
L B T M L_{BTM} LBTM:Back ground region and Text label Matching Loss(背景区域和text label的匹配损失)
L C B S L_{CBS} LCBS:Co-occurring Background Suppression loss(目标相似类别区域和text label的匹配损失)

Methodology

【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第3张图片

3.1. Revisiting the Conventional CAM

常规的CAM的生成:图像卷积后输入GAP,FCN训练分类模型。然后对特征层应用1×1的卷积,生成CAM。
交叉熵训练分类模型:
在这里插入图片描述
应用卷积:
在这里插入图片描述
传统CAM无法很难区分需要激活和不必要激活的对象背景部分。

3.2. Cross Language Image Matching Framework

作者去除了GAP,直接从卷积+sigmoid生成一个初始的一个包含前景信息的特征 P k P_k Pk
在这里插入图片描述
根据 P k P_k Pk进行在图像上选取前景 P k P_k Pk和背景区域 1 − P k 1-P_k 1Pk,输入的CLIP的图像编码中获得representation
vectors:
在这里插入图片描述
同时应用CLIP中对标签的处理方法,生成text prompts,输入到CLIP中的文本编码中:
在这里插入图片描述

3.3 Object region and Text label Matching

设计损失函数学习前景区域 V k i o V_k^{io} Vkio和前景的文本 V k t o V_k^{to} Vkto(正样本学习):
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第4张图片

3.4 Background region and Text label Matching

设计损失函数学习背景区域 V k b o V_k^{bo} Vkbo和前景的文本 V k t o V_k^{to} Vkto(负样本学习):
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第5张图片

3.5. Co-occurring Background Suppression

作者找了一些和目标相似的类别,作为反例进行学习,以减小进行CAM的错误:
v k , l t b v_{k,l}^{tb} vk,ltb表示k个目标的l个相关联的近似的类别:
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第6张图片

3.6. Area Regularization

作者认为仅有上三个损失函数,如果在激活图中同时包含了不相关的背景和目标对象,那么CLIP模型仍然可以正确地预测目标对象。故作者设计了一个像素级的区域正则化项来约束激活映射的大小,以确保不相关的背景被排除在激活映射 P k P_k Pk中:
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第7张图片
(按照类别数量与像素数量求均值,我没看懂到底为啥这样?有大神能解释下嘛)

3.7. Overall Training Objective

总的损失函数就是对上述四个按照比例求和:
在这里插入图片描述
这几个系数为超参数,在模型调整。

Experiments

(这篇论文只讲了生成CAM的方法,作者和上下游的工作相结合,进行很多实验,如下表)
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第8张图片
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation_第9张图片

你可能感兴趣的:(论文阅读,深度学习,人工智能)