Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey

系列文章目录

弱监督目标检测:(0)Deep Learning for Weakly-Supervised Object Detection and Localization:
A Surve)


前言

弱监督对象检测( WSOD)和局部化(WSOL)是目标检测中长期存在且具有挑战性的任务,本文对SWOD近年来得一些方法进行了总结。


提示:以下是本篇文章正文内容,下面案例可供参考

一、WSOD的定义?

**定义:**在训练阶段仅使用图像级标签对对象实例进行分类和定位。WSOD与全监督的区别如下图所示。

Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第1张图片

二、主要的挑战

2.1判断区域问题

探测器倾向于聚焦于物体最具鉴别性的部分。对于一个目标匹配多个提案时,如果只用分数去选择Positive proposal,会出现选择辨识度最高的区域而不是整个对象范围

Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第2张图片

具体技术:

1.上下文建模:这个区域的外部信息,可以通过特殊数字掩盖特征图的区域来获得。 A:它选择那些分数与上下文区域的分数有较大差距的区域作为积极的提议。WSPAD将提案中的像素值替换为零,然后对比两个分数之间的差距。 B:利用上下文区域的损失来选择prositive proposal。选择上下类别概率较低的最高得分区域作为正面提案

2.Self-training算法:早期的预测实例然后被用于检测器的后期训练,作为伪ground truth实例 流间self-training:期望B、C和D能够继承A的类分,如 OICR。 跨epoch的self-training:使用两个相邻epoch的每个提议的分数的相对改进(RI)作为选择积极样本的标准

3.层叠式网络:级联网络包括几个阶段,当前阶段的监督是前一个阶段的输出

4.bounding box:在训练阶段使用实例级标注来提高目标定位性能,但WSOD任务只访问图像级标签

5.判别性区域去除:掩盖最具有判别力的区域来检测下一个判别力的区域

6.纳入低级别的特征:低层特征通常保留了更丰富的目标细节,如边缘、角落、颜色、像素等等。利用这些细节特征获得准确的定位

7.分割和检测协作:分类覆盖整个目标,MIL只能区分这个目标。两者作为监督。

8.WSOD转化为FSOD:选取伪box的方法1,最高分,2。相对改善,在ST-WSL中选取相邻两个epoch相对评分改善最大的盒作为伪GT.3W 2 F将几个小盒子合并成一个大的候选盒子,并将这些合并的盒子作为伪ground-truth盒子用于后续的训练。SLV首先将几个盒子的分数合并到像素上,然后通过阈值分割每个类的地图,生成每个类的边界框。

Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第3张图片

2.2多实例的问题

当一副图像出现多个相同的类别目标时,检测器倾向选择每个类别中得分最高得建议作为positive proposal,而忽略其他可能得实例建议。当两个类别相同得实例距离很近时,也可能出现对两个或者多个实例作为一个实例来学习。

具体方法
PCL将相同的标签和空间上相邻的提案分配给同一个提案群。如果提案没有相互重叠,它们将被分配到不同的提案群中。然后,PCL从每个提议集群中选择得分最高的提议作为正面提议
Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第4张图片

2.3速度问题

进行WSOD之间需要生成proposal,目前主要的方法是SS、边缘盒(EB)和滑动窗口(SW),主要的缺点比较耗时

具体方法
1)基于转换的方法这些方法使用它们的预测盒作为伪地真值盒来训练更快和完全监督的模型(例如faster R-CNN[29]和SSD[30]),然后在推理阶段使用更快的模型来推断图像。
2)基于热图的这些方法用使用阈值分割热图来取代SS和EB,以生成更少的提案,从而提高提案生成的速度。
优缺点
1)基于转换的解决方案依赖于训练另一种更快的模型,这增加了训练的复杂性和时间。
2)基于热图的解决方案可以通过分割图像的热图来检测任何形状的物体,但不容易准确检测出具有相同类别的多个物体。

3.基本的框架

目前的框架可分为基于MIL的网络和基于CAM的网络。
Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第5张图片

3.1MI-base

组成:提案生成器、主干和检测头

提案器:
	选择性搜索
	边缘框:使用目标边缘来生成proprsal
	滑动窗口(SW):它表示特征图的每个点都对应于原始图像相对位置的一个或多个提议。但是如果滑动窗口的尺度过大,会产生大量的无效建议。
探测头:
	它包括一个分类流和一个定位流。分类流预测每个提案的类别分数,而定位流预测每个提案在每个类别中的现有概率分数,然后将这两个分数进行聚合,以预测整个图像的置信度分数,用于在学习中注入图像级监督。

方法:
WSDDN利用双流网络分别进行分类和定位,预测分数是由每个区域的类别分数和每个类别的现有概率的矩阵乘积。面临的问题是具有辨别力的部分更受关注,即判别区域的问题
OICR:为了缓解判别区域问题,在WSDDN之后增加三个实例分类器细化程序,因为每个实例分类器细化程序的输出是对其后一个细化程序的监督。对关注对象进行更进一步的细分
SDCN引入了一个分割检测的协作机制,由检测分支和分割分支组成,分别负责检测bounding boxes和生成分割mask。在SDCN中,检测结果将被转换为热图,**方法是对每个提议中的所有像素设置一个分类分数作为分割
ICMWSD:利用上下文信息来解决关注目标中最具辨别力的部分的问题。首先,ICMWSD通过丢弃最具判别力的部分获得丢弃特征。然后,最大化被丢弃特征的损失,迫使ICMWSD查看周围的环境区域

3.2CAM

3.2.1组成:主干、分类器和类激活图

分类器:结构包含一个全局平均池(GAP)层和一个全连接层
类激活图:通过使用简单的分割技术来定位对象实例

3.2.2过程
给定一个图像,我们首先将其送入主干网,生成该图像的特征图。然后,这些特征图被送入分类器,对图像进行分类。同时,我们将全连接层的权重矩阵乘以最后一个卷积层的特征图,以产生类别激活图。最后,我们对概率最高的类别的激活图进行分割,产生用于目标定位的bounding boxes。
3.2.3方法
CAM:最大的贡献是使用类激活图来预测实例,通过分割每个类别的激活图,生成每个类别的bounding box。面临与WSDDN一样的问题
WCCN:为了缓解判别区域问题,提出了一个联级网络。第一阶段是CAM[26]网络,旨在生成类激活图和初始建议。第二阶段是一个分割网络,使用类激活图来训练目标分割,以完善目标定位。最后阶段是一个MIL网络,对第二阶段提取的建议进行多实例学习。由于第二和第三阶段完善了目标的定位,WCCN缓解了倾向于关注目标中最有辨识度的部分的问题。
ACoL:为了缓解判别性区域问题,引入了两个并行分类器,利用对抗性互补学习进行目标定位。具体来说,它首先利用第一个分类器来定位最具判别力的区域。然后,ACoL将第一个分类器中发现的最具判别力的区域masked起来,作为第二个分类器的输入特征图,使用masked的特征图。这迫使第二个分类器选择下一个判别性区域。最后,ACoL融合了两个分类器的类别激活图,通过分割最高概率类别的激活图来生成每个类别的bounding boxes。
I2C:与上述方法不同,I2C**利用同一类别内物体特征的一致性,在定位图中突出所有物体区域,并压制背景.**具体来说,I2C提出了随机一致性和全局一致性来学习更健壮可靠的定位图.一方面,随机一致性设计是为了保证一批图像中同一类别物体的像素具有相同的语义特征。另一方面,全局一致性负责保证训练集中同一类别的目标像素的特征一致性
**SPOL:**SPOL认为前人的研究没有充分利用浅层特征,设计了乘法特征融合网络(MFF-Net)和高斯先验伪标签(GPPL)模块,以产生更精确的目标定位。MFF-Net聚合了浅层和深层的特征,以抑制噪声,同时使物体边界更清晰。GPPL通过使用所有坐标的均值和方差来增强物体重力内部区域的响应

4.MIL与CAM的差异

proposal的生成方式:MI-basedL的网络利用SS、EB或SW来生成成千上万的初始建议,但基于CAM的网络将激活图细分为每个类别的一个建议。当出现多个实例类别相同时,MI-basedL的网络比基于CAM的网络更好,但是训练和推理速度慢
proposal的大小:Ml-based利用SPP层来产生固定大小的向量,CAM利用GAP层在特征图上生成一个固定大小的向量
MI-basedL的网络和基于CAM的网络都将面临判别区域问题和多实例问题

5.数据集和性能评估

5.1数据集

PASCAL VOC. 
MS COCO
ILSVRC.
CUB-200:包含200种鸟类

5.2 评价指标

1.mAP(平均平均精度)。平均精度(AP)通常用于图像分类和目标检测。它包括精度和召回率。tp表示所有正样本中正确预测样本的个数,fp表示所有正样本中错误预测样本的个数,fn表示所有负样本中错误预测样本的个数,则精度和召回率可计算为
在这里插入图片描述
正样本表示 positive proposal与GT的iou大于阈值
在这里插入图片描述
2.CorLoc(正确定位):CorLoc表示至少存在一个预测框实例的图像的百分比,其IoU P50%与这些图像中的每个类的ground-truth box。CorLoc是训练数据集定位精度的最终评价指标。

3 Top Error:Top错误包括Top-1分类错误(1-err cls)、Top-5分类错误(5-err cls)、Top-1定位错误(1-err loc)和Top-5定位错误(5-err loc)

5.3 结果

Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第6张图片Deep Learning for Weakly-Supervised Object Detection and Localization: A Survey_第7张图片

你可能感兴趣的:(弱监督目标检测,目标检测,深度学习,计算机视觉)