论文:Better to follow, follow to be better:towards precise supervision of feature super-resolution for small object detection
目录
1.引言
2.1相对感受野匹配
2.2本文方法
SR target extractor
SR feature generator
SR feature discriminator
Small predictor
2.3训练
2.4推理
3.实验
缺点(个人观点):
启发
本篇文章聚焦在基于建议框(proposal-based)的检测架构在小目标检测上的改进。
现有的基于建议框的检测架构存在的问题是:小目标的RoI太小,难以辨别。自然会想到丰富小目标建议框的信息,合适的做法是在特征层级上运用超分辨率技术来增强建议框的特征,比较经典的工作是Perceptual GAN,它基于GAN生成小目标的超分辨率表征,使其和大目标特征相似。但是存在的问题是缺乏直接的监督,这会导致训练的不稳定和生成的超分辨率特征的质量不高。
针对这个问题,本文引入合适的高分辨率的目标特征作为训练超分网络的监督信号。同时,本文通过分析发现输入低分辨率特征和高分辨率目标特征是一个训练对,这个训练对的相对感受野匹配对于小目标来说至关重要,会影响到生成的超分建议框的质量。
总结来说,本文主要贡献:
RoI的绝对感受野:
RoI的相对感受野:
下面讨论当输入图像尺寸改变时,RoI相对感受野的不同。
当0.5倍下采样图片作为输入时,,
,不同输入图片下RoI相对感受野的区别用DRRF表示:
其中:,是一个常数。
当w趋近于0时,DRRF收敛于2,当w趋近于时,DRRF收敛于1,所以,当RoI越小时,RRF的差别会越大,当RoI越大时,RRF的差别越小。这就解释了当检测小目标时,不同分辨率的输入图片所得到的小目标的RoI的感受野是差别很大的,会严重误导超分网络的训练。
在基模型的基础上,引入了四个部件:SR 特征生成器、SR特征判别器、SR目标提取器和小目标预测器。SR 特征生成器用来生成高分辨率特征,SR特征判别器用来指导SR 特征生成器,SR目标提取器生成特征目标,小目标预测器用来预测小目标。
:原始输入图像,
:0.5倍下采样的图像
:原始图像上第i个RoI特征,
:0.5倍下采样的图像上第i个RoI特征
:
的高分目标特征
①共享参数
SR target extractor和CNN backbone共享参数,以降低计算量。
②相对感受野匹配
通过提高网络的绝对感受野,来提高相对感受野。
1.对池化层,因为它是无参数的,增加核的大小就可以扩大感受野。
2.对卷积层,增加卷积核大小会增加参数,就没办法参数共享了,因此使用空洞卷积。本文使用的是空洞率为2的卷积,并且对于stride>1的卷积,比如stride=2,如果改成stride=2的、空洞率为2的空洞卷积,会对部分像素失去采样,因此使用stride=1的空洞卷积+max_pool size 2。
总结来说,SR target extractor 由一系列空洞卷积层和最大池化层构成,保证它与CNN backbone有相同的相对感受野(没有严格的计算让RRF严格一致)。另外,SR target extractor 和CNN backbone是共享参数的。所以,SR target extractor 生成的特征相比于用CNN backbone生成的特征含有更多的上下文信息,并且RoI相对感受野保持一致,更适合作为目标,直接监督超分网络训练。
增强小目标建议框的特征
①网络结构
残差结构,输入输出的特征图的shape没有变化。
②损失函数
1)SR target extractor生成的作为直接监督信号,用l2损失
2)对抗损失
3)分类回归损失
判别器由三层的mlp构成,训练判别器使得它能够区分和
,而生成器是被训练生成逼真的骗过判别器,损失函数为对抗损失:
网络结构和base detector的large predictor的一样,但是只用来检测SR生成器的小proposals的超分特征。训练用分类回归损失。
在基模型上增加了SR feature generator和small predictor.输入图片,通过CNN backbone得到
,如果建议框是大的,就送入large predictor进行分类回归,如果建议框是小的,就用SR feature generator得到超分辨率特征,再送入small predictor。
以faster rcnn为基模型,数据集Tsinghua-Tencent 100K(交通标志牌检测)、PASCAL VOC 和 MS COCO,在Tsinghua-Tencent 100K中定义小目标(小于32×32),PASCAL VOC 和 MS COCO中定义小目标(小于96×96)
(1)Tsinghua-Tencent 100K数据集
(2)PASCAL VOC 和 MS COCO
(3)可视化
(4)RRF
参考:基于GAN的小目标检测算法总结(3)——《Better to Follow, Follow to Be Better: Towards Precise Supervision ......》_ckq3的博客-CSDN博客