Anchor-free目标检测算法系列11: DenseBox中心点处dense:Unifying Landmark Localization with End to End Object Detec

            DenseBox: Unifying Landmark Localization with End to End Object Detection

                                               (CVPR2015

    论文是2015年提出的一种端到端的算法,同时对目标进行分类和框回归,算法很有前瞻性。DenseBox不需要产生proposal、引入图像金字塔(这个思想后来演变成特征金字塔FPN),网络更加关注小尺寸和严重遮挡的目标。网络经过一列卷积核池化,进行上采样是特征图变大,用于检测更多的目标,再经过一些卷积得到最终的预测输出。这样看来,DenseBox的思想也影响这最近一年中提出来的anchor-free的算法,均是在下采样后又进行上采样,最后再接一些卷积模块预测。DenseBox将输出的特征图转换为目标框,通过NMS和阈值进行输出。

       DenseBox设计的初衷是用在人脸检测上。作者为了节约训练时间,没有将一整张图片全部输入网络,而是对输入图片进行了裁剪,裁剪的区域应包括人脸和背景丰富的patches,训练时patches缩放至240*240。在GT生成时,构建的是60*60*5维的张量,人脸区域由以人脸bbox的中心点为圆心、半径为0.3倍于bbox size(人脸的标注框为方形)的圆形区域确定,这也是DenseBox的由来,增加了正样本的比例,而现在较多的anchor-free的方法是采高斯分布+带惩罚的Focal loss予以改进。现在的基于关键点检测的中心点确定一般采用高斯分布处理,而不是像DenseBox这样设置。示意图如图33所示。GT设置为5通道,其中第一个通道为置信度,正样本处设置为1,负样本处设置为0;后面四个通道为某像素点与bbox左上角和右下角的距离。输入一张m*n的图片,其输出为(m/4, n/4)的feature map。经上采样的输出特征图分辨率很高,CenterNet沿用了此设置。输出特征图维度为5维,即

t与b分别代表边框左上角和右下角,s为输出feature map每个像素产生的的框对应的置信度。

Anchor-free目标检测算法系列11: DenseBox中心点处dense:Unifying Landmark Localization with End to End Object Detec_第1张图片

                                       图38 DenseBox GT处理

       DenseBox的主干网络采用的VGG19,后面接上采样层,总体图像尺寸仅仅下降了4倍。和fast RCNN相同,DenseBox由两个输出分支。在目标函数设置时,主要包括两部分,置信度损失(是否为目标,不分类别,因为DenseBox训练集用到的是1类人脸检测)和框回归损失,二者均采用L2 loss。

你可能感兴趣的:(学习笔记,目标检测)