High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

Wei Liu · Shengcai Liao · Irtiza Hasan

paper: http://arxiv.org/abs/1904.02948

code: https://github.com/liuwei16/CSP

非官方pytorch实现: https://github.com/lw396285v/CSP-pedestrian-detection-in-pytorch

问题背景:

目标检测需要乏味的配置anchor boxes,本文提出了一种新的思路:目标检测被视为高级语义特征检测任务。

目标检测被简化为一个通过卷积直接预测物体中心和尺度的任务。

将提出的方法称为:Center and Scale Prediction(CSP) based detector

网络结构:

High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection_第1张图片

最近涌现了很多Anchor free的目标检测方法,这篇论文实际上应该属于Box free,类似与CornerNet,不再预测边界框的四个参数x,y,w,h.

High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection_第2张图片

CSP整个网络结构如上图所示,基于Resnet或者MobileNet,通过Concatenate融合不同的stage上特征,类似与目标分割FCN一类的方式(上采样或者反卷积特征图到同一大小);得到融合的特征图H/r x W/r之后,在Detection Head部分通过3x3卷积将通道数减少到256,然后通过两个分支分别预测目标中心点和目标尺度,这里类似于关键点检测方法,输出为heatmap图,通过解析位置和尺度(可以选择Height或者width),得到目标框。

需要注意的是,作者提出的方法在行人检测数据集上,Caltech行人检测数据集GroundTrue中行人的宽高比是固定的,所以只需要预测一个高度或者宽度就可以了。

如果仅仅输出中心点位置和尺度,将导致解析出来的边界框位置不精确,所以作者论文里介绍了增加offset预测分支,来进一步修正边界框。

损失函数:

和关键点检测中的高斯heatmap监督类似,作者也使用了gaussion mask来设置监督标签。

High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection_第3张图片

为了平衡正负样本,作者使用了Focal loss损失,其中M_ij表示位置(i,j)的gaussion mask的值。

实验数据集:

作者在行人数据集Caltech, Cityperson数据集上做了实验,使用False Positive Per Image(FPPI)作为评估指标。同时在WiderFace人脸检测数据集上做了实验,WiderFace中人脸存在姿态、尺度、宽高比、遮挡和光照等变化。使用AP来评估。

代码测试:

# 作者给的训练好的模型 (四个GPU,batchsize=2,训练了121epochs)
# nms0.5
Average Miss Rate  (MR) @ Reasonable         [ IoU=0.50      | height=[50:10000000000] | visibility=[0.65:10000000000.00] ] = 11.02%

实际上,如果我们修改NMS阈值为0.6,还可以继续提高性能,MR降到10.53%

# 作者给的训练好的模型 (四个GPU,batchsize=2,训练了121epochs)
# nms0.6
 Average Miss Rate  (MR) @ Reasonable         [ IoU=0.50      | height=[50:10000000000] | visibility=[0.65:10000000000.00] ] = 10.53%

你可能感兴趣的:(computer,version,deep-learning)