PyramidBox: A Context-assisted Single Shot Face Detector论文阅读

摘要


  1. 本文提出了一种基于anchor的语境辅助方法,即PyramidAnchors,从而引入有监督的信息来学习较小的、模糊的和部分遮挡的人脸的语境特征
  2. 设计了低层次特征金子塔来更好的融合语境特征和面部特征。同时该方法可以在单次拍摄中较好的处理不同尺度的人脸
  3. 提出了一种语境敏感的预测模型,该模型由混合网络结构和最大输入输出层组成,从融合特征中学习准确的定位和分类
  4. 提出了可以感知尺度的数据-anchor-抽样策略,改变训练样本的分布,重点关注较小的人脸
  5. 在通用人脸检测基准数据集上,达到了目前最佳水平

低层次特征金字塔层

PyramidBox是基于anchor的目标检测网络,主架构采用了与S3FD相同的extended VGG16。FPN中提出多尺度特征融合的方式强化特征重用,提高特征图的映射,PyramidBox借鉴了这种思想,提出了low-level的FPN。
PyramidBox: A Context-assisted Single Shot Face Detector论文阅读_第1张图片

注:FPN的特征融合是从最顶层开始的,PyramidBox的作者认为最顶层的特征图感受野太大了,对于检测小面孔没什么益处,反而可能会引入噪声。LFPN选择从中间层开始构建自顶向下的结构,其感受野差不多是输入图像尺寸的一半。

上下文敏感的预测模块

SSH是在三个不同深度的卷积层引入了不同的预测模块,从而检测不同大小的人脸。检测模块M1这一分枝将conv4-3 和conv5-3 的特征进行了融合,来检测最小尺寸人脸。M2则是是直接在conv5-3卷积层之后做检测,检测到稍大一些的人脸。M1与M2相比多了一个池化层,通过Max-pooling操作来增加感受野,使其能检测到比M2更大的人脸。

PyramidBox: A Context-assisted Single Shot Face Detector论文阅读_第2张图片

你可能感兴趣的:(#,CV论文阅读)