LFFD A Light and Fast Face Detector for Edge Devices论文阅读笔记

LFFD A Light and Fast Face Detector for Edge Devices论文阅读笔记_第1张图片

论文原文:https://arxiv.org/abs/1904.10633?context=cs.CV

中科院提出的新型单目标检测模型,适用于人脸、行人、车辆等单目标检测,速度快模型小效果好

总体思路

论文研究了感受野(RF)与有效感受野(ERF)的关联与重要性,使用感受野替代Anchors,即Anchor-free得方法,在一个基础模型结构上分别抽取8路特征图对从小到大的人脸进行检测,检测模块分为类别二分类与边界回归

基于Anchors的方法存在问题

  1. 锚框不能完全覆盖所有尺寸的人脸
  2. 锚框匹配使用IOU,其阈值设定靠经验很难进行研究
  3. 设定锚框数量与尺寸全靠经验,会导致样本不平衡和冗余计算

感受野与有效感受野

  1. 感受野(RF):是输入图像上的一块区域,目标如果在感受野内更容易被检测
  2. 有效感受野(ERF):处于感受野中心位置的像素对结构影响较大,越远越小
  3. 小的人脸往往难以确认外表,需要更多的上下文信息例如肩膀和脖子来辅助人脸识别

LFFD A Light and Fast Face Detector for Edge Devices论文阅读笔记_第2张图片

  1. 基于以上几点,作者认为不容大小人脸需要不同的感受野策略

    • 小人脸需要充足的上下文信息

    • 中人脸需要少量的上下文信息

    • 大人脸直接使用感受野

感受野是天然的Anchors

  1. 可以在一定感受野下预测不同尺寸的人脸

  2. 只有当人脸的真实中心位置在感受野内才进行匹配(与yolo1类似)

  3. 模型定义后,所有感受野就是均匀的固定的分布在输入图像上,无需手动设计

  4. 理论上感受野能覆盖所有尺寸的人脸

LFFD A Light and Fast Face Detector for Edge Devices论文阅读笔记_第3张图片

模型结构

  1. 基模型由四部分组成:tiny part、small part、medium part、large part
  2. 在四部分中分别取2、2、1、3路共8路进行检测不同尺寸的人脸并进行损失计算。
  3. 不采用BN层因为会减慢17%速度
  4. 原则:尽可能快的进行下采样而保持100%的人脸覆盖

训练细节

  1. 数据增强:颜色抖动随机水平翻转对各尺寸人脸随机采样(从而保证1. 各分支人脸数量相近、各人脸能被各分支平等概率的采样,具体做法为先随机选图片选人脸再选择一个尺寸区域使图片、其他人脸随着选中人脸放缩至该尺寸)

  2. 对于一个感受野多于两个人脸的区域被舍弃

  3. 损失函数:

    1. 分类损失:Gray Scale???

    2. 回归损失:回归真实值设定为
      R F x − b x t l R F s / 2 , R F y − b y t l R F s / 2 , R F x − b x b r R F s / 2 , R F y − b y b r R F s / 2 \frac{R F_{x}-b_{x}^{t l}}{R F_{s} / 2}, \frac{R F_{y}-b_{y}^{t l}}{R F_{s} / 2}, \frac{R F_{x}-b_{x}^{b r}}{R F_{s} / 2}, \frac{R F_{y}-b_{y}^{b r}}{R F_{s} / 2} RFs/2RFxbxtl,RFs/2RFybytl,RFs/2RFxbxbr,RFs/2RFybybr
      其中 R F x R F_{x} RFx R F y R F_{y} RFy为感受野的中心坐标, R F s R F_{s} RFs为感受野的边长,只对正样本进行L2 loss回归

  4. 难分类负样本挖掘:对负样本损失值排序后选择最高的几个,保证正负样本1:10

  5. 训练参数:Xavier初始化,输入图片img = (img-127.5)/127.5,decay为0(参数少),学习率0.1,之后以0.1倍数减小

你可能感兴趣的:(论文阅读)