[论文笔记] SCRFD 阅读笔记

SCRFD 阅读笔记

  • Sample and Computation Redistribution for Efficient Face Detection (Arxiv 2021)
    • 动机
    • 解决方案

Sample and Computation Redistribution for Efficient Face Detection (Arxiv 2021)

论文链接:论文链接
论文主页:论文主页
代码链接:代码链接
[论文笔记] SCRFD 阅读笔记_第1张图片

动机

  • 大部分的人脸检测算法都缺乏高效性,运行速度非常慢,或者准确率不够高

解决方案

  • 两个方法

    • 样本再分配(SR),它根据基准数据集的统计数据为最需要的阶段增加训练样本
    • 计算再分配 (CR),使用搜索方法在模型的backbone、neck和head之间重新分配计算资源
  • 样本再分配(SR)

    • WIDERFace 中的图片长边固定为 640p 时,大部分 easy 的人脸大于 32×32,大多数 medium 人脸大于 16×16,而在 hard 人脸中,78.93% 的人脸小于32×32,51.85% 的人脸小于16×16,13.36% 的人脸小于8×8;因此如果想要提升 hard 难度的人脸检测率,那么需要在小目标检测上下功夫
      [论文笔记] SCRFD 阅读笔记_第2张图片

    • 传统 crop 数据增强方法使用 [0.3,1.0] 的随机大小对原始图片进行裁剪,再缩放至所需大小进行训练;SR采用的是 [0.3,2.0] 的大裁剪策略。使用大裁剪策略后,小人脸(<32×32)的数量明显增加,能显著提升小目标检测的效率。
      [论文笔记] SCRFD 阅读笔记_第3张图片

  • 计算再分配(CR)

    • 人脸检测器的自由度

      • backbone stem,三个3×3卷积层,输出通道为 w 0 w_0 w0
      • backbone body,四个stage以逐渐降低的分辨率运行,每个stage由一系列相同的块组成。对于每个stagei,自由度包括块数 d i d_i di (即网络深度)和块宽度 w i w_i wi (即通道数)
      • neck,输出通道为 n i n_i ni 的特征融合模块
      • head,输出通道为 h i h_i hi, m m m个块堆积而成
    • 自由度合并

      • stem 的通道数等于 C2 中第一个残差块的通道数,因此可以将stem 的自由度合并到 w 1 w_1 w1
      • 所有特征图共享头部,并固定头部内所有3×3卷积层的通道数。因此, neck 和 head 中将自由度降低到三个: (1) neck的输出通道数 n n n, (2) head 的输出通道数 h h h,和3×3卷积块数 m m m
    • backbone 搜索

      • 方法:固定总模型计算量,如 2.5GFLOPs,然后使用搜索办法在 stem、C2、C3、C4、C5 之间分配计算资源,看哪种计算资源分配方式可以在 WIDERFace 上得到最好的 mAP

      • 最终发现大部分的计算资源集中在 stem+C2+C3 的时候可以取得最高的mAP
        [论文笔记] SCRFD 阅读笔记_第4张图片

    • 全局搜索

      • 方法:固定总模型计算量,如 2.5GFLOPs,然后使用搜索办法在 backbone、neck、head 之间分配计算资源,看哪一种计算资源分配方式可以在 WIDERFace 上得到最好的 mAP

      • 最终发现大部分的计算资源集中在 backbone 上
        [论文笔记] SCRFD 阅读笔记_第5张图片

你可能感兴趣的:(论文笔记,计算机视觉,深度学习,人工智能)