Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文笔记

Scaled-YOLOv4: Scaling Cross Stage Partial Network

论文链接: https://arxiv.org/abs/2011.08036

一、Problem Statement

CSPNet的作者用其CSPNet的方法分别从网络的深度,宽度,结构和输入图像的分辨率改善YOLOV4。

二、Direction

作者发现在RegNet中,CNN最优的深度为60左右,且当bottleneck的比例设置为1,和cross-stage的宽度增长比例设置为2.5时,能获得最好的性能。

作者发现在YOLOV4中使用的CSPDarknet53很接近这些最优数值,分别为深度65,bottleneck比例为1和宽度增长比率为2。因此以此为baseline。

设计分为两部分:

  1. 重新设计YOLOv4, 提出YOLOv4-CSP。
  2. 基于YOLOv4-CSP, 提出scaled-YOLOv4, 包括了YOLOv4-large和YOLOv4-tiny模型。

三、Method

  1. CSP-ized YOLOv4
    从三个方向: (1) Backbone (2) Neck (3) SPP

    1. 对于Backbone: CSPDarknet53下采样卷积计算中的residual block没有cross-stage处理. 为了更好地得到精度与速度的trade-off, 作者把CSP stage放入了原先的Darknet residual layer.

    2. 对于Neck: CSP-ize YOLOv4 中的PANet
      Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文笔记_第1张图片

    3. 对于SPP:没有修改

  2. Model Scaling

    作者分析了几个变量:(1) 输入图像分辨率大小 (2) 网络层的数量 (3) 通道的数量
     
    作者分析得到:把ResNet, ResNetxt, DarkNet转变为CSPNet之后,新的网络结构可以有效地减少计算量(FLOPs).所以使用了CSP-ized 模型来进行model scaling。作者分别为计算资源不同的设备提出了两个模型:

    1. Scaling Tiny Models for Low-End Devices
      考虑:内存带宽,MAC,和DRAM流量 三要素。提出了以下原则:

      1). 计算量小于 O ( w h k b 2 ) O(whkb^2) O(whkb2),主要参考OSANet

      2). 最小化/平衡 feature map的大小;在CSPOSANet上使用graident truncation

      3). 卷积后维持同样数量的通道数

      4). 最小化卷积输入输出
       

    2. Scaling Large Models for High-End Devices
      考虑:输入,backbone, 和 neck
      作者认为感知域对性能影响很大,和感知域最直接相关的就是stage,且FPN网络结构中higher stage更适合用于预测大目标。
      因此当增大输入图像的大小时,为了有更好地效果,需要增加网络的深度或者stage.所以作者对输入图像和stage分别做了scaling up,然后根据实时性要求,进一步对深度和宽度进行scale.
      Scaled-YOLOv4: Scaling Cross Stage Partial Network 论文笔记_第2张图片

 

四、Conclusion

YOLOv4中本身就使用了CPSNet中的technique, CSPNet的作者通过CSP-ize 和 scaling 进一步优化YOLOv4。

Reference

你可能感兴趣的:(2D目标检测论文笔记,神经网络,深度学习)