FCOS:Fully Convolution One-Stage Object Detection

FCOS:Fully Convolution One-Stage Object Detection_第1张图片
2019年anchor-free的论文

code

文章目录

    • 概述
    • 细节
    • Result
    • Conclusion

概述


  • 要解决的问题
    • One-stage anchor-free object detection
  • 采用的方法
    • center到top, left,right, bottom边距的回归
    • 由于采用了上述方法,出现了一些低质量的预测框,使用了“center-ness”方法来处理
  • 结果如何
    • 比肩anchor-based一类的方法
    • one-stage state-of-the-art
    • FCOS的方法可以用作二阶段的RPN部分,效果提升
  • 相关
    • 之前有过FCN-based的框架来做检测:DenseBox(2015), UnitBox(2017)。
    • 这些FCN-based的方法呢,都是直接在每个spatial location上进行预测(4D vector & 1-D cls)
    • anchor-based:来源于对于滑动窗口的考虑,如Fast R-CNN,Faster R-CNN, SSD,
    • anchor-free:most popular anchor-free detector might be YOLOv1,v2以及以上就使用了anchor,CornerNet,

细节


  • 1、Fully Convolution One-Stage Object Detector

    • regression target: t ∗ = ( l ∗ , t ∗ , r ∗ , b ∗ ) t^*=(l^*, t^*, r^*,b^*) t=(l,t,r,b),这里的四个 l ∗ , t ∗ , r ∗ , b ∗ l^*, t^*, r^*,b^* l,t,r,b分别表示的是location到bbox四个边的距离
      FCOS:Fully Convolution One-Stage Object Detection_第2张图片

    • 如果location落在了多个bbox里,那么认为这是一个“模糊样本”,选择小的bbox作为这个location预测样本的target

    • Loss函数(网络输出)
      L ( P x , y , t x , y ) = 1 N p o s ∑ L c l s ( P x , y , c x , y ∗ ) + λ N p o s ∑ 1 c x , y ∗ > 0 L r e g ( t x , y , t x , y ∗ ) L({P_{x,y}, {t_{x,y}}})=\frac{1}{N_{pos}}\sum{L_{cls}(P_{x,y}, c^*_{x,y}) + \frac{\lambda}{N_{pos}}\sum{1_{c^*_{x,y}>0}}L_{reg}(t_{x,y}, t^*_{x,y})} L(Px,y,tx,y)=Npos1Lcls(Px,y,cx,y)+Nposλ1cx,y>0Lreg(tx,y,tx,y)

      前面的分类损失函数是focal loss,回归损失则是IOU loss N p o s {N_{pos}} Npos表示的是正样本的数量

  • 2、Multi-level Prediction with FPN for FCOS
    正负样本
    { P 3 , P 4 , P 5 , P 6 , P 7 P_3,P_4,P_5,P_6,P_7 P3,P4,P5,P6,P7}特征层,分别对应的stride是8,16,32,64,128,在此处做一个限制,对于第 i i i层的数据我们要满足 m a x ( l ∗ , r ∗ , t ∗ , b ∗ ) > m i {max(l^*,r^*,t^*,b^*)}>m_i max(l,r,t,b)>mi或者满足 m a x ( l ∗ , r ∗ , t ∗ , b ∗ ) < m i − 1 {max(l^*,r^*,t^*,b^*)}<m_{i-1} max(l,r,t,b)<mi1,那么这个location的预测框设为负样本。那么 m 2 , m 3 , m 4 , m 5 , m 6 , m 7 m_2, m_3, m_4, m_5, m_6, m_7 m2,m3,m4,m5,m6,m7设置为0, 64, 128, 256, 512, ∞ \infty

FCOS:Fully Convolution One-Stage Object Detection_第3张图片

  • 3、Center-ness for FCOS
    motivation: 许多低质量的预测框(远离目标的中心)
    所以增加了一个branch来预测每个location的center-ness,表示的是某一个location距离目标中心的距离。对应的target如下:

    c e n t e r n e s s ∗ = m i n ( l ∗ , r ∗ ) m a x ( l ∗ , r ∗ ) ∗ m i n ( t ∗ , b ∗ ) m a x ( t ∗ , b ∗ ) centerness^*=\sqrt{\frac{min(l^*, r^*)}{max(l^*,r^*)}*\frac{min(t^*, b^*)}{max(t^*, b^*)}} centerness=max(l,r)min(l,r)max(t,b)min(t,b)

Result


Param Value
dataset COCO
backbone ResNet-50, 超参与RetinaNet相同
Optimizer SGD, 90K iters, lr=0.01
batchsize 16 images
inference params post-processing NMS
  • BPR:best possible recall
    FCOS:Fully Convolution One-Stage Object Detection_第4张图片
  • FPN
    FCOS:Fully Convolution One-Stage Object Detection_第5张图片
  • 对比
    FCOS:Fully Convolution One-Stage Object Detection_第6张图片
  • 质量分析

FCOS:Fully Convolution One-Stage Object Detection_第7张图片

Conclusion


暂缓

你可能感兴趣的:(论文阅读)