Objects as Points

Objects as Points_第1张图片

code

文章目录

    • 概述
    • 细节
    • Result
    • Conclusion

概述


  • 要解决的问题
    • One-stage anchor-free object detection
  • 采用的方法
    • 构建模型时将目标作为一个点——即目标BBox的中心点。我们的检测器采用关键点估计来找到中心点,并回归到其他目标属性,例如尺寸,3D位置,方向,甚至姿态
  • 结果如何
    • MS COCO dataset, with 28.1% AP at 142 FPS, 37.4% AP at 52 FPS, and 45.1% AP with multi-scale testing at 1.4 FPS

细节


  • 1、input&output
    输入是 I ∈ R W ∗ H ∗ 3 {I\in R^{W*H*3}} IRWH3,输出则是 Y ^ ∈ [ 0 , 1 ] W S ∗ H S ∗ C \hat{Y}\in[0, 1]^{\frac{W}{S}*\frac{H}{S}*C} Y^[0,1]SWSHC S S S表示的是output stride,论文中取4, C C C表示的是keypoint types,如:在姿态估计中 C = 17 C=17 C=17,在目标检测中式 C = 80 C=80 C=80。 backbone会用三个不同的全卷积网络:(1)stacked hourglass network, (2)upconvolution residual network, (3)deep layer aggregation(DLA)
  • 2、target
    Gaussian kernel
    在这里插入图片描述
    focal loss:N是图像中keypoint的数量
    Objects as Points_第2张图片
    offset prediction:对于每一个center point,所有的C(类别,channel)共享offset prediction,预测的offset的值真实center与预测center差值之间的Loss
    Objects as Points_第3张图片
  • 3、Objects as Points
    找出了目标中心点,那么还需要回归出目标的尺寸大小,下列式子的k表示框中的目标是属于类别 C k C_k Ck,为了减少计算,这个尺寸计算的 S ^ ∈ R W S ∗ H S ∗ 2 \hat{S}\in R^{\frac{W}{S}*\frac{H}{S}*2} S^RSWSH2
    在这里插入图片描述
    L1 loss:网络的每个location共有 C + 4 C+4 C+4个输出,其中分别是类别,center point, width, height, offset
    Objects as Points_第4张图片

总的loss
在这里插入图片描述

Result


  • 不同的backbone产生的结果
    Objects as Points_第5张图片
  • 与各大state-of-the-art作比较
    Objects as Points_第6张图片

Conclusion


暂缓

你可能感兴趣的:(论文阅读)