CornerNet论文简析

Contents

  • 0 Links
  • 1 论文标题
  • 2 整体流程图
  • 3 backbone--Hourglass网络结构图
  • 4 Hourglass初级模块--Residual Module
  • 5 四阶Hourglass子网络
  • 6 Corner Pooling
  • 7 Top-Left Corners
  • 8 Loss
    • 8.1 Heatmaps Loss
    • 8.2 Embeddings Loss
    • 8.3 Offsets Loss
  • 9 Q&A
  • 10 Reference

0 Links

论文链接:https://arxiv.org/abs/1808.01244
代码链接:https://github.com/umich-vl/CornerNet

1 论文标题

CornerNet论文简析_第1张图片
第一,CornerNet是一个AnchorFree的网络,为什么不使用AnchorBox呢?

因为AnchorBox具有以下两个缺点:

①设置大量AnchorBox后会导致正负样本严重不均衡,效果差,效率低。

②AnchorBox会引入大量的超参数(如AnchorBox的形状、尺寸、个数)和设计技巧,如果是多尺度预测将会变得更加复杂,这是由于每个尺度都需要独立设计。

第二,CornerNet是将目标检测作为一对关键点的检测,也就是左上角点和右下角点。这里作者是参考了人体姿态估计(pose estimination)的Bottom-Up framework的方法,经过Top-Left和Bottom-Right这两个模块后得到三个输出,最后在得出BoundingBox。

知道个大概后,先提出以下5个Questions:

CornerNet论文简析_第2张图片

2 整体流程图

CornerNet论文简析_第3张图片
我们先从大致流程图入手,一步步分析,找到问题的答案。

从图中可以看出图片输入后经过一个卷积网络,然后再进入Top-Left Corners和Bottom-Right Corners,同时输出Heatmaps和Embeddings。Heatmaps的作用是预测所有左上角点和右下角点的位置,Embeddings的作用是将属于同一目标的两个角点配对。

CornerNet论文简析_第4张图片
再看这张更加细致的图。图片进入主干网络(Stacked Hourglass Networks),内含两个沙漏模块,然后分成两路,一路进入Top-left Corners,这一整个模块要先经过Corner Pooling后有三个输出,Heatmaps、Embeddings和Offsets。另一路进入Bottom-right Corners,也和Top-left Corners类似。

3 backbone–Hourglass网络结构图

CornerNet论文简析_第5张图片
首先,这是单个的Hourglass模块,可以看出它像沙漏一样是中心对称的。原始图片先经过预处理,在进入主干网络。

原始的图片是511 x 511 x 3的,经过预处理后缩小了4倍。具体是先经过一个kernel为7 x 7的卷积核(stride=2,padding=SAME,channel=128),然后再经过一个stride=2的残差块。这样输入Hourglass的就是128 x 128 x 256,然后经过两个Hourglass模块后输出 128 x 128 x 512的特征图。从输入到输出分辨率并没有变化,这是由于输入先经降采样提取各层次的特征后,又经上采样恢复原来的分辨率,在这同时还将特征与原来同层次的相融合。

4 Hourglass初级模块–Residual Module

接下来将Hourglass Network分解,首先是它最基础的模块–Residual Module,即残差模块。
CornerNet论文简析_第6张图片
如上图所示,残差模块由两路组成,上面一路卷积路,由三个kernel不同的卷积层串联而成,其间还以BN和ReLU相连。下面一路为跳级路,只包含一个kernel=1的卷积层。所有卷积层的stride为1,padding为1,不改变数据尺寸,只对数据深度(channel)进行变更。

CornerNet论文简析_第7张图片
上图是CornerNet中具体的Residual模块的参数,三个kernel分别为3、3、1(其中一个是skip跳级路的)。

CornerNet论文简析_第8张图片
Residual模块是这样前向传播的。

5 四阶Hourglass子网络

CornerNet论文简析_第9张图片
上图是更加细致的一个Hourglass网络。每个绿色表示一个残差块。可以看到输入到输出只有channel改变了。

6 Corner Pooling

CornerNet论文简析_第10张图片
从两个Hourglass出来后的特征图会经过Corner Pooling处理。上图是top-left的corner pooling,它是将行和列的最大值“推”到左上角,先从下至上遍历,再从又向左遍历,最后相加得到输出。同样bottom-right也类似,它是从上至下,从左到右遍历,将最大值推到右下角,最后也相加。

CornerNet论文简析_第11张图片
上面的图(Top-left Pooling)能很清楚的展现Corner Pooling的过程。

具体就是遇到比前一个大的数,就会把较小的数覆盖掉。输出的红框内是左边两红框内的值直接相加得到的。

7 Top-Left Corners

CornerNet论文简析_第12张图片
这张图是Top-Left Corners的处理过程。经过Corner Pooling后再经3 x 3的Conv-BN后与经Backbone出来的经过1 x 1Conv-BN层的特征再次融合,最后会有三个输出。(Bottom-Right Corners也一样)

Heatmaps:预测角点位置,用C x W x H的特征图表示,C为目标的类别(无背景类),这个特征图的每个通道都是一个mask,mask的每个值表示该点是角点的分数。

Embeddings:将角点配对,如果一个左上角点和一个右下角点属于一个目标,那么它们的embedding vector之间的距离应该很小。

Offsets: 输出从输入映射到特征图的误差信息。

8 Loss

CornerNet论文简析_第13张图片

这是总的Loss,由三部分组成,如图所示。

8.1 Heatmaps Loss

CornerNet论文简析_第14张图片

如图,值得注意的是,ycij是对应位置的ground truth,当ycij=1时,其损失函数为focal loss(α用来控制难以分类样本的损失权重),而对于其他情况,ycij表达式如下:

CornerNet论文简析_第15张图片
这是由高斯函数计算的值,因此距离ground truth较近的(i,j)点的ycij值接近于1,这部分通过β控制权重。

CornerNet论文简析_第16张图片
为什么对不同负样本点的损失函数采用不同的权重呢?

如上图,红框为ground truth,而绿框为预测框,可见这两个框已经十分接近了,因此对于这样的预测框要有一定的权重的损失返回。

而橘色的圆圈是根据gt的左上角角点、右下角角点和设定的半径画出来的。半径是根据圆圈内角点组成的框和gt的IoU值>0.7设定的,且圆圈内的点自圆心向外呈二维正态分布。

8.2 Embeddings Loss

CornerNet论文简析_第17张图片
embeddings loss由两部分组成,分别是L pull(缩小属于同一目标的两角点vector的距离)和L push(扩大不属于同一目标的两角点的vector的距离)。

8.3 Offsets Loss

CornerNet论文简析_第18张图片
Offset是在向下取整计算时丢失的精度信息。这尤其影响小尺寸目标的回归。

CornerNet论文简析_第19张图片
Faster RCNN中的ROI Pooling也有类似的精度丢失问题,所以SmoothL1Loss函数监督学习offset参数。

关于SmoothL1Loss函数

L1是绝对值函数,下方有个尖角,L2是二次函数,将这两函数融合成smooth L1函数。
smooth L1在 x 较小时,对 x 的梯度也会变小,而在 x 很大时,对 x 的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。 smoothL1 完美地避开了 L1和 L2 损失的缺陷。其函数图像如下:

img

由图中可以看出,它在远离坐标原点处,图像和 L1 loss 很接近,而在坐标原点附近,转折十分平滑,不像 L1 loss 有个尖角,因此叫做 smooth L1 loss。

另外,其实smoothL1函数是Huber Loss函数的特殊情况。统计学中,Huber损失是用于鲁棒回归的损失函数,与平方误差损失相比,对数据中的游离点较不敏感。 也有时使用分类的变体。

9 Q&A

这样,最开始的五个问题也得到了解决:

CornerNet论文简析_第20张图片

10 Reference

  • 基于点检测的物体检测方法(一):CornerNet - 知乎
    https://zhuanlan.zhihu.com/p/60524584

  • 【人体姿态】Stacked Hourglass算法详解 - shenxiaolu1984的专栏 - CSDN博客
    https://blog.csdn.net/shenxiaolu1984/article/details/51428392

  • CornerNet 算法笔记 - AI之路 - CSDN博客
    https://blog.csdn.net/u014380165/article/details/83032273

  • 请问faster rcnn和ssd 中为什么用smooth l1 loss,和l2有什么区别? - 知乎
    https://www.zhihu.com/question/58200555/answer/621174180

  • huber loss - qq_29981283的博客 - CSDN博客
    https://blog.csdn.net/qq_29981283/article/details/83042231

  • Huber loss - 笨笨鸟 - 博客园
    https://www.cnblogs.com/bbn0111/p/6769876.html

你可能感兴趣的:(笔记,目标检测)