anchor free dection简介

1. background

目标检测从开始的two_stage时代 到 one_stage时代,从anchor basic到anchor free,越来越精细化。从18年CornerNet开始,anchor free 论文喷颈式爆发,宣告开始进入anchor free时代。

2. Network

2.1 DenseBox

本文工作:

  1. 证明了单纯的FCN网络只要设计合理可以用来检测不同尺度和严重遮挡下的目标。
  2. 提出新的FCN模型,DENSEBOX,不需要区域提议,可被用于训练端到段网络。
  3. 结合了landmark localization的多任务学习使得densebox近一步提高了精度。
    anchor free dection简介_第1张图片
    网络架构:以vggNet为backbone网络,input picture(m * n * 3) -> conv ->bilinear upsample -> threshold and NMS -> output(m/4 * n/4 * 5),
    1) 首先设计出一套端对端的多任务全卷积模型,直接回归物体出现的置信度以及它的相对位置。
    2)同时为了能够更好地处理遮挡严重的物体,提高小物体的召回率,他在检测的网络中引入了上采样层,并融合浅层网络得到的特征,得到更大尺寸的输出层。
    3)为了对训练样本进行筛选,保证正负样本均衡化,降低误检,他还率先使用了Online Hard Negative Mining的策略,及难例分析。
    4)每个像素点都被转换为置信度和到目标边界框的bbox四个距离,然后进行NMS。

​在FCN结构中添加少量层能够实现landmark localization,然后通过融合landmark heatmaps和score map可以进一步提升检测结果。

2.2 YOLOV1

YOLOV1作为anchor free的代表作(YOLOV2及V3都是带anchor框的网络架构)
anchor free dection简介_第2张图片

  1. 输入图像为448x448x3的彩色图像,经过GoogLeNet的前20层进行卷积输出14x14x1024的特征图
  2. 然后经过四个卷积层和2个全连接层,最后经过重新排序成一个7x7x30的矩阵(张量)
    anchor free dection简介_第3张图片
    如上图所示,经过层层卷积,输出的7730的矩阵相当于将原图像划分成7x7=49个框,每个框由一个30维的向量构成30维向量,前10个特征分别预测了两个bbox(BoundingBox回归框),一个横向框,一个列向框,每个框5个特征。框后边接着类别,共20个类。特征分别是每个目标属于某个类的概率预测的两个框中,每个框的5个特征,分别是:(1)bbox中心x相对于grid cell(图中小红框)的坐标(2)bbox中心y相对于grid cell的y坐标(3)bbox的宽(4)bbox的高(5)是否存在目标,存在目标则为 1xIoU的值,否则 0xIoU的值
    预测的x,y,w,h的取值范围全都划到(0,1)开区间内,转换方式如下图所示
    anchor free dection简介_第4张图片
    对划分的7*7的49个单元格,都会存在一个30维的向量
    每个单元格只对单个目标负责,如果两个或多个目标的中心同时存在于一个单元格中,那么单元格中只保存概率最高的类别
  1. LOSS计算anchor free dection简介_第5张图片

2.3 CornerNet

  1. 整体网络架构:backbone为hourglass网络,后加上两个预测模块。
    anchor free dection简介_第6张图片
    精简化下:
    anchor free dection简介_第7张图片
    1.1 hourglass网络
    原理类似于resNet网络,及在前期通过卷积下采样,与后来上采样的值进行融合,获得不同尺度的特征图,。用于后续的pooling.anchor free dection简介_第8张图片
    1.2 corner pooling
    anchor free dection简介_第9张图片
    两张feature map, 取同一个位置,对第一个feature map上的这个位置的像素点取这一列做max pooling;对第二个feature map上的这个位置的像素点,从它开始向右这一行的最大值(max pooling+1),将这两个最大值相加,就是这个位置的输出。对所有位置进行这个操作,得到一个完整的output,这就是一个完整top-left corner pooling。同理,bottom-right corner pooling就是向上看取最大值,向左看取最大值,然后加起来。
    1.3 预测模块
    每个预测模块的输出分为Heatmaps,Embedding,和offsets三个部分,他们分别的作用是指出角点的位置,角点配对,偏差矫正。
    heatmap:有C个chanel,C是目标类别数。没有背景chanel。每个chanel都是二进制掩模,用于表示角点的位置,是的,就是我们的终极目标找到点。
    Embedding:用于角点配对。你有一堆top-left corners,又有一堆bottom-right corners,那你哪儿知道谁该跟谁是一对儿画框框。这里是用了人体姿态估计中,配对关节点的思想,为每个角点配一个Embedding,就把它当成是一个身份牌。每个对象的身份牌颜色都不一样,拿到同一种颜色身份牌的就是一家子了。这里就是embedding值最相近的top-left corner和bottom-right corner配成一对去画框框。
    offset:偏移。为什么要计算这个东西呢。作者的实验里,输入是511∗511(好像我记得),但是heatmap是128∗128。把输入上的点(x,y)(x,y)(x,y)隐射到heatmap上,就得是([x∗128/511],[y∗128/511]),先甭管人家算出来结果是多少,看到取整符号就知道要损失精度,再把heatmap上找到的位置映射回去的时候,那肯定就不准了呀,于是就有了offset(128∗128∗2,x,y1281282,x,y128∗128∗2,x,y两个方向的偏移)。
    具体操作为:先对heatmap非极大值抑制 ,然后取top 100 的top-left和top 100 的bottom-right的角点,然后用offset矫正这些角点的位置。随后计算top-left和bottom-right角点Embedding的L1距离,距离大于0.5或者包含不同类别的角点不配携手走进婚姻的殿堂。能走进婚姻殿堂的就领证结婚,这一对就可以用来画框框了。
    1.4 loss函数
    anchor free dection简介_第10张图片
    再续===================================

2.4 FSAF

2.5 FCOS

2.6 FoveaBox

你可能感兴趣的:(anchor free dection简介)