论文解析: Bag of Freebies for Training Object Detection Neural Networks

目标检测必读论文解读: Bag of Freebies for Training Object Detection Neural Networks

目录

    • 目标检测必读论文解读: Bag of Freebies for Training Object Detection Neural Networks
    • Contribution:
    • Methodology:
      • 1. 提出了一种mixup的数据增强技巧:
      • 2. 分类头的label平滑:
      • 3. 数据的预处理:
      • 4. 训练机制的改进(lr schedule):
      • 5. 同步batch normalization:
      • 6. random shape training:
    • Experiment:

这篇文章包含了很多检测器训练的trick,目标在于不改变模型大小的情况下提升准确率和召回率

Contribution:

  • 系统的评估和总结不同的目标检测器的训练技巧
  • 提出了一种应用于目标检测的新的mixup方法
  • 深入探究了数据增强的domain对于目标检测的影响,帮助解决过拟合问题,增强模型的泛化性能
  • 提升了5% 的精度,推理时间没有改变

Methodology:

1. 提出了一种mixup的数据增强技巧:

首先,这种数据增强就是把两张图片的像素按照一定比例进行组合,看起来有透明的效果,与此同时需要对齐label:
论文解析: Bag of Freebies for Training Object Detection Neural Networks_第1张图片

其次,对于这个比例来说,本身就是一种概率。那我们尝试对这种概率出现的概率进行建模, 使用了beta分布,最终经过实验得出α和β分别是1.5的时候mAP比较高,由此确定了mixup的参数方案
论文解析: Bag of Freebies for Training Object Detection Neural Networks_第2张图片

2. 分类头的label平滑:

对于分类问题来说,输出层的每一个节点(类)输出 z_i 要经过一个softmax层用来归一化,方程如下图所示
在这里插入图片描述
在检测器的训练过程中,我们使用交叉熵损失作为输出的loss方程并且以此拟合softmax(p)和真实gt的分布(q),方程如下,q通常是one hot 编码:

在这里插入图片描述
但是分类平滑目的是让q中可以包含更多的logit,可以被表示为:其中 ε是一个很小的常数,K代表所有的分类个数
论文解析: Bag of Freebies for Training Object Detection Neural Networks_第3张图片
这种操作实际是通过减小了模型的置信度,通过让模型学到了不同类别之间的logit

3. 数据的预处理:

在图像分类任务中我们通常使用很多的纯图像级别的图形变化方案,但是对于图像检测来说对于这种数据增强相对是更敏感的,所以我们要小心的通过试验去验证,目前比较有效的包括:

  • 随机图形学的变换:随机crop,随机expansion,随机翻转,随机resize(with 随机插值方法)
  • 随机的颜色变换: 亮度,对比度,饱和度,色域,

很值得注意的一点是,二阶段的检测器通常是要从大量的候选框里面进行选择,然后在检测图上反复进行裁剪,这就相当于random crop,所以通常情况下,我们对于二阶段的检测器不使用random crop

4. 训练机制的改进(lr schedule):

lr shcedule: 在训练的过程中我们需要动态的调整lr的大小。通常会开始的lr比较大,但是固
定轮次之后变得越来越小,这就是比较常见的step schedule策略。但是我们引入另一种 lr的策略就是cosine schedule 也叫做余弦退火策略,开始lr下降的比较慢,后面lr迅速下降。

论文解析: Bag of Freebies for Training Object Detection Neural Networks_第4张图片)

Warmup learning rate: 这种trick一定程度的避免了在训练初期的梯度爆炸问题。在yolov3中,负样本在开始的几个轮次主导梯度更新。

5. 同步batch normalization:

同时,作者还发现,对于检测器来说。如果多卡做batch normalization会有精度损失,如果每一个gpu的图片数量保持相对较多。那么损失不是很严重,但是如果每张图片的数量比较少。那么多卡训练会对最终精度产生影响。

6. random shape training:

目标检测的训练样本通常是各种形状都存在的,许多检测器为了能节省内存开销并且让batch norm更容易,通常固定image的形状。但是为了减少over fitting 的风险,我们使用random shape的方式进行训练。

Experiment:

论文解析: Bag of Freebies for Training Object Detection Neural Networks_第5张图片


本文属于目标检测总结中的一篇,访问完整目标检测小结,点此跳转:

你可能感兴趣的:(目标检测,深度学习,人工智能)