Improved Regularization of Convolutional Neural Networks with Cutout论文笔记

文章目录

    • 1. Introduction
    • 2. Cutout
    • 3. Rethink
    • 4. Experiment

Attention:

论文解读的博客原文发布于个人github论文合集 欢迎关注,有想法欢迎一起讨论!私信评论均可。

后面有些语法在CSDN的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

创建人 github论文汇总 个人博客 知乎论文专栏
ming71 paperdaily chaser 专栏

顺便mark我的数据增强代码工具(持续更新):https://github.com/ming71/toolbox/tree/master/data_augmentation

论文发布日期:2017.8.4

1. Introduction

  数据增强普遍认为是正则化手段,减少过拟合,提高网络的泛化能力。介绍了一种数据增强方式–cutout。方法很简单就是图片上的随机crop像素块(如下图),但是这个思路表达的比这个简单的方法要深多了(就像第一次看到FPN一样)会编故事很重要,会洞察简单操作的背后思想和用途很重要。

  此外,有对于这个简单方法的一些拓展思考,比如分类和检测的增强等。

2. Cutout

  需要注意的是,由于这个是在分类数据集CIFAR-10/100上测试的,必然有很多问题。

  • Operation
      在图像上进行随机位置和一定大小的patch进行0-mask裁剪。一开始使用裁剪上采样等变换出复杂轮廓的patch后来发现简单的固定像素patch就效果不赖,所以直接采用正方形patch。
      作者为了论证讲故事丰富,认为这种操作相当于连续的dropout,只是后者是对神经元操作而且是离散的,而cutout是操作输入像素而且连续,可以减少噪声。

  • Motivation
      通过patch的遮盖让网络学习到遮挡的特征。cutout不仅能够让模型学习到如何辨别他们,同时还能更好地结合上下文从而关注一些局部次要的特征。

3. Rethink

  一点想法和思考,结合之前的一些论文增强对比实验。

  • cutout效果不如几何变换
      在CIFAR上效果平平(在之前一篇论文的对比实验看出,只有仿射的 一般涨点)应该是摄像师偏差的缘故,这里的CIFAR自然 有这个问题。

  • 数据集的问题
      收回之前对谷歌论文《Learning Data Augmentation Strategies for Object Detection》的肤浅评价,别人确实揭示了这一点,我当时没看出来而已。
      CIFAR是图像分类,但是移植到检测上,还要考虑bbox的问题:裁剪应该在bbox内进行。

  1. 有bbox,增强要考虑是否交于或者只进行bbox的变化
  2. 图像的有用特征和无用特征的距离更大
  • cutout的尺寸问题
      这个涉及对遮挡问题定义的思考。
  1. patch尺寸首先最好是可变的,这样对大目标和大遮挡也有效
  2. 大目标和大遮挡是否有检测出的必要?如果没必要,那就按比例只是用小mask就行了;如果有必要,可以学习不同大小gt的不同mask比例进行增强
  • 实现方式
      patch的mask不全在图像内的方式相比整个mask必须融入图像而言,增强能取得的效果更好。作者解释:这种小patch的增强图片能保证图像上更多样例被看到。如果真是这样,还有其他解决办法:1.设置不同size的patch,加入遮挡尺度的适应性 2.设置增强比,不让增强太多,避免学不到主要特征

4. Experiment

  分类的实验上cutout没什么特别的参考性,可以简单看看:

Improved Regularization of Convolutional Neural Networks with Cutout论文笔记_第1张图片

  通共32像素的图像,patch居然能达到这么高。但是检测任务就比这个比复杂多了,需要考虑遮挡的摄影师偏差,不太好直接统一处理




你可能感兴趣的:(papers)