论文笔记 | 深度学习图像数据增广方法研究

1 背景

在许多领域,受限于数据获取难度大,标注成本高等原因,往往难以获得充足的训练数据,这样训练得到的深度学习模型往往存在过拟合的问题,进而导致模型泛化能力差,测试精度不高等。

数据扩充的作用:扩大样本集,提高模型泛化能力。

2 定义

数据增广,又称数据增强(data augmentation),是一种增加有限数据的数据量多样性的策略,试图从样本训练不足这一根本原因出发解决过拟合问题

3 方法

3.1 单数据变形

操作对象:单个数据

通过各种变换操作改变原始数据的表现形态,以产生不同于原始数据的新数据。

3.1.1 几何变换(geoneteic transformations)

原理:通过旋转、镜像、平移、裁剪、缩放和扭曲等变换方式生成新样本。

相当于在数据集上增加视角、位置方面的偏差以增强鲁棒性。

  • 优势:简单易实现,在大多数情况可以保留图像原有的语义标注。
  • 缺点:对数据重复记忆、增加信息量有限

【例】手写体识别:LeNet-5(LeCun等,1998)对MNIST数据集进行了四种仿射变换方式(平移、缩放、挤压、水平裁剪),将测试机错误率由0.95%降低到了0.8%。在本例中,仿射变换不会改变图像原本的语义标注。

注意点选用的变换方法是否会改变图像原本的语义信息。对于现实生活物体或场景的数据集,如CIFAR-10、ImageNet,图像的纵向像素往往具有一定的语义,因此垂直镜像和过度旋转会完全改变图像原本的语义标注;而对于遥感图像,各方向的镜像都能保留语义信息。

论文笔记 | 深度学习图像数据增广方法研究_第1张图片 CIFAR-10是一个包含10类物体的更接近普适物体的彩色图像数据集

Taylor和Nitschke(2017)的实验表明,对于生活中的物体图像:

  • 可旋转和镜像的程度有限,可增加的图像数量有限
  • 裁剪可得到更多的图像,且可以为模型引入物体在不同视角位置的更多信息。

3.1.2 色域变换(color space transormations)

原理:在图像各通道上进行亮度变换的生成方式。通过对数据集增加各种光照亮度偏差,增强模型在不同光照条件下的鲁棒性。

色域变换可保证模型在不同光照条件下的稳定性。

  • 色域变换没有增加图像中物体的空间信息
  • 可能丢失一些重要的颜色信息从而丢失图像的语义信息。

实现:

第一种,通道分段线性变换。根据RGB三通道,分离出三幅单色图像,分别进行分段线性变换。

第二种,直方图变换。通过改变图像的直方图来进行色彩变换。

第三种,PCA抖动(fancy PCA)。对原图像进行主成分分析(PCA),求得协方差矩阵,然后对主成分的特征值施加一个均值为0的随机扰动,再反变换回去。类似于给图像加了一个滤镜。

Taylor和Nitschke(2017)的实验表明:

  • 对于图像分类任务,空间几何信息比色彩信息更重要

3.1.3 清晰度变换

又被称为“核滤波器(kernel filters)”,与CNN的卷积核类似。

原理:通过滑动的n×m的矩阵对图像进行锐化和模糊处理,实现清晰度变换。

  • 模糊:高斯滤波器 --> 应对运动模糊
  • 锐化:高对比度的水平或垂直的边缘滤波器(edge filter) --> 突出物体更多细节信息

3.1.4 噪声注入(noise injection)

  • 模拟自然噪声
  • 人工设计噪声
    • 对抗噪声:用于对抗训练,针对对对抗样敏感的任务
    • 标签扰动:随机替换一些样本的标

3.1.5 局部擦除

原理:随机或人为对局部区域所有像素值信息的丢失,可视为一种再数据空间的dropout,相当于再图像上增加一些遮挡。

论文笔记 | 深度学习图像数据增广方法研究_第2张图片

缺点:随机擦除可能篡改图像原有的语义信息。如“7”和“8”有可能因为局部信息的丢失,被篡改为“1”、“6”。

3.2 多数据混合

操作对象:多幅图像

3.2.1 图像空间的数据混合

论文笔记 | 深度学习图像数据增广方法研究_第3张图片 SamplePairing

SamplePairing 从训练集中随 机抽取两幅图像,分别经过基础数据增广操作(如 随机裁剪、水平翻转等)处理后,以像素值取平均值 的形式叠加两幅图像合成一个新的样本,标签为原样本标签中的一种。

你可能感兴趣的:(计算机视觉,计算机视觉,机器学习,深度学习,人工智能)