Data Augmentation 数据增强分类

Data Augmentation 数据增强分类

Data Augmentations based on basic image manipulations

1. Flipping

水平轴翻转比垂直轴翻转更常见,这种增强是最容易实现的方法之一,并且在诸如CIFAR-10和ImageNet这样的数据集上证明是有用的。在涉及文本识别的数据集上,如MNIST或支持向量机,这不是一个保持标签的转换。

2. Color space

数字图像数据通常被编码为维度的张量(高度×宽度×颜色通道)。在颜色通道空间中执行增强是另一个非常实用的策略。非常简单的颜色增强包括隔离一个单一的颜色通道,如RGB。通过隔离该矩阵并从其他颜色通道添加2个零矩阵,可以将图像快速转换为其在一个颜色通道中的表示。此外,可以通过简单的矩阵运算轻松地操作RGB值,以增加或减少图像的亮度。更高级的颜色增强来自于导出描述图像的颜色直方图。更改这些直方图中的亮度值会导致灯光改变,例如照片编辑应用程序中使用的灯光。

3. Cropping

通过裁剪每个图像的中心块,裁剪图像可以用作具有混合高度和宽度尺寸的图像数据的实际处理步骤。此外,随机裁剪也可以用来提供非常类似于翻译的效果。随机裁剪和平移的区别在于,裁剪会减小输入的大小,例如(256,256) → (224,224),而平移会保留图像的空间维度。根据为裁剪选择的减少阈值,这可能不是一个保留标签的转换。

4. Rotation

旋转增强是通过在1和359之间的轴上左右旋转图像来完成的。旋转增强的安全性在很大程度上取决于旋转度参数。1到20之间或1到20之间的轻微旋转可能对数字识别任务(如MNIST)有用,但随着旋转程度的增加,数据的标签在转换后不再保留。

5. Translation

向左、向右、向上或向下移动图像是一种非常有用的变换,可以避免数据中的位置偏差。例如,如果一个数据集中的所有图像都是居中的,这在人脸识别数据集中是很常见的,这将需要在完全居中的图像上测试该模型。当原始图像在一个方向上平移时,剩余的空间可以用常数值(如0秒或255秒)填充,也可以用随机或高斯噪声填充。这种填充保留了图像增强后的空间维度。

6. Noise injection

噪声注入包括注入通常从高斯分布提取的随机值矩阵。

Geometric versus photometric transformations

对于训练数据中存在的位置偏差,几何变换是非常好的解决方案。有许多潜在的偏见来源,可以分开测试数据中训练数据的分布。如果存在位置偏差,例如在面部识别数据集中,每个面部都完美地位于框架的中心,几何变换是一个很好的解决方案。除了克服位置偏差的强大能力之外,几何变换也很有用,因为它们易于实现。有许多图像处理库可以让水平翻转和旋转等操作轻松上手。

几何变换的一些缺点包括额外的内存、变换计算成本和额外的训练时间。必须手动观察一些几何变换,如平移或随机裁剪,以确保它们没有改变图像的标签。最后,在医学图像分析等许多应用领域,训练数据与测试数据之间的偏差比位置和平移差异更复杂。因此,几何变换可以应用的位置和时间范围相对有限。

图像数据被编码成3个堆叠矩阵,每个矩阵的大小为高度×宽度。这些矩阵表示单个RGB颜色值的像素值。光照偏差是图像识别问题中最常见的挑战之一。因此,颜色空间变换的有效性,也称为光度变换,概念化相当直观。快速修复过亮或过暗的图像的方法是在图像中循环,并以恒定值减少或增加像素值。另一个快速的颜色空间操作是拼接出单独的RGB颜色矩阵。另一种变换包括将像素值限制在某个最小值或最大值。数字图像中颜色的内在表现有助于许多增强策略。

与几何变换类似,颜色空间变换的缺点是增加了内存、变换成本和训练时间。此外,颜色变换可能会丢弃重要的颜色信息,因此并不总是保持标签的变换。例如,当减少图像的像素值以模拟较暗的环境时,可能无法看到图像中的对象。另一个非标签保持颜色变换的间接例子是在图像情感分析[62]。在这种应用中,中枢神经系统试图直观地预测图像的情感得分,例如:高度消极、消极、中性、积极或高度积极。负面/高度负面图像的一个指标是血液的存在。血液的深红色是区分血液和水或油漆的关键成分。如果颜色空间变换重复地改变颜色空间,使得模型不能从绿色油漆中识别出红色血液,则模型在图像情感分析上表现不佳。实际上,颜色空间转换将消除数据集中存在的有利于空间特征的颜色偏差。然而,对于一些任务来说,颜色是一个非常重要的区别特征。

8. Kernel filters

核过滤器是图像处理中一种非常流行的技术,用于锐化和模糊图像。这些滤镜通过在图像上滑动n × n矩阵来工作,既可以使用高斯模糊滤镜(这会导致图像更模糊),也可以使用高对比度垂直或水平边缘滤镜(会导致边缘图像更清晰)。直观地说,在测试期间,用于数据增强的模糊图像可能导致对运动模糊的更高抵抗力。此外,为数据增强而锐化图像可以封装更多感兴趣对象的细节。

9. Mixing images

通过平均像素值将图像混合在一起是一种非常违反直觉的数据增强方法。对人类观察者来说,这样做产生的图像看起来不像是有用的转换。然而,Ionue 展示了如何将样本配对发展成为有效的扩增策略。在这个实验中,两幅图像从256 × 256到224 × 224被随机裁剪,并被随机水平翻转。然后通过平均每个RGB通道的像素值来混合这些图像。这导致用于训练分类模型的混合图像。分配给新图像的标签与第一个随机选择的图像相同。

10. Random erasing

随机擦除Zhong et al开发的另一种有趣的数据增强技术。受丢包正则化机制的启发,除了在输入数据空间之外,随机擦除可以被视为类似于丢包,而不是嵌入到网络体系结构中。这项技术是专门设计来应对由于遮挡带来的图像识别挑战的。遮挡是指物体的某些部分不清晰的时候。随机擦除将通过迫使模型学习关于图像的更多描述特征来阻止这种情况,防止它过度拟合图像中的某个视觉特征。除了遮挡的视觉挑战之外,随机擦除是一种有前途的技术,可以确保网络关注整个图像,而不仅仅是图像的一个子集。

Data Augmentations based on Deep Learning

1. Feature space augmentation

神经网络在将高维输入映射到低维表示方面非常强大。这些网络可以将图像映射到二进制类或平坦层中的n × 1矢量。神经网络的顺序处理可以被操纵,使得中间表示可以从网络整体中分离出来。可以提取和分离完全连接的层中的图像数据的低维表示。

2. Adversarial training

对抗训练是使用两个或多个网络的框架,这些网络的损失函数中编码有不同的目标。对抗训练作为搜索算法以及对抗攻击的现象。敌对攻击由一个对手网络组成,该网络学习对图像的增强,导致其对手分类网络中的错误分类。从对抗网络的角度来看,这些受限于噪声注入的对抗攻击取得了惊人的成功。

3. GAN‑based Data Augmentation

数据扩充的另一个令人兴奋的策略是生成性建模generative modeling。生成性建模是指从数据集创建人工实例的实践,以便它们保留与原始集合相似的特征。上面讨论的对抗训练的原则导致了非常有趣和非常流行的生成建模框架,称为GANs。

4. Neural Style Transfer

神经风格转移是深度学习能力最生动的展示之一。总的想法是操纵在CNNs中创建的图像的表示。神经风格转移可能因其艺术应用而闻名,但它也是数据增强的一个很好的工具。该算法的工作原理是通过操纵美国有线电视新闻网上的序列表示,使一幅图像的风格可以转移到另一幅图像,同时保留其原始内容。

5. Meta learning Data Augmentations

深度学习研究中的元学习概念一般是指用神经网络优化神经网络的概念。萨利曼等人[111]直接将进化策略与强化学习进行比较。强化学习的另一个有趣的替代方法是简单的随机搜索[112]。利用进化和随机搜索算法是未来工作的一个有趣的领域,但是本调查中回顾的元学习方案都是基于神经网络、梯度的。

你可能感兴趣的:(Data Augmentation 数据增强分类)