数据增强系列(1)top10数据增强技术:综合指南

数据增强系列(1)top10数据增强技术:综合指南_第1张图片
数据增强技术就是人为地生成真实数据集的不同版本以增加其数据大小。计算机视觉(CV)和自然语言处理 (NLP) 模型使用数据增强策略来处理数据稀缺和数据多样性不足的问题。

数据增强算法可以提高机器学习模型的准确性。根据实验,图像增强后的深度学习模型在训练损失(即对错误预测的惩罚)和准确性以及验证 损失和准确性方面比没有增强图像分类任务的深度学习模型表现更好。

1.什么是计算机视觉中的数据增强技术?

图像有几何和色彩空间增强方法,以在模型中创建图像多样性。很容易从开源库和有关该主题的文章中找到许多用于这些增强转换的代码示例。

1.1添加噪音

对于模糊的图像,在图像上添加噪声会很有用。通过“椒盐噪声”,图像看起来像是由白点和黑点组成。
数据增强系列(1)top10数据增强技术:综合指南_第2张图片

1.2裁剪

选择、裁剪图像的一部分,然后将其调整为原始图像大小。

1.3翻转

图像水平和垂直翻转。翻转重新排列像素,同时保护图像的特征。垂直翻转对于某些照片没有意义,但它在他天文学或显微照片中很有用。
数据增强系列(1)top10数据增强技术:综合指南_第3张图片

1.4旋转

图像旋转了 0 到 360 度之间的度数。每个旋转的图像在模型中都是唯一的。

数据增强系列(1)top10数据增强技术:综合指南_第4张图片

1.5缩放

图像向外和向内缩放。通过缩放,新图像中的对象可以比原始图像中的对象更小或更大。
数据增强系列(1)top10数据增强技术:综合指南_第5张图片

1.6平移

图像沿 x 轴或 y 轴移动到各个区域,因此神经网络会查看图像中的任何地方以捕获它。
数据增强系列(1)top10数据增强技术:综合指南_第6张图片

1.7亮度

更改图像的亮度,新图像会更暗或更亮。这种技术允许模型在不同的光照水平下识别图像。
数据增强系列(1)top10数据增强技术:综合指南_第7张图片

1.8对比度

图像的对比度发生变化,新图像在亮度和颜色方面都会有所不同。下图的对比度是随机变化的。
数据增强系列(1)top10数据增强技术:综合指南_第8张图片

1.9色彩增强

图像的颜色由新的像素值改变。有一个灰度示例图像。
数据增强系列(1)top10数据增强技术:综合指南_第9张图片

1.10饱和度

饱和度是图像中颜色的深度或强度。下图饱和度数据增强方法。
数据增强系列(1)top10数据增强技术:综合指南_第10张图片

2.什么是自然语言模型中的数据增强技术?

数据增强技术应用于字符、单词和文本级别。

2.1 简易数据增强 (EDA) 方法

EDA 方法包括简单的文本转换,例如从句子中随机选择一个单词并替换为该单词的同义词之一,或者在句子中选择并交换两个单词。NLP 处理中的 EDA 技术示例是:

  • 同义词替换
  • 文本替换(基于规则、基于机器学习、基于掩码等)
  • 随机插入
  • 随机交换
  • 随机删除
  • 单词和句子洗牌

2.2回译

一个句子被翻译成一种语言,然后新句子又被翻译成原始语言。因此,创建了不同的句子。
数据增强系列(1)top10数据增强技术:综合指南_第11张图片

2.3 文本生成

训练生成对抗网络 (GAN) 以生成包含几个单词的文本。
数据增强系列(1)top10数据增强技术:综合指南_第12张图片
开发人员可以通过在包含大量人类语音、语言、语法和情感的 Web 数据上训练自然语言模型来优化自然语言模型。可以利用网络爬虫(例如Bright Data 的数据收集器)从在线资源中自动提取数据,以便为 NLP 模型创建不断增长的训练数据池。

3.什么是音频数据的数据增强技术?

音频数据增强方法包括裁剪一部分数据、噪声注入、移动时间、速度调整改变音高、混合背景噪声和掩蔽频率。

数据增强系列(1)top10数据增强技术:综合指南_第13张图片

4.什么是高级数据增强技术?

高级数据增强方法常用于深度学习领域。其中一些技术是

  • 对抗训练
  • 神经风格迁移
  • 基于生成对抗网络 (GAN) 的增强
    GAN 可用于生成合成数据,这也是一种高级数据增强技术。例如,合成数据生成供应商 Hazy利用GAN 来学习原始数据的统计特性并生成具有代表性的合成数据。

5.什么是数据增强库?

有一些供开发人员使用的库,例如 Albumentations、Augmentor、Imgaug、nlpaug、NLTK 和 spaCy。这些库包括几何变换和色彩空间变换函数、内核过滤器(即用于锐化和模糊的图像处理函数)和其他文本变换。数据增强库使用不同的深度学习框架,例如 Keras、MxNet、PyTorch 和 TensorFlow。

参考目录

https://research.aimultiple.com/data-augmentation-techniques/

你可能感兴趣的:(数据增强,数据增强)