2022CVPR论文阅读
A Comprehensive Survey of Image Augmentation Techniques for Deep Learning
深度学习中图像增强技术的综合综述
Abstract
深度学习在需要大量图像的计算机视觉中已经取得了良好的性能,然而,在许多场景下,收集图像是昂贵和困难的。为了缓解这一问题,许多图像增强算法被提出作为有效的策略。理解当前的算法对于找到合适的方法或为给定的任务开发新的技术是至关重要的。在本文中,我们用一种新的信息分类法对深度学习的图像增强进行了全面的调查。为了基本了解我们为什么需要增强的图像,我们介绍了计算机视觉任务和附近分布中的挑战。然后,将算法分为三类;无模型、基于模型和基于优化策略。无模型类别采用图像处理方法,而基于模型的方法利用可训练的图像生成模型,相比之下,基于策略的优化方法旨在找到最优操作或其组合。此外,我们还讨论了当前具有两个更活跃主题的常见应用的趋势,利用不同的方法来理解图像增强,如群理论和核理论,以及部署图像增强进行无监督学习。在此基础上,我们认为我们的调查可以更好地理解,有助于选择合适的方法或设计新的算法的实际应用。
表1:在那些涉及图像分类和目标检测的论文中所使用的图像增强算法。
本文的组织结构如下。第二部分首先介绍了研究分类法。然后,我们在第三部分展示了做图像增强的两个基本动机,计算机视觉任务的挑战和附近分布。第四部分介绍无模型图像增强,第五节讨论基于模型的方法。在第六部分中介绍了在许多图像增强算法中寻找最优算法,然后是一个讨论部分。最后,我们在最后一节中总结了我们的论文。
图1:本文中的图像增强的分类法。
2. Taxonomy
如图1所示,我们将图像增强算法主要分为三大类。无模型首先不利用预先训练好的模型来进行图像增强,并由单图像和多图像组成。其次,基于模型的图像增强算法需要用一个经过训练的模型来生成图像。根据生成新图像的条件,可以分为无条件、标签条件和图像条件。最后,从许多具有大参数空间的可能算法中寻找具有合适参数的最优操作的算法被称为基于策略的优化算法。基于学习策略,可分为强化学习和对抗性学习。基于强化学习的算法利用一个巨大的搜索空间,包括不同的操作及其大小,以及一个代理,在给定的搜索空间中找到最优策略。相比之下,基于对抗性学习的方法的目的是找到相应规模的算法,使任务模型有很大的损失。
表2:从数据集和深度学习模型的角度看计算机视觉任务的挑战。
3. Motivation to perform image augmentation
3.1. Challenges
表2描述了计算机视觉任务的四种挑战。第一个是物体在不同情况下的图像变化,包括照明、变形等。图2说明了部分图像的变化2。类不平衡是另一个挑战,即某些对象比其他对象更容易被观察到。以医学图像为例,异常病例发生的概率较低,隐私性是另一个问题。用不平衡数据集训练,模型往往给正常情况更大的概率。此外,域移也导致了训练数据集和测试数据集分布不同的问题。其中一个例子是与自动驾驶相关的昼夜域。由于在白天收集图像更方便,我们希望用白天的数据集来训练我们的模型,但在夜间进行评估。
图2:来自类CS231n的图像变化的示例。
除了来自数据集的挑战外,深度学习时代的一个新挑战是数据记忆。一般来说,更可学习的参数需要更多的数据来训练模型,称为结构风险。由于比经典算法使用了更多的参数,一个简单的解决方案是在训练图像数量较少的深度学习中只记住所有的数据点,这就引入了泛化问题或过拟合。
幸运的是,图像增强方法可以通过增加训练数据集中图像数量及其图像的变化来缓解挑战,提高泛化能力。为了有效地利用图像增强算法,最好了解我们应用的挑战,然后应用合适的方法。本文旨在调查了解广泛的图像增强算法。
3.2. Vicinity distribution
在监督学习范式中,我们期望找到一个函数f∈F,它反映了联合分布P(x,y)中的输入x和目标y之间的关系。为了学习f,对于Pf(x)中的所有例子(x,y),定义了一个损失l来减少预测f(x)和实际目标y之间的差异。然后,如果我们可以在P(x,y)上减少l,我们就可以优化f,这被称为预期风险[23],可以表述为:R(f)=Rl(f(x),y)dP(x,y)。但在大多数应用程序中,P(x,y)是未知的[25]。或者,我们利用经验分布Pe(xy)来近似P(xy)。在这种情况下,将观察到的数据集D=(xi,yi)ni=1作为经验分布,其中(xi,yi)在给定i的Pe(x,y)中:
其中,δ(x,y)是一个以该点(xi,yi)为中心的Dirac质量函数,假设概率分布中的所有质量都聚集在一个单点[26]周围。近似P(x,y)的另一种自然思想是附近分布Pv(x,y),它用点(xi,yi)附近的密度的估计来代替Dirac质量函数:
式中,δv为d中(xi,yi)的附近点集。附近分布假设P(x,y)在任意点(xi,yi)[25]附近是光滑的。在Pv(x,y)中,模型很难记住所有的数据点,因此在测试过程中往往具有更好的性能。实现附近分布的一种方法是应用图像增强,使原始数据点(xi,yi)可以在其附近移动一点。例如,高斯附近分布被声明为与在图像中添加高斯噪声相同。
4. Model-free image augmentation
图像处理方法可以用于图像增强,如几何变换,这通常被称为图像处理[6,7]。在本文中,我们将其称为无模型图像增强,以与基于模型的图像增强有明显的对比度。无模型由两个分支组成,单图像和多图像。如名称所示,单个图像从单一图像中产生增强图像,但多重图像从多个图像中产生输出。
4.1. Single-image augmentation
从附近分布来看,单图像增强(SiA)的目的是波动训练数据集中的数据点,使分布更加密集。一般来说,SiA利用了传统的图像处理,易于理解和执行。它可以分为几何变换、彩色图像处理和强度变换。
4.1.1. Geometric transformation
在自然捕获的图像中的物体可以出现在许多变化中,几何变换可以用来增加变化。首先,平移给出了增加物体位置变化的机会。第二,可以旋转一个图像,然后可以改变对象的视点。旋转值应小心,否则,对象可能不会进行标签保存。第三,可以根据训练和测试数据集的特点进行水平或垂直翻转。例如,城市景观[28]数据集可以水平地增强,但可能不能以垂直的方式增强。第四,物体可以通过缩放来放大或缩小来模拟多尺度的变化。最后,弹性扭曲可以改变物体的形状或姿势。其中,作物和翻转在过去十年的许多工作中被常用,用于各种计算机视觉任务,如图像分类[11,12,13]、目标检测[29,30]、图像转换[31,32]。当使用这些方法时,应该注意两件事,即保存标签标识的操作的大小和数据集中的高效变化。
4.1.2. Color image processing
表3:使用强度变换的论文。如果有的话,我们突出显示相应的数字。
与灰度图像不同,彩色图像由三个通道组成。使用彩色图像处理作为图像增强的假设是,训练和测试数据集的分布随颜色而波动,如对比度。虽然彩色图像处理显示出了优越性,但最近似乎被放弃了,主要是因为训练和测试数据集之间的颜色变化很小。但一个有趣的点是通过彩色图像处理,任务不可知的学习来学习对比度学习[33]的鲁棒特征。
4.1.3. Intensity transformation
强度变换的目的是改变像素级或补丁级的像素值。相比之下,几何变换和彩色图像处理是在图像级上执行的。随机噪声是最简单的算法之一,如高斯噪声[23]。经典的方法在像素级上独立地利用随机噪声,但最近补丁级变得流行起来,并在深度学习算法[34]、[35]、[36]、[37]方面显示出了不错的改进。论文内容见表3。其背后的基本思想是,阻塞最重要区域的部分会推动模型学习健壮的特征,因为其中一个简单的解决方案只是记住最重要的部分[24]。
Cutout[35]随机掩盖了最重要的部分,并发现了一种模拟咬合的机制。然而,找到重要的部分是成本。隐找[34]直接屏蔽图像的一部分,认为重要部分在多次利用随机过程时可能被掩盖,简单快速。具体来说,图像被分为如图3所示的s×patches,每个patches被随机阻塞, 它的缺点之一是相同大小的patches,导致相同级别的遮挡。为了解决这个问题,提出了具有三个随机值的随机擦除[36],即要被阻塞的大小,高度和宽度的比值,以及区域的左向上点。图4给出了三个计算机视觉任务的随机擦除的一些例子。此外,该方法可以用于图像感知和对象感知,如©所示,这可以简化目标检测。
除了删除之外,GridMask旨在平衡删除和保留,因为我们想阻止一个对象的一些重要部分,但保留该对象的一部分,以模拟真实的遮挡。为了实现这一点,网格掩模引入了一组预定义的掩模,而不是[34,35,36]中的一个掩模。如图5所示,生成的掩模来自四个值,其中两个表示每个网格的宽度和高度,另外两个表示相邻网格掩模在垂直和水平上的距离。通过改变这四个值,可以实现不同大小和不同距离的网格掩模。在这种情况下,网格掩模在删除和保留之间取得了更好的平衡,初步实验表明,与删除[35]和隐藏相比,它产生失败情况的几率更低。
图4:来自随机擦除的示例
4.2. Multiple-image augmentation
多图像增强(MiA)算法在多个图像上执行,可分为实例级和非实例级两类。由于一个图像可以包含多个实例,因此我们可以屏蔽实例,然后独立地使用它们。与SiA相比,MiA要求算法合并多个输入实例。
4.2.1. Non-instance level
首先,非实例级采用和融合图像。相关论文列表见表4。最简单的方法之一是计算每个像素的平均值。在配对样本[39]中,两个图像被融合,从一个源图像中产生一个带有标签的增强图像。该假设在Mixup[38]中被推广,其中标签也被融合。图6显示了配对样本和混合样本之间的差异。数学上,˜x=λxi+(1−λ)xj和˜y=λyi+(1−λ)yj,其中xi和xj是两个图像,yi和yj是对应的一个热标签。˜x和˜y是生成的图像和标签。通过更改0≤λ≤1,可以创建许多具有不同标签的图像,并且在增强的图像中,两个标签之间的间隙变得平滑。虽然分割样本和混合取得了更好的结果,但融合的图像对人类来说是不合理的。为了理解这个问题,从波形[40]的角度来看,融合的图像对机器有意义。
图6:非实例级多图像算法的比较
与[40]不同,CutMix[41]在空间上合并图像,为人类制作合理的图像。图6中的最后一幅图片展示了它的策略,即合并后的图像在空间上由两个源图像组成,其标签来自于两个图像的一些像素的比例。一般来说,多图像增强利用两个图像,但也允许两个以上的图像。例如,Mosaic[22]使用了四张图像,从而增加了一张图像中的对象数量,从而显著减少了对大批量进行密集预测的需求。此外,AugMix[42]随机应用多种基本图像增强,并将结果与原始图像进行合并
非实例级图像增强与强度变换具有类似的扩展。为了使用最重要的部分,PuzzleMix[43]区分了前景和背景,并混合了重要的前景。为了更快地找到主导区域,超混合[44]开发了牛顿迭代方法的一种变体。就像隐藏和看到[34]一样,GridMix[45]将图像划分为网格,然后从两个输入图像的相应补丁中随机抽取输出图像的每个补丁。通过分析,我们认为网格面具[51]可以适用于混合两幅图像。
4.2.2. Instance level
非实例级直接使用图像,而实例级则利用被图像掩盖的实例。相关论文见表4的第二部分。在形式上,实例级别包括两个主要步骤。如图7所示,第一步是根据语义掩码从源图像中切割对象实例,并获得干净的背景感知。接下来,将获得的实例或多个实例和背景进行合并。剪切、粘贴和学习[46]是最早的作品之一,即注意到将实例粘贴到后台后的本地工件。由于基于局部区域的特征对目标检测很重要,因此采用了各种混合模式来减少局部伪影。除了边界之外,实例的规模和放置实例的位置并不简单,因为一个对象可以在多尺度上,可以通过上下文来识别,这在[47]中提到。
有趣的是,实例级的图像增强可以缓解类不平衡的挑战。通过重用这些罕见的实例,就增加了相应类的图像数量。简单的复制粘贴[49]声明实例级是一种强大的实例分割图像增强方法。尽管基于复制,粘贴和学习,简单的复制粘贴在两个方面有所不同。首先,从数据集中随机选择背景图像,并应用随机尺度抖动和水平翻转。其次,利用大规模的抖动来获得更显著的性能。复制粘贴的想法也被用于时间序列任务[50],如跟踪。
图8:GAN和标签条件GAN[52]的变体。 G: 生成器,A:认证器,C:分类器,D:鉴别器。
5.2. Label-conditional image generation
虽然无条件的图像生成显示了其潜力,但不同类的共享信息不能被利用。相比之下,标签条件图像生成有望利用共享信息,学习少数图像和更多图像的多数类的变化。标签条件图像生成要求一个特定的标签作为额外的输入,生成的图像应该与标签条件对齐。
标签条件图像生成的第一个问题是如何使用标签条件。CGAN[73]使用生成器的标签,但身份验证器不使用该标签。因此,生成器倾向于忽略标签信息,因为身份验证器不能提供关于该条件的反馈。ACGAN[74]在鉴别器中引入了一个辅助分类器,它鼓励生成器生成与标签条件对齐的图像。对于更复杂的分类器,BDA[52]将分类器从鉴别器中分离出来。图8说明了BDA和其他方法之间的区别。此外,MFC-GAN[55]在分类损失中采用了多个假类,以提高训练的稳定性。
图9:dagan[57]的流程图,其中的标签信息是通过一个编码器来自一个图像,而不是一个标签。
标签条件图像生成的主要应用之一是针对类不平衡[55][53][56]。生成模型被期望从大多数类中学习有用的特征,并使用它们来生成微型类的图像。生成的图像可以用于重新平衡原始的训练数据集。然而,用类不平衡数据集训练GAN模型并不容易,因为多数类主导了鉴别器的损失,而生成器倾向于从多数类产生图像。为了解决这一挑战,我们借用了一个具有重构损失的预训练自动编码器来初始化生成器[54][56]。
虽然采用了不同的鉴别器或分类器,但上述算法利用了一个热标签中的类条件。其中一个限制是,训练后的模型只能生成已知类的图像。为了减轻这一限制,dagan[57]利用一个图像编码器来提取类,如图9所示,其中生成的图像应该与图像具有相同的类。
5.3. Image-conditional image generation
除标签外,图像也可以作为条件应用,称为图像转换。通常,一个图像由内容和样式[75,76]组成。内容是指类依赖的,如狗和猫,但风格表示类独立的,如颜色和照明。图像条件图像的生成可以分为两种类型,标签保留和标签改变。前者要求保留内容,而后者则要求更改内容。
5.4. Label-preserving
标签保留假设生成的图像的标签与输入的图像相同。要部署它的一个活动字段是域转移,其中源域的样式与目标域的样式不同。为了解决这个挑战,我们可以将原始图像从源域转换到目标域。为了在图像转换过程中保持对象,利用提取上下文感知特征的分割模块与AugGAN[58]中的生成器共享参数。在实际应用中,将通过图形模型合成的图像转化为自然图像[59],将叶片布局转化为真实的叶片图像[60]。此外,图像翻译也可以用于具有域移位[77]的语义分割。除了域位移外,还可以利用标签保留来提高训练模型的鲁棒性。根据CNN对纹理的偏好,原始图像被翻译成不同的纹理,这使得CNN更多地关注形状[62]。
在图像生成过程中,如何获得所需的样式是一个问题,大多数算法利用编码器从图像中提取样式,如DRIT++[78]和spade[79]。这种图像平移可以看作是图像的混合。相反,Jackson等人[61]提出了风格增强,其中风格来自多元正态分布。此外,另一个挑战是是否可以采用一个模型来用训练较少的图像生成多个领域的图像。为了解决这个问题,在MetalGAN[80]中利用了领域损失和金属学习策略。
5.3.2. Label-changing
与保留标签相比,标签的改变需要改变标签的依赖性。例如,中性的脸被转化为不同的情绪[63]。虽然生成的图像保真度较差,但它们确实提高了情绪分类。除了改变标签依赖外,保留标签独立最近得到了关注,因为保留的标签独立可以从源类引入到目标类中,从而改进目标类的变化,这有助于类的不平衡。为了利用大多数变异,Xu等人的[2]利用一种花柱损失来缓解番茄叶片图像的疾病识别的类别不平衡。此外,为了获得语义上的一致性,如对象的数量,Zheng等[67]引入了一个通道较少的多分支鉴别器,获得了良好的图像翻译,如图10所示。为了解决严重的类不平衡,例如一个标签只有几个图像,提出了一种增量编码器,将标签独立的特征从一个标签提取到另一个标签[64]。与dagan[57]相似,类信息由一个图像给出。增量编码器和解码器的目标是在训练阶段重建给定的图像x,而解码器得到一个新的标签图像,并期望在测试阶段生成相同的标签。
与保留标签法相比,改变标签法对于通过同时改变标签和风格来提高模型的鲁棒性更令人印象深刻。如图11所示,传统的图像增强技术在将黑猩猩的颜色改为柠檬后不会改变标签,这导致了一个形状偏差模型。相比之下,如果翻译后的图像被标记为柠檬,则训练纹理偏置模型。为了平衡这种偏差,通过风格转换的翻译图像使用了两个标签[65],包括黑猩猩和柠檬,这导致了一个去偏模型。此外,受Mixup[38]的启发,Hong等人提出了StyleMix[66],其中合并两个输入将分别导致内容和样式标签,如图12所示。最后,将内容和样式标签融合为生成的图像的最终标签。
图10:MBD[67]对标签改变的图像增强进行语义级匹配,包括位置、数字和姿态。
图11:关于形状和纹理的有偏和无偏模型的标签分配
6. Optimizing Policy-based image augmentation
最后两节中提到的算法都是具体的方案,如随机裁剪和混合两幅图像,其中需要领域知识才能有更好的性能。一般来说,利用期望大小的单个操作,根据特定数据集的特征进行图像增强。但是找到合适的超参数并不容易和耗时。解决这个挑战的一个想法是设计算法来找到最优的增强策略。这些算法被称为基于优化策略,包括基于强化学习和基于对抗性学习两类。前者采用强化学习来寻找最优策略。相反,后者利用这些增强操作及其规模,导致巨大的训练损失或小的验证损失。相关论文列于表6。
图12:使用不同算法的标签分配示例
6.1. Reinforcement learning-based image augmentation
自动增强[81]是利用强化学习的开创性工作。如图13所示,它由找到最佳策略的迭代步骤组成。控制器从具有操作类型及其对应概率和幅度的搜索空间中采样策略,利用任务网络获得验证精度作为反馈来更新控制器。由于搜索空间非常大,更轻的子网络被利用。经过训练后,借用控制器对原始任务模型进行训练,并可在其他数据集中进行微调。
自动增强在几个数据集中取得了良好的分类性能,但花费了较长的训练时间。为了解决这个问题,有几篇来自不同观点的论文。首先,随机[82]用均匀概率替换自动增强中的几个概率。其次,FastAA[83]和FaserAA[85]利用密度匹配,对齐训练数据集和增强训练数据集的密度,而不是近端策略优化[95]来自动优化控制器。第三,PBA[84]的目标是学习一个受基于人口的培训启发的政策时间表,而不是一个单一的政策。
图13:自动增强[81]的概述,一种基于强化学习的图像增强。
除了训练时间外,自动增强还利用了子模型,通过这些子模型,学习到的策略可能不是最终任务模型的最佳策略。为了解决这个问题,Hataya等人的[86]通过快速AA中相同的可微图像增强管道同时训练目标模型和图像增强策略。不同的是,对抗性的AA[91]利用了对抗性的损失和强化学习。
上述算法的一个局限性是,学习到的图像增强策略处于数据集级别。相比之下,在[96]和[87]中分别考虑了类级和样本级的图像增强,其中每个类或每个样本都使用了一个特定的策略。此外,在[88]中讨论了一种用于目标检测的实例级图像增强方法,其中的操作只在边界框内进行。
6.2. Adversarial Learning-based image augmentation
图像增强的主要目标是用一个训练数据集来训练一个任务模型,使其在测试数据集中具有良好的泛化能力。一种假设是,硬样本更有用,而那些使模型具有更大训练损失的输入图像被认为是硬样本。基于对抗性学习的图像增强算法的目的是学习一种图像增强策略,根据原始训练样本生成硬样本。
早期的工作[89]试图找到一个小的变换,在增强样本上产生最大的训练损失,其中学习优化是找到一个给定一个操作的最优幅度。此外,其中一个主要的限制是标签保留假设,即增强图像保留与原始图像相同的标签。为了满足这一假设,一种常见的策略是利用人类知识设计操作类型和相应规模的范围。为了削弱这一假设,Ratner等人[90]引入生成对抗损失来学习转换序列,在该序列中,鉴别器将生成的图像作为原始类,而不是一个看不见的或空类。
有趣的是,SPA[93]试图选择合适的样本,其中图像增强仅针对那些增强图像比原始图像造成更大训练损失的样本。虽然SPA在样本水平上同时训练图像增强策略和任务模型,但学习到的策略在验证数据集中的影响是未知的。为了解决这一挑战,采用了一个影响函数来提供验证损失变化的近似,而不实际比较性能[92]。另一个有趣的想法是在测试阶段使用图像增强技术。为了实现这一想法,ada转换[94]学习了两个任务,竞争任务和合作任务,如图14所示。
在竞争任务中,变压器通过增加目标网络的损失来学习扩大输入方差,而鉴别器的目标是推动增强后的图像真实。相比之下,变压器通过减少目标网络的损失来学习减少合作任务中增强图像的方差。经过训练后,利用变压器来减少输入图像的方差,从而使测试过程更容易。
图14:ada转换[94]的概述。它由竞争训练和合作测试两个任务,以及变压器T、鉴别器D和目标网络N三个组件组成。变压器通过与D和N同时竞争来增加训练数据的方差。它还与N合作进行测试,以减少数据的方差。
7. Discussions
当前趋势。这个数据集对于获得良好的性能至关重要。制作一个像样的数据集的一种方法是应用图像增强算法,一个重的算法被证明是令人印象深刻的。无模式和优化策略在计算机视觉的大多数应用中得到广泛应用,而基于模式是阶级不平衡和领域适应。此外,大多数算法保持标签保留,但标签改变算法近年来受到了关注。虽然有许多图像增强算法,但设想新的算法是有意义的。我们认为,识别新的挑战可以激发一种新的方法,如果挑战可以模仿使用图像增强。
了解图像增强功能。在本文中,我们试图从挑战和附近分布的角度来理解执行图像增强算法进行深度学习的原因。并验证了图像增强与正则化[27]相似。近年来,人们利用核理论[97]和群理论[98]来分析图像增强的影响。此外,利用亲和和多样性[99]量化图像增强如何提高模型泛化。另外,在[100]中分析了图像增强计划如何影响优化并与优化超参数如学习率和批大小进行交互。
使用图像增强的新策略。图像增强通常以有监督的方式使用,但也可以使用不同的方式。首先,通过图像增强来创建借口任务,如预测旋转度[101],图像补丁[102]的相对位置。其次,只要假设增强图像与原始图像[103,104,105]相似,就可以利用它来生成对比度学习的积极例子。此外,半监督学习也受益于图像增强[27,106,107]。
8. Conclusion
在本文中,我们调查了广泛的图像增强算法与一个新的分类,包括三个部分,无模型,基于模型,和优化策略。为了理解执行图像增强的原因,我们分析了在计算机视觉任务中部署深度学习模型的挑战,并借用了附近分布的概念。我们发现,图像增强显著提高了任务性能,许多算法都是针对特定的挑战而设计的,如遮挡的强度转换和基于模型的类不平衡和域偏移的算法。在此基础上,我们认为新的方法可以激发新的挑战,同时,我们可以在认识到数据集中的挑战后,选择相应的方法。我们希望我们的论文能更好地理解图像增强算法,并鼓励社区更多地关注数据集。
Acknowledgment
本研究部分由韩国基础科学研究计划通过韩国国家研究基金(NRF)由教育部(没有。2019R1A6A1A09031717),由韩国国家研究基金会(NRF)资助的科学和ICT(MSIT)(没有。2020R1A2C2013060),并支持韩国规划和评估技术研究所食品、农业和林业(IPET)和韩国智能农场研发基金会(KosFarm)通过智能农业创新技术发展计划,由农业、食品和农村事务部(MAFRA)和科学和ICT(MSIT),农村发展管理局(RDA)(没有421027-04)。
References