Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记

论文原文地址:CVAE-GAN: fine-grained image generation through asymmetric training

推荐阅读:
VAE全面理解
生成模型——变分自编码器VAE
从 GAN VAE 到 CVAE-GAN
Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第1张图片

摘要:

  • 我们提出了变分生成对抗性网络,这是一个将变分自动编码器与生成对抗性网络相结合的通用学习框架,用于合成精细的图像,例如类别中特定人员或对象的脸。 我们的方法将图像建模为概率模型中标签和潜在属性的组成。 通过改变输入到生成模型中的细粒度类别标签,我们可以在特定类别中生成图像,并在潜在属性向量上随机绘制值。 我们的方法有两个新的方面。 首先,我们对判别网络和分类器网络采用交叉熵损失,而对生成网络则采用平均差异目标。 这种非对称损失函数使GAN训练更加稳定。提出一种网络结构】
  • 第二,我们采用编码器网络来学习潜在空间和真实图像空间之间的关系,并使用成对特征匹配来保持生成图像的结构。 我们对人脸、花朵和鸟类的自然图像进行了实验,并证明了所提出的模型能够生成具有细粒度类别标签的真实和多样的样本。 我们进一步表明,我们的模型可以应用于其他任务,如图像修复、超分辨率和数据增强,以训练更好的人脸识别模型。 【使用编码器网络学习潜在空间的数据分布】

引言**

  • 建立有效的自然图像生成模型是计算机视觉中的关键问题之一。 它的目的是通过根据潜在的自然图像分布改变一些潜在参数来生成不同的真实图像。 因此,需要一个期望的生成模型来捕获底层数据分布。 这通常是一项非常困难的任务,因为图像样本的集合可能位于非常复杂的流形上。 然而,深卷积神经网络的最新进展催生了一系列深层生成模型[14,12,8,31,29,34,15,4,33,6]这些模型取得了巨大的进展,这主要是由于深度网络在学习表示中的能力。【深度学习网络可以捕获真实图像的底层分布】
  • 在这些最近的工作取得成功的基础上,我们希望更进一步生成细粒度对象类别的图像。 例如,我们想能够合成特定身份的图像(图1),或生成指定种类的花卉或鸟类的新图像,等等。 在CVAE[34]和VAE/GAN[15]的启发下,我们提出了一种通用的学习框架,它将变分自动编码器与生成对抗性网络结合在一个条件生成过程中来解决这个问题。【想要解决的问题就是:想要生成指定类别的真实图像】
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第2张图片
  1. 合成图像使用我们的CVAE-GAN模型在高分辨率(128×128)的不同类别。 生成的样本在类中是真实的和多样化的。
  • 本文提出了一种关于生成器的新方法。 不使用与鉴别器网络相同的交叉熵损失,而是要求生成器生成数据,使平均特征与真实数据的ℓ2距离最小。 对于多类图像生成,一个类别的生成样本也需要匹配该类别真实数据的平均特征,因为特征距离和可分性呈正相关。 在一定程度上解决了梯度消失问题。 这种非对称损失函数可以部分地帮助防止所有输出向单点移动的模式崩溃问题,使Gan的训练更加稳定。【提出非对称损失函数,使训练更加稳定。】
  • 虽然使用平均特征匹配会减少模式坍塌的机会,但并不能完全解决问题。 一旦发生模式坍塌,梯度下降就无法分离相同的输出。 为了保持生成样本的多样性,我们利用VAE和GAN的结合。 我们使用编码器网络将真实图像映射到潜在向量。 然后要求生成器重建原始像素,并将原始图像的特征与给定的潜在向量匹配。 这样,我们就明确地建立了潜在空间与真实图像空间之间的关系。 由于这些锚点的存在,生成器被强制发射不同的样本。 此外,像素重建损失也有助于维持结构,如图像中的直线或面部结构。【VAE和GAN结合,可以解决模式坍塌。】
    • 如图2(G)所示,我们的框架由四个部分组成:
    • 1)编码器网络E,它将数据样本x映射到潜在表示z。
    • 2)生成网络G,给定一个潜在向量z,它生成图像x‘。
    • 3)判别网络D用来区分真实假图像。
    • 4)分类器网络C,它测量数据的类概率。 这四个部分无缝地级联在一起,整个管道被训练成端到端。 我们称之为CVAE-GAN。
      Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第3张图片

图2. 说明VAE[12,31]、GAN[8]、VAE/GAN[15]、CVAE[34]、CGAN[18]、PPGN和提出的CVAE-GAN的结构。 其中x和x‘是输入和生成的图像。 E、G、C、D分别是编码器、生成网络、分类网络和判别网络。 z是潜在向量。 y是表示真实/合成图像的二进制输出。 c是条件,如属性或类标签。

  • 一旦CVAE-GAN被训练,它就可以在不同的应用中使用,例如图像生成、图像修复和属性变形。 我们的方法估计了输入图像的良好表示,生成的图像似乎更真实。 我们表明,它的性能优于CVAE、CGAN和其他最先进的方法。 与GAN相比,该框架在训练阶段更容易训练和收敛速度更快、更稳定。 在我们的实验中,我们进一步表明,从我们的模型合成的图像可以应用于其他任务,如数据增强训练更好的人脸识别模型。【CVAE-GAN效果好,而且训练好的网络可以用于其他领域,比如图像生成、图像修复、属性变换。训练阶段收敛快,更稳定。我们的框架生成的图像可以用于其他任务。】
  • 可以考虑将此框架应用于图像修复。

2. Related work

  • 传统的智慧和早期的生成模型研究,包括主成分分析(PCA)[40]、独立成分分析(ICA)[10]和高斯混合模型(GMM)[46,27,37],都假设数据的简单形成。 它们难以模拟不规则分布的复杂模式。 后来的工作,如隐马尔可夫模型(HMM)[35],马尔可夫随机场(MRF)[19]和限制波尔兹曼机(RBMs)[9,32],有区别地训练生成模型[39],由于缺乏有效的特征表示,它们的结果限制在纹理补丁、数字数字或对齐面上。【传统方法难以模拟复杂数据分布。】
  • 深度生成模型 [14,12,8,31,29,15,4,33,6]的最近有了许多发展。 由于深层层次结构允许它们捕获数据中的复杂结构,所有这些方法在生成比传统生成模型更真实的自然图像方面都显示出有希望的结果。**【深度生成模型更容易捕获数据中的复杂结构】**其中主要有三个主题:变量自动编码器(VAE)[12,31]、生成对抗性网络(GAN)[8,29,33]和自动回归[14]。
  • VAE[12,31]将可微编码器网络与解码器/生成网络配对。 VAE的一个缺点是,由于注入噪声和不完善的元素度量,如平方误差,产生的样本往往是模糊的。【VAE产生的样本是模糊的】
  • 生成对抗性网络(GAN)[8,29,33]是另一种流行的生成模型。 它同时训练了两个模型:生成模型来合成样品,以及区分自然样品和合成样品的判别模型。 然而,GAN模型在训练阶段很难收敛GAN生成的样本往往远离自然。 最近,许多工作试图提高生成的样本的质量。 例如,WassersteinGAN(WGAN)[2]使用地球Mover距离作为训练GANs的目标,而McGAN[20]使用均值和协方差特征匹配。 它们需要限制鉴别器的参数范围,这将降低鉴别能力。 损失敏感GAN[28]学习一个损失函数,它可以量化生成的样本的质量,并使用这个损失函数生成高质量的图像。 还有一些方法试图结合GAN和VAE,例如VAE/GAN[15]和对抗性自动编码器[17]。 它们与我们的工作密切相关,并在一定程度上激发了我们的工作。【一些试图去提高GAN生成样本质量的方法】
  • 还可以对VAE和GAN进行有条件生成的培训,例如CVAE[34]和CGAN[18]。 通过引入附加条件,它们可以处理概率一对多映射问题。 最近有很多基于CVAE和CGAN的有趣的作品,包括条件人脸生成[7],Attribute2Image[47],文本到图像合成[30],从静态图像[42]预测,以及条件图像合成[25]。 都取得了骄人的成绩。【基于条件GAN和条件CVAE的应用】
  • 生成ConvNet[44]表明,生成模型可以从常用的判别ConvNet中导出。 Dosovitskiy等人。 [5]和Nguyen等人。 [22]介绍了一种从经过训练的分类模型中提取的特征中生成高质量图像的方法。 PPGN[23]通过使用梯度上升和在发生器潜在空间之前产生样本的性能非常好。
  • 自动回归[14]遵循不同的想法。 它使用自动回归连接对图像逐像素建模。 它的两个变体,像素RNN[41]和像素CNN[26],也产生了优秀的样本。
  • 我们的模型不同于所有这些模型。 如图2所示,我们将所提出的CVAEGAN的结构与所有这些模型进行了比较。 除了结构上的差异外,更重要的是,我们利用统计和两两特征匹配的优势,使训练过程收敛得更快、更稳定。

3. Our Formulation of CVAE-GAN

  • 在本节中,我们将介绍所提出的CVAE-GAN网络。 如图3所示,我们提出的方法包含四个部分:1)编码器网络E;2)生成网络G;3)判别网络D;4)分类网络C。
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第4张图片

图3. 说明我们的网络结构。 我们的模型包括四个部分:1)编码器网络E;2)生成网络G;3)分类网络C;4)鉴别网络D。详情请参阅第3节。

  • 网络E和G的功能与条件变分自动编码器(CVAE)[34]中的功能相同。 编码器网络E通过学习分布P(z|x,c)将数据样本x映射到潜在表示z,其中c是数据的类别。 生成网络G通过从学习分布P(x|z,c)中采样生成图像x‘。 网络G和D的功能与生成对抗性网络(GAN)[8]中的功能相同。 网络G试图通过判别网络D给出的梯度来学习真实的数据分布,该梯度学习区分“真实”和“假”样本。 网络C的作用是测量后验P(c|x)。
  • 然而,VAE和GAN的na¨ıve组合不足。 最近的工作[1]表明,GAN的训练将面临网络G的梯度消失或不稳定问题。因此,我们只保持网络E、D和C的训练过程与原始VAE[12]和GAN[8]相同,并提出了一个新的生成网络G的平均特征匹配目标,以提高原始GAN的稳定性【保持其余不变,提出新G的平均特征匹配目标提高原始GAN的稳定性】
  • 即使采用平均特征匹配目标,仍然存在模式崩溃的风险。所以我们使用编码器网络E和生成网络G获得从真实样本x到合成样本x’的映射。 利用像素级ℓ2损失和成对特征匹配,实现了生成模型的多种样本发射和结构保持样本的生成【为了解决模式坍塌,引入像素级损失和成对特征匹配】
  • 在下面的章节中,我们首先描述了基于GAN的平均特征匹配方法(3.1节)。 然后,我们证明了平均特征匹配也可以用于条件图像生成任务(3.2节)。 在此之后,我们通过使用额外的编码器网络引入成对特征匹配(3.3节)。 最后,我们分析了所提出的方法的目标,并在培训管道中提供了实施细节(3.4节)。【实施细节在下文】

3.1. Mean feature matching based GAN

  • 在传统的GAN中,生成器G和鉴别器D在两人极小极大的游戏中竞争。 鉴别器试图从合成的数据中区分真实的训练数据;生成器试图欺骗鉴别器。 具体而言,网络D试图最小化损失函数:
    在这里插入图片描述
    而网络G试图最小化
    在这里插入图片描述
  • 在实践中,“真实”和“假”图像的分布可能不会相互重叠,特别是在训练过程的早期阶段。 因此,判别网络D可以完美地分离它们。 也就是说,我们总是有D(X)→1和D(X‘)→0,其中x‘=G(Z)是生成的图像。 因此,在更新网络G时,L‘GD/∂D(x’)∂梯度→−∞。 所以网络G的训练过程会不稳定。 最近的工作也[1,2] 表明训练GAN往往需要处理G的不稳定梯度。为了解决这个问题,我们建议对生成器使用平均特征匹配目标。 目标要求合成样品特征的中心,以匹配真实样品特征的中心。 设fD(X)表示鉴别器中间层上的特征,G然后试图最小化损失函数。【对生成器G使用平均特征匹配目标解决G的梯度不稳定问题】
    在这里插入图片描述
  • 在我们的实验中,为了简单起见,我们选择网络D的最后一个完全连接(FC)层的输入作为特征fD。 结合多层特征可以略微提高收敛速度。 在训练阶段,我们使用小型舱内的数据来估计平均特征。 我们还使用移动历史平均线使其更加稳定。
  • 因此,在训练阶段,我们使用公式1更新网络D。 使用公式2更新网络G。 使用这种非对称损失进行训练GAN具有以下三个优点:
    • 1)公式2中。 随着可分性的增加,特征中心上的ℓ2损失解决了梯度消失问题;
    • 2)当生成的图像足够好时,平均特征匹配损失变为零,使训练更加稳定
    • 3)与WGAN[2]相比,不需要对参数进行剪辑。 可以保持网络D的鉴别力

3.2. 条件图像生成的平均特征匹配

  • 在这一部分中,我们介绍了条件图像生成的平均特征匹配。 假设我们有一组属于K类的数据,我们使用网络C来度量图像是否属于特定的细粒度类别。 在这里,我们使用一种标准的分类方法。 网络C以x作为输入,输出一个K维向量,然后使用Softmax函数将其转化为类概率。 每个条目的输出表示后验概率P(c|x)。 在训练阶段,网络C试图最小化Softmax损失:
    在这里插入图片描述
    对于网络G,如果我们仍然使用类似于公式3中的Softmax损失函数。 它将遭受同一梯度不稳定问题,如[1]所述。
  • 因此,我们建议使用生成网络G的平均特征匹配目标。设fC(X)表示分类中间层上的特征,然后G试图最小化:
    在这里插入图片描述
  • 在这里,我们选择网络C的最后一个FC层的输入作为简单的特征。 我们还试图结合多个层的特征,它只略微提高了保持网络G的身份的能力。由于在一个小型舱中只有少数属于同一类别的样本,因此有必要对真实和生成的样本使用特征的移动平均值。

3.3. Pairwise Feature Matching

  • 虽然使用平均特征匹配可以防止所有输出向单点移动,从而减少模式崩溃的可能性,但它并不完全解决这个问题。 一旦模式崩溃发生,生成网络就会为不同的潜在向量输出相同的图像,因此梯度下降将无法分离这些相同的输出。 此外,尽管生成的样本和真实样本具有相同的特征中心,但它们可能具有不同的分布。
  • 为了生成不同的样本,DCGAN[29]使用批归一化,McGan[20]使用均值和协方差特征统计量,Salimans等人。 [33]使用迷你舱歧视。 它们都基于使用多个生成的示例。 与这些方法不同,我们添加了一个编码器网络E来获得从真实图像x到潜在空间z的映射。 因此,我们明确地建立了潜在空间与真实图像空间之间的关系。【为了解决模式坍塌,其他人提出的方法和我们提出的方法】
  • 类似于VAE,对于每个样本,编码器网络输出潜在向量的均值和协方差,即µ和ǫ。 我们使用KL损失来减少先验P(Z)与提案分布之间的差距,即
    在这里插入图片描述
  • 然后,我们可以采样潜在向量z=µr⊙exp(O),其中r∼N(0,I)是随机向量,⊙表示元素乘法。 在得到x到z的映射后,我们得到了网络G生成的图像x‘,然后在x和x之间添加了一个ℓ2重建损失和成对特征匹配损失‘
    在这里插入图片描述
  • 其中,fD和fC分别是鉴别网络D和分类网络C的中间层的特征。

3.4. Objective of CVAE-GAN

  • 我们的方法的目标是最小化以下损失函数:
    在这里插入图片描述

  • 其中每个术语的确切形式都在1-6中给出。上式的每一项都是有意义的。 LKL只与编码器网络E有关,它表示潜在向量的分布是否处于期望状态。 LG、LGD和LGC与生成网络G有关,它们分别表示合成的图像是否与输入训练样本、真实图像和同一类别内的其他样本相似。LC与分类网络C有关,它表示网络对不同类别图像进行分类的能力,LD与鉴别网络有关,它表示网络在区分真实/合成图像方面有多好。 所有这些目标是相辅相成的,最终使我们的算法能够获得优越的结果。 整个训练过程在算法1中描述。 在我们的实验中。 我们经验性地设置λ1=3,λ2=1,λ3103和λ4103。【给出总损失函数的含义】

Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第5张图片

图4. 不同生成模型的示例的结果。 蓝色点为实点,红色点为生成点。
a)真实的数据分布,就像一个“环”。
b)传统GAN、WGAN和平均特征匹配GAN在不同迭代中生成的点。

4. Analysis of Toy Example

  • 在这一部分中,我们介绍并演示了基于平均特征匹配的GAN的好处。 我们假设我们有一个真实的数据分布,它是一个“环”,如图4(A)所示)。 环的中心设置为(100,100),使其远离开始时生成的分布。 我们比较了传统的GAN、WGAN和3.1节中引入的基于平均特征匹配的GAN,以真实的数据分布。三个比较模型共享相同的设置。 发生成器G是一个MLP【多层感知器】,有3个隐藏层,分别有32、64和64个单元。 鉴别器D也是一个MLP,有3个隐藏层,分别有32、64和64个单元。 我们使用RMSProp【前向均方根梯度下降算法】和固定学习率0.00005的所有方法。 我们对每个模型进行了2M迭代训练,直到它们都收敛为止。 每个模型在不同迭代次数下的生成样本在图4中给出。从结果可以观察到:1)对于传统的GAN(图4(B)中的第一行),生成的样本只位于真实数据分布的有限区域,这就是所谓的模式崩溃问题。 这个问题在培训过程中总是存在的。 2)对于WGAN(图4(B)中的第二行),它不能在早期迭代中学习真实的数据分布,我们认为这个问题是由夹紧权重技巧引起的,这影响了D区分真实样本和假样本的能力。 我们还试图改变钳位值来加速训练过程,发现如果值太小,就会引起梯度消失问题。 如果太大,网络就会发散。 3)第三行显示了基于GAN的特征匹配结果。 它正确地学习最快的真实数据分布。【对于图4做了解释,对比了GAN、MGAN和FMGAN的学习数据分布的能力,说明了提出的均值特征匹配方法的有效性】

5. Experiments

  • 在这一部分中,我们使用实验来验证所提出的方法的有效性。 我们在三个数据集上评估我们的模型:FaceScrub[21]、102 Category Flower[24]和CUB-200[43]数据集。 这三个数据集包含三个完全不同的对象,分别是人脸、鸟类和花朵。所有实验的输入和合成图像的大小为128×128。 对于面部擦洗数据集,我们首先用JDA面部检测器[3]检测面部区域,然后用SDM[45]定位五个面部地标(两个眼睛、鼻尖和两个嘴角。 在此之后,我们使用基于面部地标的相似性变换将人脸对齐到一个规范的位置。 最后,我们裁剪了一个128×128脸区域,中心围绕鼻尖。 对于102类花卉数据集,我们根据包含花卉的地面真相掩码紧紧地裁剪一个矩形区域,然后将其调整为128×128.对于CUB-200数据集,我们只是使用数据集的原始图像。
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第6张图片

图5.在FaceScrub [21]、102个类别花卉数据集[24]和CUB-200[43]数据集上随机生成的样本的比较。 从一个类别a)9个随机真实图像。 b)CVAE的结果是模糊的,不能保持类别的同一性,c)来自传统CGAN的结果,它失去了多样性和结构信息。 d)结果从我们的平均特征匹配CGAN,显示出不同的结果,但也失去了结构信息。 e)我们的CVAE-GAN的结果,显示了现实的,多样性和类别保持的结果。

  • 在我们的实验中,编码器网络E是GoogleNet[36],在E网络的最后一个FC层将类别信息和图像合并。 该G网络由2个完全连接的层组成,然后是6个具有2乘2上采样的反卷积层。 卷积层有256、256、128、92、64和3个通道,滤波器大小为3×3、3×3、5×5、5×5、5×5、5×5。 对于D网,我们使用与DCGAN[29]相同的D网。 对于C网络,我们使用Alexnet[13]结构,并将输入更改为128×128。 我们将潜在向量维数固定为256,并发现这种配置足以生成图像。 在每个卷积层之后也应用批归一化层[11]。 利用深度学习工具箱Torch实现模型。[具体的网络结构说明]

5.1. Visualization comparison with other models

  • 在本实验中,我们比较了3.2节(FM-CGAN)中提出的基于平均特征匹配的CGAN模型和CVAE-GAN模型与其他生成模型,用于细粒度图像的图像合成。
  • 为了公平地比较每种方法,我们对所有方法使用相同的网络结构和相同的训练数据。所有网络都是从头开始训练的。 在测试阶段,网络体系结构是相同的。 三种方法都只使用网络G生成图像。 因此,虽然我们的方法在训练阶段有更多的参数,但我们认为这种比较是公平的。
  • 我们对三个数据集进行了实验:FaceScrub,102类花卉和CUB-200数据集。 我们为所有方法执行类别条件图像生成。 对于每个数据集,所有方法都使用该数据集中的所有数据进行培训。 在测试阶段,我们首先随机选择一个类别c,然后通过采样潜在向量z∼N(0,I)随机生成该类别的样本)。 对于评估,我们可视化从所有方法生成的样本。比较结果如图5所示。 所有图像都是随机选择的,没有任何个人偏见。 我们观察到由CVAE生成的图像通常是模糊的。 对于传统的CGAN,一个类别内的变化很小,这是由于模式崩溃。 对于FM-CGAN,我们观察到清晰的图像,保留了良好的身份,但有些图像失去了物体的结构,如人脸的形状。 另一方面,由所提出的CVAE-GAN模型生成的图像看起来真实和清晰,并且彼此之间没有很大的差异. 特别是视点和背景色。 我们的模型也能够保留身份信息。 表明了所提出的CVAE-GAN方法的强度。
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第7张图片

5.2. Quantitative Comparison

  • 由于[38]的概率准则的多样性,评估合成图像的质量是具有挑战性的。 我们试图用三个标准来衡量生成模型:可鉴别性、多样性和现实性。我们使用人脸图像进行这个实验。 首先,我们从CVAE、CGAN、FM-CGAN和CVAE-GAN模型中随机生成53k个样本(每个类100个)进行评估。为了测量可鉴别性,我们在真实数据上使用预先训练的人脸分类网络。 在这里我们使用GoogleNet[36]。 通过这个训练模型,我们评估了每个方法生成的样本的前1位精度。 结果见表1。 我们的模型达到了最好的顶级-1精度,与其他生成模型有很大的差距。 这证明了该方法的有效性。
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第8张图片

表1. 不同方法生成图像质量的定量结果。 详情请参阅5.2节

  • 按照[33]中的方法,我们使用初始评分来评估生成样本的真实性和多样性。 我们在CASIA数据集上训练了一个分类模型,并采用exp(ExKL(p(y|x)||p(y))作为度量生成模型的真实度和多样性的度量,其中p(y|x)表示每类生成样本的后验概率。 包含有意义对象的图像应该具有低熵的条件标签分布p(y|x)。 此外,如果模型生成不同的图像,则边缘p(Y)=Rp(Y|G(Z)DZ应该具有较高的熵。 一个更大的分数意味着生成器可以产生更真实和多样的图像。 结果见表1。 我们提出的CVAE-GAN和FM-CGAN获得了比其他模型更好的分数,这也非常接近真实数据。[提出的FMGAN和CVAE-GAN效果很好]

5.3. Attributes Morphing

  • 在这一部分中,我们验证了生成的图像中的属性将随着潜在向量不断变化。 我们称之为现象属性变形。 我们还测试了我们的模型在FaceScrub,CUB-200和102类花卉数据集。 我们首先在同一类别中选择一对图像x1和x2,然后利用编码器网络E提取潜在向量z1和z2。最后,通过线性插值得到一系列潜在向量z,即z=αz1(1∞α)z2,α[0,1]。 图6显示了属性变形的结果。 在每一行中,属性,如姿势、情感、颜色或花号,从左到右逐渐变化。

5.4. Image Inpainting

  • 在这一部分中,我们证明了我们的模型也可以应用于图像修复。 我们首先随机地破坏了原始128×128图像x的50个×50个补丁(图7b,然后将其馈送到E网络以获得潜在向量z,然后我们可以用G(z,c)合成图像x‘,其中c是类标签,然后用以下方程更新图像,即
    在这里插入图片描述
    其中M是损坏补丁的二进制掩码,⊙表示按元素计算的乘积。 所以(1-M)⊙x是原始图像中未损坏的区域。修复结果如图7©所示)。 我们应该强调,所有输入的图像都是从网站下载的,没有一个属于训练数据。 我们可以迭代地将得到的图像输入到模型中,以获得更好的结果,如图7(d,e)所示)。
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第9张图片

图7. 使用我们提出的模型CVAE-GAN-1∼10进行图像修复的结果显示了迭代1∼10的结果。

5.5. Comparing Different Combination of Losses

  • 在我们的模型中,我们建议在图像像素级、分类网络C中的特征级和鉴别网络D中使用成对特征匹配来更新网络G。为了了解每个损失分量的影响,我们将LG+LGD+LGC分离为三个部分:LG(IMG) + LG(D)+LG©,其中LG©是图像像素级的ℓ2距离,LG(D)是鉴别网络D中特征级的ℓ2距离,LG©是分类网络C中特征级的ℓ2距离。
  • 我们重复CVAE-GAN模型的训练,在LG(IMG)、LG(D)和LG©中使用不同的损失组合,并比较了重建样本的质量。 如图8所示。 我们发现,去除对抗性损失LG(D)会导致模型产生模糊图像。 移除像素级重建损失LG(IMG)会导致图像丢失细节。 最后,如果删除分类网络C中的特征级别损失LG©,生成的样本将丢失类别信息。 尽管如此,我们的模型产生了最好的结果。[通过组合不同的损失函数得到相应的效果]
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第10张图片

图8. 不同生成器G之间的可视化比较,每个训练的损失组合不同。

5.6. CVAE-GAN for Data Augmentation

  • 我们进一步表明,从我们的模型合成的图像可以用于数据增强,以训练更好的人脸识别模型。 我们使用Face Scrub数据集作为训练数据,并使用LFW[16]数据集进行测试。
  • 我们实验了两种数据增强策略:1)为训练数据集中的现有身份生成更多的图像;2)通过混合不同的身份来生成新的身份。 我们测试这两种数据增强方法。 对于1),我们为每个人随机生成大约200幅图像.总共100K图像。 对于2),我们通过随机混合三个不同现有标识的标签来创建5k新标识,并为每个新标识生成100个图像。 对于这两种策略,生成的图像与Facescrub数据集相结合,以训练人脸识别模型。
  • 在测试阶段,我们直接使用特征的余弦相似度来度量两个人脸之间的相似性。 在表2中,我们比较了LFW数据集上的人脸验证精度,以及是否有额外的合成人脸。 随着新身份的数据增强,我们实现了大约1.0%的精度比没有增强。 这说明我们的生成网络具有一定的扩展能力。
    Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记_第11张图片

数据增强的结果

6、conclusion

  • 本文提出了一种用于细粒度类别图像生成的CVAE-GAN模型。 在三个不同的数据集上的优越性能表明了生成各种对象的能力。 该方法可以支持多种应用,包括图像生成、属性变形、图像修复和数据增强,以训练更好的人脸识别模型。 我们未来的工作将探索如何生成未知类别的样本,例如训练数据集中不存在的人的面部图像。

你可能感兴趣的:(论文阅读,AI换脸,视频换脸)