【研究生工作周报】(SemanticStyleGAN)

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing

CVPR2022 面向可控图像合成和编辑的组合生成先验学习


项目主页: https://semanticstylegan.github.io/
论文链接: https://arxiv.org/abs/2112.02236

文章目录

  • SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
  • 摘要
  • 背景
  • 相关工作
    • 1.整体框架
    • 2. 语义感知生成器
    • 3. 双分支判别器
  • 实验结果
  • 总结


摘要

最近的研究表明,StyleGANs为图像合成和编辑的下游任务提供了有希望的先验模型。然而,由于StyleGANs的潜代码旨在控制全局样式,很难实现对合成图像的细粒度控制。本文提出SemanticStyleGAN,一个生成器被训练成单独建模局部语义部分,并以组合方式合成图像。不同局部区域的结构和纹理由相应的潜码控制。实验结果表明,该模型提供了不同空间区域之间的强解缠性。当与为StyleGANs设计的编辑方法相结合时,它可以实现更细粒度的控制来编辑合成或真实的图像。该模型还可以通过迁移学习扩展到其他领域。因此,作为具有内置解缠的通用先验模型,它可以促进基于gan的应用程序的开发,并实现更多潜在的下游任务。

背景

近年来,生成对抗网络(GANs)在图像合成方面取得了令人瞩目的进展,它可以从潜在空间中的随机码生成更具真实感图像。 这些模型通过充当神经渲染器,为下游任务提供了强大的生成先验。 然而,它们的合成过程通常是随机的,没有用户控制自然承诺。 因此,利用生成先验来实现可控的图像合成和编辑仍然是一个具有挑战性的问题。

(神经渲染:通过深度的图像或视频生成方法,实现对一些场景属性的显式或隐式控制,例如照明、相机参数、姿势、几何、外观和语义结构)

在这种生成先验中,最著名的工作之一是Stylegan,其中每个生成的图像都以一组从粗到细的潜在代码为条件(参见图2)。 然而,这些潜码的含义仍然相对模糊。 一个重要的问题在于它的潜在空间是基于图像尺度来分解的,这使得StyleGAN擅长做全局风格的控制,却不利于局部编辑。

针对这个问题,本文提出了一种以可控方式合成图像的新型生成对抗网络模型——SemanticStyleGAN。与以往的GAN网络不同,它的潜在空间是基于语义分割掩码定义的语义部分进行分解的。每个语义部分都用相应的局部潜码单独调制,并通过组合局部特征图来合成图像。该模型能够使得潜在空间在不同的语义局部上解纠缠,进而实现局部的风格变换。

【研究生工作周报】(SemanticStyleGAN)_第1张图片

下图展示了本文模型的合成结果,最左侧一列是原始图像,最上面一行是想要从中迁移局部特征的图像,例如背景、皮肤、眼睛等。以最后一列的“Hair”为例,合成的图像只改变了头发这一个特征,而其他不相关的区域特征则保持不变。

相关工作

1.整体框架

【研究生工作周报】(SemanticStyleGAN)_第2张图片

  • 首先,一个8层MLP将随机采样的向量 z 映射到中间潜码 w

  • 然后,引入K个局部生成器 ,利用潜码 w 对不同的语义部分进行建模,每个局部生成器 g 以傅里叶特征为输入,输出一个特征图 f 和一个伪深度图 d

  • 然后将它们融合成一个全局特征图 f 和一个粗粒度分割掩码 m 用于图像合成;

  • 渲染网络R接收来自局部生成器的融合结果,并输出RGB图像和相应的细粒度语义分割掩码m’

  • 最后,双分支判别器对RGB图像和语义分割掩码的联合分布进行建模,完成对抗生成。

2. 语义感知生成器

这里设计了一个语义感知生成器,它直接将不同的局部区域与潜在代码关联起来,这些代码可以用来编辑局部结构和纹理。回顾之前的StyleGANs,为了处理非线性分布的数据,Z 首先被MLP映射成的潜码 w。 然后,这个W空间被扩展成控制不同分辨率下输出样式的**W+**空间,但这些隐码与样式的关系没有明确的定义,很难单独使用。
【研究生工作周报】(SemanticStyleGAN)_第3张图片
SemeticStyleGAN提出的生成器,它的W+空间针对不同的语义区域是分离的。
【研究生工作周报】(SemanticStyleGAN)_第4张图片

  • 局部感知生成器

一个8-layer MLP完成从latent code z 到 latent code w的映射,引入K个局部生成器根据输入的w对K个语义分区建模。在训练期间,样式混合在 w b a s e w^{base} wbase, w s k w^{k}_{s} wsk, w t k w^{k}_{t} wtk之间的每个局部生成器中独立进行,这可以确保不同语义分区和不同形状纹理的合成协同进行。
【研究生工作周报】(SemanticStyleGAN)_第5张图片
【研究生工作周报】(SemanticStyleGAN)_第6张图片

  • 特征聚合(融合局部特征图和局部伪深度图)

【研究生工作周报】(SemanticStyleGAN)_第7张图片
聚合的特征图F包含了关于输出图像的所有信息,并喂给R中进行渲染。

  • 渲染网络
    1)渲染网络R类似于原始的StyleGan2生成器,只是做了一些修改。 首先,它不使用调制卷积层,输出完全取决于输入特征映射。
    2)其次,我们在16×16和64×64分辨率下输入特征图,其中在64×64分辨率下进行特征级联。 低分辨率特征图的额外输入允许不同部分之间更好的混合。
    3)由于Softmax输出与实际分割掩模之间的固有差距,直接用M进行训练是困难的。 因此,除了在每个卷积层之后的ToRGB分支之外,我们还有一个额外的ToSeg分支,效仿SemanticGAN中,用于输出残差,以将粗分割掩模m细化为最终的掩模
    y ^ = u p s a m p l e ( m ) + Δ m \hat{y} = upsample(m) + \Delta{m} y^=upsample(m)+Δm
    其大小与输出图像相同。 这里需要考虑regularization,使得最终掩模不会与粗粒度掩模偏离太多。
    在这里插入图片描述

3. 双分支判别器

How to ensure the semantic meanings of these areas?

用一个双分支鉴别器 D : X × Y → R D:X × Y→R D:X×YR 来模拟联合分布 P ( X , Y ) P(X,Y) P(XY)来监督合成后局部语义分区的形状。

为了对联合分布P(x,y)进行建模,判别器需要同时将RGB图像和分割掩码作为输入。 我们发现,由于分割掩模上的梯度幅度很大,简单的拼接是不起作用的。 因此,我们提出使用双分支鉴别器D(x,y),它对x和y分别具有两个卷积分支。 然后对全连接层的输出进行汇总。 这样的设计允许我们用额外的R1正则化损失 L R 1 s e q L_{R1_{seq}} LR1seq单独正则seq_branch的梯度范数。 得到的训练框架损失函数:
L a l l = L S t y l e G A N 2 + λ m a s k L m a s k + λ R 1 s e g L R 1 s e g L_{all} = L_{StyleGAN2} + λ_{mask}L_{mask} + λ_{R1_{seg}} L_{R1_{seg}} Lall=LStyleGAN2+λmaskLmask+λR1segLR1seg

其中 L s t y l e G A N 2 L_{styleGAN2} LstyleGAN2表示在原始StyleGAN2中使用的损失函数。

实验结果

【研究生工作周报】(SemanticStyleGAN)_第8张图片
【研究生工作周报】(SemanticStyleGAN)_第9张图片

另一个问题是我们的模型能否应用于这些重构图像上的局部编辑。 在这里,我们采用了针对StyleGAN2提出的两种流行的编辑方法:InterfaceGAN和StyleFlow。 这两种方法都需要生成一组假图像并标记它们的属性来训练一个潜在的操作模型。InterfaceGAN学习线性支持向量机,而StyleFlow使用conditional continuous normalizing flow来建模潜在的属性操作。
【研究生工作周报】(SemanticStyleGAN)_第10张图片【研究生工作周报】(SemanticStyleGAN)_第11张图片


总结

本文提出了一种新型的GAN图像可控合成方法。 通过局部生成器的设计、掩码特征聚合以及图像与分割掩码的联合建模,可以分别对不同语义区域的结构和纹理进行建模。 实验表明,该方法能够在消除局部纠缠的同时合成出高质量的图像。 通过将我们的模型与其他编辑方法相结合,我们可以用一个更细粒度的控件来编辑合成的图像。 实验还表明,我们的模型可以适应于仅有图像的数据集,同时保持解纠缠能力。 我们相信,所提出的方法为可控图像合成提供了一个新的有趣的GAN先验方向,可以为许多潜在的下游任务提供线索。

  • 局限性
    适用的数据集
    尽管我们已经证明了我们的方法可以应用于人脸照片以外的其他领域,但仍存在监督学习带来的局限性。 由于我们需要为每个语义类构建一个局部生成器,因此该方法不会扩展到具有太多语义类的数据集。 此外,为了提高生成质量,我们将SemanticGan[40]的半监督框架改为全监督框架,这限制了我们的模型只能从头开始在仅有图像的数据集上训练。
    解耦效果
    由于位姿、形状和纹理之间的分离只能通过局部生成器中的层分离设计来实现,我们看到它们之间的界限有时仍然模糊不清。但本文主要关注不同语义部分之间的空间解耦,我们相信在未来可以引入额外的正则化损失或架构调整来更好地解耦这些信息。

你可能感兴趣的:(计算机视觉,人工智能,深度学习)