SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读

题目:Segattingan:关注分割的文本到图像生成
时间:2020.5
作者:苟玉川,吴千城,李明浩,龚柏,韩梅
被 CVPR 2020 的 AI 内容创作研讨会录取

Abstract

在本文中,我们提出了一种新的生成网络(SegAttnGAN),它利用额外的分割信息来完成文本到图像的合成任务。由于引入到模型中的分割数据为生成器训练提供了有用的指导,因此与以往的先进方法相比,该模型可以生成更逼真的图像,并具有更高的量化度量。我们在CUB数据集和Oxford-102数据集上的初始得分分别为4.84和3.52。此外,我们还测试了self-attenting SegAttnGAN,它使用生成的分割数据而不是来自数据集的masks来进行注意,并获得了类似的高质量结果,这表明我们的模型可以适用于文本到图像的合成任务。

1.Introduction

  1. 研究现状:基于语义描述生成高保真、逼真的图像是许多应用程序的核心任务。很多研究都集中在文本到图像合成任务上,该任务采用自然语言描述生成与文本匹配的图像。该任务的许多模型使用生成性对抗网络(GAN),以文本输入为条件,而不是高斯噪声来生成图像。
  2. 现有模型存在的问题:尽管像这样的模型在保持图像文本一致性的同时实现了令人满意的视觉质量,但除了唯一约束对象形状的特定关键字外,对生成图像的布局几乎没有控制。这些模型通常会生成形状变形的对象或布局不切实际的图像(见图1和图3)。
    SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第1张图片
  3. 最近的工作表明,当分割数据的空间注意力用于指导图像生成时,图像合成任务可以获得良好的结果。为了解决变形的形状和不切实际的布局问题,我们设计了SegAttnGAN,它利用分割来增加文本输入之外的全局空间注意力。我们希望空间信息能够调整生成图像的布局,从而创建更逼真的图像。实验表明,当使用额外的分割信息来指导图像生成时,将获得令人满意的结果。
  4. 本文的贡献总结如下:
    (1)我们提出了一种新的生成网络,它利用文本和空间注意来生成真实的图像。
    (2)我们验证了在GAN中加入空间注意机制可以通过调节物体形状和图像布局显著提高视觉真实感。
    (3)我们构建了一个自注意网络,首先生成分割masks,然后使用它生成图像。基于定性结果,自注意模型也能很好地约束对象的形状

2.Related Work

  1. 由于文本图像合成在许多应用中发挥着重要作用,人们提出了不同的文本到图像的合成技术。Reed等人利用PixelCNN从文本描述生成图像。Mansimov等人提出了一个在画布上迭代绘制补丁,同时注意描述中的相关单词的模型,Nguyen等人使用近似的Langevin采样方法生成以文本为条件的图像。
  2. 自从Goodfellow等人引入生成性对抗网络(GAN)以来,人们对不同类型的GAN的图像生成任务进行了广泛的研究,并取得了高质量的结果。与此同时,研究人员也开始将GAN技术应用于文本到图像合成任务。Reed等人提出了一种条件GAN,用于根据详细的文本描述生成鸟和花的图像,他们并向条件GAN添加了对象位置控制。Zhang等人提出了StackGAN从文本生成图像。StackGAN由第一阶段和第二阶段的GAN组成,第一阶段GAN生成低分辨率图像,第二阶段GAN生成高分辨率图像。与句子层面上的StackGAN相比,Xu等人提出的AttnGAN在句子层面和单词层面上发展了条件作用,旨在从文本描述中生成细粒度的高质量图像。Zhang等人提出了一种用于文本到图像合成的分层嵌套GAN。乔等人提出了MirrorGAN,以实现视觉真实感和语义一致性。Hong等人和Li等人都以从粗到精的方式专注于文本到图像的合成任务。但他们的重点是通过在全局或对象级别设计双向LSTM来实现单词嵌入模块和对象级别的识别。而我们的重点在于具有注意机制的生成器,可以有效地约束给定分割图的对象边界。
  3. 语义信息为图像生成提供了有用的指导。它被引入以不同的格式作为输入。之前有些工作中的作品在图像到图像的转化中使用了边缘映射作为指导。Karacan等人和Park等人在图像生成中使用语义布局作为指导。我们的工作不同于这些工作,因为我们将语义的masks应用于文本到图像的合成任务,而他们的工作是处理图像到图像的转化或图像生成。

3.SegAttnGAN for text-to-image synthesis

3.1SegAttnGAN architecture

文本到图像的生成模型通常将整个句子的文本描述编码为一个条件向量。AttnGAN还提出了一个单词注意模型,该模型有助于根据单词生成不同的图像。如图2所示,我们在SegAttnGAN采用了这种机制和一个LSTM文本编码器来提取单词特征和句子特征。句子特征与随机潜在向量连接,单词特征被用作单词级注意。
SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第2张图片

3.2Segmentation attention module

  1. 分割注意模块通过保持输入语义图的空间约束来增强图像合成。Park等人已经证明了它的有效性,我们使用同样分割注意力模块机制。
  2. 数学上,我们将F定义为前一层的特征,将S定义为输入分割图。这个保持空间约束的注意力模块的输出可以用方程1表示:
    分割注意模块的输出表示
    其中BN()是批规范化函数,而Conv()是卷积函数。该函数的核心是保留分割模板的空间信息。这与超分辨率任务中的注意力模块非常相似。该模型采用从粗到精的策略,在每个上采样图中引入语义图注意,从而避免了纯上采样层对语义的消除。

3.3Segmentation mask strategies

  1. 当我们应用不同的分割masks的策略时,我们有两种不同的模型。第一个模型名为SegAttnGAN,使用数据集中预先存在的masks作为注意力输入。另一个名为自注意SegAttnGAN,使用自注意生成器生成的masks。
  2. 自注意生成器生成分割masks,并使用相应的鉴别器进行训练。与SegAttnGAN一样,它采用从粗到精的训练策略,分辨率从6464、128128到256*256。自注意生成器将来自SegAttnGAN的相同z向量和文本嵌入向量作为输入。在每个分辨率级别,都有一个用于训练的鉴别器。

3.4Objective

  1. 对于生成性对抗网络,具有条件输入的经典目标函数是等式2中定义的生成器和鉴别器之间的最小-最大博弈 :
    生成性对抗网络的目标函数定义
    其中,x表示来自真实数据分布的图像,z表示驱动伪数据生成的随机潜在向量。t和s分别指文本和分割输入。
  2. 因此,生成器的损失函数在方程式3中定义:
    生成器的损失函数定义
    其中,第一项是确定图像是真是假的无条件损失,而第二项是条件丢失,确定生成的图像是否与文本描述匹配。
  3. 鉴别器D_i的损失函数定义如等式4所示:
    SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第3张图片
    其中前两项对应于优化鉴别器的无条件损失,而后两项对应于条件损失。
  4. 对于自注意SegAttnGAN,我们将自注意生成器定义为G_s。我们用G_s(z,t)代替方程3和4中的s来定义G损失和D损失。总损失在方程式5中定义:
    SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第4张图片

3.5Implementation details

如图2所示,SegAttnGAN中的生成器输出64∗ 64, 128 ∗ 128, 256 ∗ 256的图片。首先,我们将分割mask处理成标签图(每个通道包含不同的对象)。在生成器的每个上采样层,我们将分割标签图映射降采样为与生成器中当前隐藏特征相同的分辨率张量。然后,在之前的上采样操作之后,我们应用了注意模块。文本和图像编码器采用了来自AttnGAN的相同实现。对于自注意SegAttnGAN,自注意的生成器没有单词特征。文本嵌入维度设置为256,损失权重λ设置为5.0。生成器和鉴别器使用beta_1=0.5且学习率为0.0002的ADAM解算器。

4.Experiments

4.1Dataset

我们使用CUB和Oxford-102数据集来评估我们提出的方法。CUB数据集包含200个类别的不同鸟类的图像。我们使用该数据集中的8841张图像进行训练,2947张图像进行测试。Oxford-102是另一个由花的图像组成的数据集。从这个数据集中,我们选择6141张图像进行训练,2047张图像进行测试。

4.2Evaluation metrics

我们使用两种定量测量来评估生成的图像。
第一个指标是初始分数,它已被广泛用于评估生成图像的质量。
另一个指标是R-精度,作为文本到图像合成任务的补充评估指标,以确定生成的图像是否良好地依赖于给定的文本描述。

4.3Quantitative results

初始分数:我们用生成的图像计算初始分数,并将其与其他最先进的方法进行比较。CUB和Oxford-102数据集的比较如表1所示。我们的模型SegAttnGAN 在CUB和Oxford-102数据集上都获得了最高的初始分数。与基线模型AttnGAN相比,我们的SegAttnGAN 将CUB数据集的初始得分从4.36提高到4.82。此外,我们的自注意SegAttnGAN 在CUB和Oxford-102上分别获得了4.44分和3.34分。
SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第5张图片
R-精度分数:如表2所示,我们的SegAttnGAN和自注意SegAttnGAN与AttnGAN相比也获得了良好的R-精度分数。SegAttnGAN分数几乎与AttnGAN的分数相同,表明SegAttnGAN可以生成与输入文本描述一致的图像。MirrorGAN的R-精度得分最高,因为它包含一个用于提高语义一致性的模块。
SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第6张图片

4.4Qualitative results

在图3(a)中,我们展示了AttnGAN和我们的模型生成的一些样本。如图所示,与基线模型AttnGAN相比,我们的SegAttnGAN生成的结果具有更好的对象形状。尽管自注意SegAttnGAN使用生成的分割masks,但它可以约束对象的形状,生成比AttnGAN更好的图像。图3(b)显示了示例,说明了形状和文本如何约束CUB和Oxford-102数据集上SegAttnGAN的输出图像。如图所示,与颜色相关的单词,如红色和紫色,会导致不同颜色的结果。生成的图像中与输入masks匹配的对象形状表明,分割图可以很好地控制对象形状。
SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读_第7张图片

4.5Limitation and discussion

与其他方法相比,SegAttnGAN表现良好,初始得分最高,但该模型在推理阶段需要分段输入。我们的自注意SegAttnGAN只需要在训练阶段使用分割数据,并且在对象形状约束的帮助下,与其他模型相比,它获得了更好的视觉效果。但它的初始评分显示,它的结果得到了与AttnGAN的图像客观性和多样性。

5.Conclusion

  1. 在本文中,我们提出了用于文本到图像合成任务的SegAttnGAN,它使用分割注意来约束GAN训练,并且与其他最先进的方法相比,成功地生成了质量更好的图像。
  2. 使用数据集的分割masks作为输入,我们的SegAttnGAN在CUB和Oxford-102数据集上都获得了最高的初始分数。当masks通过我们的自注意生成器生成时,与其他最先进的方法相比,我们的自注意SegAttnGAN也能生成具有更好视觉真实感的结果。

你可能感兴趣的:(计算机视觉,深度学习,人工智能)