题目

Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

摘要

本文提出了一种基于语义布局的层次化文本图像合成方法。该算法不是学习从文本到图像的直接映射，而是将生成过程分解为多个步骤，首先通过布局生成器从文本中构造语义布局，然后通过图像生成器将布局转换为图像。所提出的布局生成器通过生成对象边界框并通过估计框内的对象形状来细化每个框，以从粗到细的方式渐进地构建语义布局。图像生成器根据推断出的语义布局合成图像，该语义布局提供与文本描述匹配的图像的有用语义结构。我们的模型不仅生成语义上更有意义的图像，而且允许通过修改生成的场景布局来自动注释生成的图像和用户控制的生成过程。我们证明了该模型在挑战MS-COCO数据集上的能力，并且表明该模型可以显著地改善图像质量、输出的可解释性以及对输入文本的语义对齐。

简介

从文本描述生成图像一直是计算机视觉中一个活跃的研究课题。通过允许用户用自然语言描述视觉概念，它为图像生成提供了自然而灵活的接口。近年来，基于条件生成对抗网络（GAN）的文本到图像合成任务显示出良好的结果[21，34，23]。通过对文本的生成器和鉴别器进行调节，这些方法能够生成既不同又与输入文本相关的真实图像。基于条件GAN框架，最近提出的方法通过生成高分辨率图像[34]或增强文本信息[6，4]来进一步提高预测质量。然而，现有方法的成功主要局限于简单的数据集，如鸟类[33]和花[17]，而生成复杂的真实世界。

然而，现有方法的成功主要局限于简单的数据集，如鸟类[33]和花[17]，而生成复杂的、真实世界的图像，如MS-COCO[13]仍然是一个公开的挑战。如图1所示，从句子“人们骑着大象穿过河流”生成图像需要对多种视觉概念进行多种推理，比如对象类别（人和大象）、对象的空间配置（骑马）、场景上下文（穿过河流）等等。这比在simpler数据集[33，17]中生成单个的大对象更复杂。由于从一般图像学习直接文本到像素映射的复杂性，现有方法无法为这种复杂的文本描述生成合理的图像。

与学习从文本到图像的直接映射不同的是，我们提出了一种替代方法，将语义布局构造为文本和图像之间的中间表示。语义布局基于对象实例定义场景的结构，并提供场景的细粒度信息，如对象的数量、对象类别、位置、大小、形状等（图1）。通过引入显式地将图像语义结构与文本对齐的机制，该方法可以生成匹配复杂文本描述的复杂图像。此外，根据语义结构调整图像生成允许我们的模型生成语义上更有意义的图像，这些图像易于识别和解释。

我们的层次化文本到图像合成模型包括两部分：布局生成器，从文本描述构造语义标签映射；图像生成器，通过考虑文本将估计的布局转换为图像。由于学习从文本到细粒度语义布局的直接映射仍然是一个难题，因此我们将任务进一步分解为两个可管理的子任务：首先使用框生成器估计图像的边界框布局，然后使用形状生成器细化框内的每个对象的形状。然后，生成的布局用于指导图像生成器进行像素级合成。盒子生成器、形状生成器和图像生成器由独立的神经网络实现，并与相应的监督并行训练。

生成语义布局不仅提高了文本到图像合成的质量，而且提供了许多潜在的好处。首先，语义布局在生成的图像上提供基于实例的注释，这些注释可以直接用于自动场景解析和对象重新筛选。其次，为控制图像的生成过程提供了一个交互式界面，用户可以通过删除/添加对象、改变对象的大小和位置等方式修改精简布局，生成期望的图像。

这篇文章的贡献如下：
本文提出了一种从复杂文本描述合成图像的新方法。该模型从文本描述出发，明确构建语义布局，并利用推理出的语义布局指导图像生成。

通过在显式布局预测上调节图像生成，我们的方法能够生成语义有意义且与输入描述良好对齐的图像。

我们对具有挑战性的MS-COCO数据集进行了广泛的定量和定性评估，并证明与现有工程相比，生成图像质量显著提高。

论文的其余部分组织如下。我们简要回顾了第二节中的相关工作，并提供了第三节中建议的方法的概述。我们的布局和图像生成模型分别在第4节和第5节中介绍。我们在第六节讨论了MS-COCO数据集上的实验结果。

综述

建议的框架的整个流水线如图2所示。给定文本描述，我们的模型通过利用以下生成序列细化图像的语义结构来逐步构建场景：

边界框生成器以文本嵌入s作为输入，并通过在图像中按原样组合对象来生成粗略布局。框生成器的输出是一组边界框B 1:T={B 1，...，B T}，其中每个边界框B t定义第t个对象的位置、大小和类别标签。

形状生成器从框生成器中获取一组边界框，并预测框内的对象的形状。形状生成器的输出是一组二进制掩码M 1:T={M 1，...，M T}，其中每个掩码M T定义第t个对象的前景形状。

图像生成器采用通过聚合实例化掩码获得的语义标签映射M和文本嵌入作为输入，并通过将语义布局转换为匹配文本描述的像素来生成图像。

从文本中推断语义布局

边界框生成

给定输入文本嵌入s，我们首先以目标边界框的形式生成图像的粗略布局。我们将每个边界框B t与一个类标签相关联，以定义要放置的对象的类和位置，这对于确定场景的全局布局起着关键作用。特别地，我们将第t个对象的标记边界框表示为B t=(b t，l t)，其中b t=[b t，x，b t，y，b t，w，b t，h]∈R 4表示边界框的位置和大小，并且l t∈{0，1}L+1是L类上的一个热类标签。我们保留第(L+1)类作为序列末尾的特殊指示符。

边界框生成器G框定义从输入文本s到一组T对象边界框B 1:T={B 1,...,B T}的随机映射：

训练。我们通过最小化真值边界框的负对数可能性来训练盒生成器：

在测试时，我们分别通过等式（2）和（3）对框坐标和类标签进行祖先采样来生成边界框。当采样的类标签对应于终止指示符（L+1）时，我们终止采样，从而基于文本自适应地确定对象的数量。

形状生成器

给定由边界框生成器获得的一组边界边界框，形状生成器以对象掩码的形式预测更详细的图像结构。具体地，对于由等式（1）得到的每个对象包围盒B t，我们生成一个二进制掩码MT∈R H×W，它定义了盒内对象的形状。为此，我们首先将离散边界盒的输出{B t}转换为二元张量B t∈{0，1}H×W×L，其元素是1当且仅当它包含在相应的类标号盒中。使用符号M 1:T={M 1，...，M T}，我们将形状生成器G掩码定义为

生成精确的对象形状应满足两个要求：（i）首先，每个实例式掩模MT都应该匹配B t的位置和类信息，并且可以识别为单个实例（实例式约束）。(ii)第二，每个物体形状必须与其周围环境(全局约束)对齐。为了满足两者，我们将形状发生器设计成递归神经网络，该神经网络通过如下描述的两个条件对抗损失进行训练。

模型。我们使用卷积递归神经网络[25]构建形状生成器G掩码，如图2所示。在每个步骤t，模型通过编码CNN取B t，并通过双向卷积LSTM(Bi-convLSTM)对所有对象实例的信息进行编码。在第t步的convLSTM输出之上，通过空间平铺和连接来添加噪声z t，并通过解码器CNN转发来生成掩码MT。

训练。形状生成器的训练基于GAN框架[7]，其中发生器和鉴别器交替训练。为了执行前面讨论的全局约束和实例约束，我们使用两个条件对抗性损失[15]，其中实例鉴别器D inst和全局鉴别器D.。

首先，我们鼓励每个对象掩码与由对象边界框编码的类和位置信息兼容。我们通过优化下列实例的对抗损失来训练实例鉴别器D inst：

另一方面，全局丢失鼓励所有基于实例的掩码形成全局一致的上下文。为了考虑不同对象之间的关系，我们将它们聚合为一个全局掩码1G全局(B 1:T，z 1:T)=P(t)t G掩码(B 1:t，z 1:t)，并计算类似于等式(6)的全局对抗损失。

最后，我们另外强加一个重建损失L rec，它鼓励预测的实例掩码与地面事实相似。我们使用感知损耗[11,3,31,2]来实现这个想法，它测量在预训练CNN的特征空间中真实图像和伪图像的距离。

结合等式(6)、(7)和(8)，形状生成器的总体训练目标变为

从文本和布局中合成图像

布局生成器的输出定义对象的位置、大小、形状和类信息，这些信息提供与文本相关的场景的语义结构。给定语义结构和文本，图像生成器的目标是生成符合这两种条件的图像。为此，我们首先将二进制对象掩码M 1:T聚集到一个语义标签映射M∈{0，1}H×W×L，使得M i j k=1当且仅当存在掩码M T覆盖像素(i，j)的k类对象。然后，给定语义布局M和文本s，图像生成器被定义为

模型。图3说明了图像生成器的总体架构。我们的发生器网络是基于卷积编译码器网络[10]，经过若干修改。首先通过几个下采样层对语义布局M进行编码，构造布局特征A∈R h×w×d。我们考虑布局特征沿通道维度对输入布局的各种上下文信息进行编码。为了自适应地选择与文本相关的上下文，我们将注意力放在布局特征上。具体地，我们从文本嵌入中计算一个d维向量，并在空间上复制它来构造S∈R h×w×d。然后，我们用A g=A_(S)对布局特征进行门控，其中是sigmoid非线性度，而_表示元素乘法。为了进一步对背景中的文本信息进行编码，我们计算另一个嵌入有独立全连通层的文本，并将其空间复制到大小h×w上，然后将栅极布局特征A g、文本嵌入和噪声沿通道维进行级联，然后依次馈入多个剩余块并解码。der被映射到图像。我们采用级联网络[3]作为解码器，将语义布局M作为每个上采样层的常规输入。我们发现，级联网络增强了对布局结构的调节，产生了更好的对象边界。

对于鉴别器网络D img，我们首先将生成的图像X和语义布局M连接起来，通过一系列下采样块进行馈电，得到大小为h′×w′的特征图。我们将其与空间平铺的文本嵌入连接起来，从中我们计算鉴别器的决策得分。

训练。在[20]所提取的语义布局M和文本嵌入s的条件下，图像生成器G img与鉴别器D img联合训练。我们用L img=λaLadv+λrLrec定义目标函数，其中

实验

实验装置

数据集。我们使用MS-COCO数据集[13]来评估我们的模型。它包含超过80个语义类的164000个训练图像，其中每个图像与逐个实例的注释（即，对象边界框和分割掩码）和5个文本描述相关联。数据集具有复杂场景，其中许多对象在不同的上下文中，这使得生成非常具有挑战性。我们分别使用MS-COCO 2014的正式训练和验证片段来训练和评价我们的模型。

评估度量。我们使用各种度量来评估文本条件图像生成性能：初始评分、标题生成和人类评价。

初始分数-我们通过对合成图像应用预先训练的分类器并调查其得分分布的统计来计算初始分数[24]。它测量生成的图像的可识别性和多样性，并且已知与人们对视觉质量的感知相关[18]。我们使用ImageNet[5]上预训练的Inception-v3[27]网络进行评估，并测量所有验证图像的得分。

字幕生成-除了初始评分，评估文本条件图像生成的性能需要测量生成的图像与输入文本的相关性。为此，我们从合成图像中生成句子，并测量输入文本和预测语句之间的相似度。基本的直觉是，如果生成的图像与输入文本相关，并且其内容是可识别的，那么应该能够从合成图像中猜测原始文本。我们使用在MS-COCO上训练的图像字幕生成器[30]来生成句子，其中每个图像通过贪婪解码生成一个句子。我们报告了三种标准的语言相似性度量：BLEU[19]、METEOR[1]和CIDER[28]。

人类评价-基于字幕生成的评价对大规模评价是有益的，但是可能引入字幕生成器的意外偏倚。为了验证基于字幕的评估的有效性，我们使用AmazonMachineryTurk进行人性化评估。对于从MS-COCO验证集中随机选择的每个文本，我们给出了用不同方法生成的5幅图像，并要求用户根据生成的图像与文本的相关性对它们进行排序。我们收集了1000个句子的结果，每个句子由5个用户注释。我们根据每种方法被评为最佳方法的比率，以及我们与基线的一对一比较来报告结果。

定量分析

我们将我们的方法与基于条件GAN的两种最新方法[21，34]进行比较。表1和表2总结了定量评价结果。

与其他方法的比较。我们首先给出基于初始评分和字幕生成性能的系统评估结果。结果总结在表1中。所提出的方法显著优于基于两个评估度量的现有方法。在初始评分方面，我们的方法以相当大的优势优于现有的方法，可能是因为我们的方法生成了更多可识别的对象。字幕生成性能表明，从合成图像中生成的字幕与输入文本的关联性比基线更强。这表明，我们的方法生成的图像与去脚本更好地对齐，并且更容易识别语义内容。

表2总结了基于人类评价的比较结果。当要求用户根据图像与输入文本的相关性对图像进行排序时，他们选择由我们的方法生成的图像作为所有呈现文本的大约60%中的最佳，这大大高于基线（约20%）。这与表1中的字幕生成结果一致，在表1中，我们的方法的性能显著优于基线，而它们的性能是可比的。

图4说明了定性比较。由于通用的训练，由其他方法生成的图像，尤其是StackGAN[34]，趋向于清晰并显示高频细节。然而，由于图像往往不能预测物体和场景的重要语义结构，因此很难从图像中识别出内容。作为结果，从生成的图像中重构的标题通常与输入文本不相关。与它们相比，我们的方法通过利用推断的语义布局来调节生成的条件，从而生成更加可识别和语义有意义的图像，并且能够重构与输入句子更好地对齐的描述。

烧蚀分析。为了理解预测的语义布局的质量及其重要性，我们用基本事实逐步替换布局生成器预测的边界框和掩模布局，进行消融研究。表1总结了定量评估结果。正如它显示的，将预测的布局替换为基本事实将导致逐渐的性能改进，这显示了边界框和掩码布局中的预测错误。

定性分析

图5显示了我们方法的定性结果。对于每个文本，我们将生成的图像与预测的语义布局一起呈现。与前一节一样，我们还给出了以基本事实布局为条件的结果。如它所示，我们的方法生成合理的语义布局和匹配输入文本的图像；生成与文本中嵌入的细粒度场景结构（即对象类别、对象数量）相对应的边界框，以及捕获特定于类的视觉属性以及与其他对象的关系的对象掩码。根据推断的布局，我们的图像生成器生成正确的对象外观和与文本兼容的背景。用基本事实替换预测的布局使得生成的图像具有与原始图像类似的上下文。

样本的多样性。为了评估生成中的多样性，我们在固定输入文本的同时对多个图像进行采样。图6说明了我们的方法生成的示例图像。我们的方法根据相同的文本描述生成不同的语义结构，同时保留语义细节，如对象数量和对象类别。

文本条件生成。为了了解我们的模型在生成过程中如何结合文本描述，我们在修改部分描述的同时生成图像。图7说明了示例结果。在改变对象类别、对象数量、对象空间组成、背景模式等描述上下文时，该方法根据文本修改后的部分正确地调整语义结构和图像。

可控制图像生成。我们通过修改边界框布局来演示可控图像生成。图8说明了示例结果。我们的方法基于修改后的语义布局（例如，添加新对象、改变对象的空间配置）更新对象形状和上下文，并生成合理的图像。

结论

我们提出了一种文本到图像的合成方法，它显式地推断和利用语义布局作为文本到图像的中间表示。我们的模型通过一系列生成器以从粗到细的方式分层地构建语义布局。通过将图像生成条件限定在显式布局预测上，我们的方法生成了保留语义细节并且与文本描述高度相关的复杂图像。我们还表明，所预测的布局可以用于控制生成过程。我们相信，对布局和图像生成的端到端的训练将是今后有趣的工作。