(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线

DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis

公众:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)

目录

0. 摘要

1. 简介

2. 相关工作

3. DF-GAN

3.1 模型概述

3.2 一阶段文本到图像骨干

3.3 目标感知鉴别器

3.3.1 匹配感知梯度惩罚

3.3.2 单路输出

3.4 高效的文本-图像融合

4. 实验

4.1 定量评估

4.2 定性评估

4.3 消融研究

4.4 局限性

5. 结论和未来工作

S. 总结

S.1 主要贡献

S.2 架构和方法


0. 摘要

合成高质量逼真图像从文本描述中是一项具有挑战性的任务。现有的文本到图像生成对抗网络通常采用堆叠式架构作为骨干,但仍然存在三个缺陷。首先,堆叠式架构引入了不同图像尺度生成器之间的纠缠。其次,现有研究倾向于在文本-图像语义一致性的对抗学习中应用和固定额外的网络,这限制了这些网络的监督能力。第三,由先前作品广泛采用的基于跨模态注意力的文本-图像融合由于计算成本的原因在一些特殊图像尺度上受到限制。为此,我们提出了一个更简单但更有效的深度融合生成对抗网络(Deep Fusion Generative Adversarial Networks,DF-GAN)。具体而言,我们提出:(i)一个直接合成高分辨率图像而无需在不同生成器之间引入纠缠的新型一阶段文本到图像骨干,(ii)由匹配感知梯度惩罚和单路输出(Matching-Aware Gradient Penalty and One-Way Output)组成的新型目标感知鉴别器(Target-Aware Discriminator),通过增强文本-图像语义一致性而无需引入额外的网络,(iii)一个新颖的深度文本-图像融合块(Deep text-image Fusion Block,DFBlock),通过加深融合过程实现文本和视觉特征之间的充分融合。与当前最先进的方法相比,我们提出的 DF-GAN 更简单但更有效地合成逼真且与文本匹配的图像,并在广泛使用的数据集上取得更好的性能。

代码可在 https://github.com/tobran/DF-GAN 获取。

1. 简介

过去几年间,生成对抗网络(GANs)在各种应用中取得了巨大成功 [8],其中文本到图像合成是GANs 的最重要的应用之一 [4,27,48]。其目标是从给定的自然语言描述生成逼真且与文本一致的图像。由于其实际价值,文本到图像合成最近已成为一个积极研究的领域 [3,9,13,19,21,32,33,35, 51,53,60]。

文本到图像合成面临的两个主要挑战是生成图像的真实性和给定文本与生成图像之间的语义一致性。由于 GAN 模型的不稳定性,大多数最近的模型采用堆叠式架构 [56,57] 作为骨干来生成高分辨率图像。它们采用跨模态注意力来融合文本和图像特征 [37, 50, 56, 57, 60],然后引入 DAMSM网络 [50]、循环一致性(cycle consistency) [33] 或 Siamese网络 [51] 通过额外的网络确保文本-图像语义一致性。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第1张图片

尽管先前的研究 [9,19,21,32,33,51,60] 已经呈现出令人印象深刻的结果,但仍然存在三个问题。首先,堆叠式架构 [56] 引入了不同生成器之间的纠缠,使最终精化图像看起来像是由模糊形状和一些细节简单组合而成。正如图 1(a) 所示,最终的精化图像具有由 G_0 合成的模糊形状,由 G_1 合成的粗糙属性(例如,眼睛和喙),以及由 G_2 添加的细粒度细节(例如,眼睛反射)。最终合成的图像看起来像是来自不同图像尺度的视觉特征的简单组合。其次,现有研究通常在对抗训练期间固定额外的网络 [33, 50],使这些网络容易被生成器愚弄以合成对抗性特征 [30, 52],从而削弱了它们在语义一致性上的监督能力。第三,跨模态注意力 [50] 无法充分利用文本信息。由于其高计算成本,它只能在 64×64 和 128×128 图像特征上应用两次。这限制了文本-图像融合过程的有效性,使模型难以扩展到更高分辨率的图像合成。

为解决上述问题,我们提出了一种新颖的文本到图像生成方法,称为深度融合生成对抗网络(DF-GAN)。针对第一个问题,我们用一阶段骨干替换了堆叠式骨干。它由铰链损失 [54] 和残差网络[11] 组成,稳定了 GAN 训练过程,能够直接合成高分辨率图像。由于一阶段骨干中只有一个生成器,因此避免了不同生成器之间的纠缠。

对于第二个问题,我们设计了一个目标感知鉴别器,由匹配感知梯度惩罚(Matching-Aware Gradient Penalty,MA-GP)单路输出(One-Way Output)组成,以增强文本-图像语义一致性。MA-GP 是鉴别器上的一种正则化策略,追求目标数据(真实且和文本匹配的图像)上的鉴别器梯度为零。因此,MA-GP 在真实和匹配数据点上构建了一个平滑的损失曲面,进一步促使生成器合成与文本匹配的图像。此外,考虑到先前的双路输出(Two-Way Output)在 MA-GP下减缓了生成器的收敛过程,我们将其替换为更有效的单路输出。

对于第三个问题,我们提出了一个深度文本-图像融合块(Deep text-image Fusion Block,DFBlock),以更有效地将文本信息融合到图像特征中。DFBlock 由多个仿射变换 [31] 组成。仿射变换是一个轻量级模块,通过通道级别的缩放和平移操作操作视觉特征图。在所有图像尺度上堆叠多个 DFBlocks 加深了文本-图像融合过程,并在文本和视觉特征之间实现了充分的融合。

总体而言,我们的贡献可以总结如下:

  • 我们提出了一种新颖的一阶段文本到图像骨干,可以直接合成高分辨率图像,而无需不同生成器之间的纠缠。
  • 我们提出了一种新颖的目标感知鉴别器,由匹配感知梯度惩罚(MA-GP)和单路输出组成。它显著增强了文本-图像语义一致性,而不引入额外的网络。
  • 我们提出了一种新颖的深度文本-图像融合块(DFBlock),更有效且更深度地充分融合文本和视觉特征。
  • 在两个具有挑战性的数据集上进行了大量的定性和定量实验证明,我们提出的 DF-GAN 优于现有最先进的文本到图像模型。

2. 相关工作

生成对抗网络(GANs)[8] 是一个引人注目的框架,可以通过解决生成器和判别器之间的 min-max 优化问题来模拟复杂的现实世界分布 [16,17,43,54]。例如,Reed 等人首次应用条件 GAN 从文本描述中生成合理的图像 [37,38]。StackGAN [56,57] 通过堆叠多个生成器和判别器生成高分辨率图像,并通过连接文本向量以及输入噪声将文本信息提供给生成器。接下来,AttnGAN [50] 引入了跨模态注意机制,帮助生成器合成更多细节的图像。MirrorGAN [33] 重新生成生成图像的文本描述以实现文本-图像语义一致性 [59]。SD-GAN [51] 采用 Siamese 结构 [45, 46] 从文本中提取语义共同点,以实现图像生成的一致性。DM-GAN [60] 引入了Memory Network [10, 49],以在堆叠式架构中生成的初期图像不佳时,细化模糊的图像内容。

最近,一些基于大型 transformer 的文本到图像方法 [7,24,35] 在复杂图像合成上表现出色。它们对图像进行标记化,并采用图像标记和单词标记通过单路 transformer  进行自回归训练 [2, 34]。

我们的 DF-GAN 与先前的方法有很大的不同。首先,它通过一阶段骨干直接生成高分辨率图像。其次,它采用目标感知鉴别器,增强文本-图像语义一致性而不引入额外的网络。第三,通过一系列 DFBlocks,它更深入、更有效地融合文本和图像特征。与先前的模型相比,我们的 DF-GAN 在合成逼真且与文本匹配的图像方面更简单但更有效。

3. DF-GAN

在本文中,我们提出了一个简单的文本到图像合成模型,命名为深度融合生成对抗网络(DF-GAN)。为了合成更逼真和与文本匹配的图像,我们提出了以下三个方面的创新: (i) 一种新型的一阶段文本到图像骨干,能够直接合成高分辨率图像而无需视觉特征的纠缠。 (ii) 一种新型的目标感知鉴别器,由匹配感知梯度惩罚(MA-GP)和单路输出组成,增强文本-图像语义一致性而无需引入额外的网络。 (iii) 一种新型的深度文本-图像融合块(DFBlock),更充分地融合文本和视觉特征。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第2张图片

3.1 模型概述

提出的 DF-GAN 由生成器、判别器和预训练文本编码器组成,如图 2 所示。生成器有两个输入,一个由文本编码器编码的句子向量和从高斯分布中采样的噪声向量,以确保生成的图像具有多样性。噪声向量首先通过全连接层并进行形状重塑。然后,我们应用一系列 UPBlocks 对图像特征进行上采样。UPBlock 由上采样层、残差块和 DFBlocks 组成,在图像生成过程中融合文本和图像特征。最后,卷积层将图像特征转换为图像。

判别器通过一系列 DownBlocks 将图像转换为图像特征。然后,句子向量将被复制并与图像特征连接。然后预测对抗性损失以评估输入的视觉逼真度和语义一致性。通过区分生成的图像和真实样本,判别器促使生成器合成质量更高且具有文本-图像语义一致性的图像。

文本编码器是一个双向长短时记忆网络(bi-directional Long Short-Term Memory,LSTM)[41],从文本描述中提取语义向量。我们直接使用 AttnGAN [50] 提供的预训练模型。

3.2 一阶段文本到图像骨干

由于 GAN 模型的不稳定性,先前的文本到图像 GAN 通常采用堆叠式架构 [56,57] 从低分辨率图像生成高分辨率图像。然而,堆叠式架构引入了不同生成器之间的纠缠,使得最终精化图像看起来像是由模糊形状和一些细节简单组合而成(见图 1(a))。

受到最近对无条件图像生成的研究的启发 [23, 54],我们提出了一种一阶段文本到图像骨干,通过单一的生成器和判别器对直接合成高分辨率图像。我们采用铰链损失 [23] 来稳定对抗训练过程。由于一阶段骨干中只有一个生成器,它避免了不同生成器之间的纠缠。

由于我们一阶段框架中的单一生成器需要直接从噪声向量合成高分辨率图像,因此它必须比先前在堆叠式架构中的生成器包含更多层。为了有效训练这些层,我们引入了残差网络 [11] 来稳定更深层次网络的训练。我们的一阶段方法的铰链损失 [23] 的表达式如下:

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第3张图片

其中,z 是从高斯分布中采样的噪声向量;e 是句子向量;P_g、P_r、P_mis 分别表示合成数据分布、真实数据分布和不匹配数据分布。

3.3 目标感知鉴别器

在这一部分,我们详细介绍了提出的目标感知鉴别器,由匹配感知梯度惩罚(MA-GP)和单路输出组成。目标感知鉴别器促使生成器合成更逼真和文本-图像语义一致的图像。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第4张图片

3.3.1 匹配感知梯度惩罚

匹配感知零中心梯度惩罚(Matching-Aware zero-centered Gradient Penalty,MAGP)是我们新设计的策略,旨在增强文本-图像语义一致性。在这一小节中,我们首先从新颖而清晰的角度展示无条件梯度惩罚 [28],然后将其扩展到我们的文本到图像生成任务的 MA-GP。

如图 3(a) 所示,在无条件图像生成中,目标数据(真实图像)对应于低判别器损失。相应地,合成图像对应于高判别器损失。铰链损失限制了判别器损失在 -1 到 1 之间的范围。对真实数据的梯度惩罚将减小真实数据点及其周围的梯度。然后,真实数据点周围的损失函数表面被平滑,有助于合成数据点收敛到真实数据点。

基于以上分析,我们发现对目标数据进行的梯度惩罚构建了一个更好的损失景观(landscape),有助于生成器的收敛。通过借鉴文本到图像生成的视角。如图 3(b) 所示,在文本到图像生成中,判别器观察到四种输入:带匹配文本的合成图像(fake, match)、带不匹配文本的合成图像(fake, mismatch)、带匹配文本的真实图像(real, match)、带不匹配文本的真实图像(real, mismatch)。为了实现文本-视觉语义一致性,我们倾向于在文本匹配的真实数据上应用梯度惩罚,即文本到图像合成的目标。因此,在 MA-GP 中,梯度惩罚应该应用在带匹配文本的真实图像上。我们的模型与 MA-GP 的整体公式如下:

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第5张图片

其中,k 和 p 是两个用于平衡梯度惩罚有效性的超参数。

通过将 MA-GP 损失作为鉴别器的正则化,我们的模型可以更好地收敛到文本匹配的真实数据,从而合成更多文本匹配的图像。此外,由于在我们的网络中联合训练了鉴别器,它防止了生成器合成固定额外网络的对抗性特征。此外,由于 MA-GP 不需要任何额外的网络来实现文本-图像一致性,并且梯度已经通过反向传播过程计算,因此我们提出的 MA-GP 引入的唯一计算是梯度求和,比额外网络更友好于计算。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第6张图片

3.3.2 单输出

在先前的文本到图像 GANs [50,56,57] 中,鉴别器提取的图像特征通常以两种方式使用(图4(a)):一种确定图像是真实还是伪造,另一种连接图像特征和句子向量以评估文本-图像语义一致性。相应地,这些模型计算无条件损失和有条件损失。

然而,已经证明两种输出方式削弱了 MA-GP 的有效性,并减缓了生成器的收敛速度。具体而言,如图 3(b) 所示,条件损失在反向传播后给出一个指向真实图像和匹配输入的梯度 α,而无条件损失只给出一个指向真实图像的梯度 β。然而,最终梯度的方向,即简单地对 α 和 β 求和的方向,并不指向我们期望的真实和匹配数据点。由于生成器的目标是合成真实且匹配文本的图像,具有偏差的最终梯度无法很好地实现文本-图像语义一致性,并减缓生成器的收敛过程。

因此,我们提出了文本到图像合成的单路输出。如图 4(b) 所示,我们的鉴别器连接图像特征和句向量,然后通过两个卷积层仅输出一个对抗性损失。通过单路输出,我们能够使单一梯度 α 直接指向目标数据点(真实和匹配),从而优化并加速生成器的收敛。

通过结合MA-GP和单路输出,我们的目标感知鉴别器可以引导生成器合成更多真实和匹配文本的图像。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第7张图片

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第8张图片

3.4 高效的文本-图像融合

为了高效地融合文本和图像特征,我们提出了一种新颖的深度文本-图像融合块(Deep text-image Fusion Block,DFBlock)。与先前的文本-图像融合模块相比,我们的 DFBlock 深化了文本-图像融合过程,实现了完整的文本-图像融合。

如图 2 所示,我们 DF-GAN 的生成器包含 7 个 UPBlocks。一个 UPBlock 包含两个文本-图像融合块。为了充分利用融合中的文本信息,我们提出了深度文本-图像融合块(DFBlock),它在融合块中堆叠了多个仿射变换和 ReLU 层。对于仿射变换,如图 5(c) 所示,我们采用两个 MLPs(多层感知机)分别从句子向量 e 中预测语言条件的通道缩放参数 γ 和偏移参数 θ:

对于给定的输入特征图 X ∈ R^(B×C×H×W),我们首先使用缩放参数 γ 对 X 进行按通道缩放操作,然后使用偏移参数 θ 进行按通道偏移操作。这样的过程可以表示如下:

其中,AFF 表示仿射变换;x_i​  是视觉特征图的第  i 通道;e 是句子向量;γ_i 和 θ_i 是视觉特征图的第 i 通道的缩放参数和偏移参数。

仿射层扩展了生成器的条件表示空间。然而,仿射变换对于每个通道都是线性变换。它限制了文本-图像融合过程的有效性。因此,我们在两个仿射层之间添加了一个 ReLU 层,将非线性引入融合过程中。与仅有一个仿射层相比,它扩大了条件表示空间。较大的表示空间有助于生成器根据文本描述将不同的图像映射到不同的表示。

我们的 DFBlock 在某种程度上受到了条件批量归一化(CBN)[5] 和自适应实例归一化(AdaIN)[14, 16] 的启发,它们都包含了仿射变换。然而,CBN 和 AdaIN 都使用了归一化层[15,44],将特征图转换为正态分布。这产生了与期望增加不同样本之间距离的仿射变换相反的效果。这对于条件生成过程是不利的。为此,我们去除了归一化过程。此外,我们的 DFBlock 深化了文本-图像融合过程。我们堆叠了多个仿射层,并在其间添加了一个 ReLU 层。这有助于增加视觉特征的多样性,并扩大了表示空间,以根据不同的文本描述表示不同的视觉特征。

随着融合过程的加深,DFBlock 为文本到图像生成带来了两个主要好处:首先,在融合文本和图像特征时,它使生成器更充分地利用文本信息。其次,加深融合过程扩大了融合模块的表示空间,有助于从不同的文本描述生成语义一致的图像。

此外,与先前的文本到图像 GANs [50, 56, 57, 60] 相比,我们提出的 DFBlock 使得我们的模型在融合文本和图像特征时不再考虑来自图像尺度的限制。这是因为现有的文本到图像 GANs 通常采用跨模态注意机制,而这种机制随着图像大小的增加而带来了计算成本的迅速增长。

4. 实验

在这一部分,我们首先介绍了在我们的实验中使用的数据集、训练细节和评估指标,然后对 DF-GAN 及其变种进行了定量和定性评估。

数据集。我们遵循先前的研究 [33、50、51、56、57、60],在两个具有挑战性的数据集上评估了提出的模型,即 CUB bird [47] 和 COCO [25]。CUB 数据集包含 11,788 张属于 200 种鸟类的图片。每张鸟类图片有十个语言描述。COCO 数据集包含 80,000 张用于训练和 40,000 张用于测试的图片。该数据集中的每张图片都有五个语言描述。

训练细节。我们使用 Adam [18] 来优化我们的网络,其中 β1 = 0.0 和 β2 = 0.9。生成器的学习率设置为 0.0001,鉴别器的学习率设置为 0.0004,根据 Two Timescale Update Rule (TTUR) [12]。

评估细节。在遵循先前研究 [50,60] 的基础上,我们选择了 Inception Score (IS) [40] 和 Fr´echet Inception Distance (FID) [12] 来评估我们网络的性能。具体来说,IS 计算条件分布和边缘分布之间的 Kullback-Leibler (KL) 散度。更高的 IS 意味着生成的图像质量更高,每张图像明显属于特定类别。FID [12] 计算了合成图像的分布与预训练 Inception v3 网络的特征空间中的真实图像之间的Fr´echet 距离。与 IS 相反,更真实的图像具有较低的 FID。为了计算 IS 和 FID,每个模型从测试数据集中随机选择的文本描述生成 30,000 张图像(256x256 分辨率)。

正如最近的研究 [21,58] 中所述,IS 不能很好地评估 COCO 数据集上的图像质量,这也存在于我们的提出方法中。此外,我们发现一些基于 GAN 的模型 [50,60] 在 COCO 数据集上的 IS 明显高于基于 Transformer 的大型文本到图像模型 [7,35],但合成图像的视觉质量明显低于基于Transformer 的模型 [7,35]。因此,我们在 COCO 数据集上不比较 IS。相反,FID 更为稳健,并与人类定性评估在 COCO 数据集上保持一致。

此外,我们评估参数数量(number of parameters,NoP)以与当前方法比较模型大小。

4.1 定量评估

我们将提出的方法与几种最先进的方法进行比较,包括 StackGAN [56]、StackGAN++ [57]、AttnGAN [50]、MirrorGAN [33]、SD-GAN [51] 和 DM-GAN [60],这些方法通过使用堆叠结构在文本到图像合成方面取得了显著的成功。 我们还与更近期的模型 [22,26,39,55] 进行了比较。需要指出的是,近期的模型通常使用额外的知识或监督。例如,CPGAN [22] 使用额外的预训练 YOLO-V3 [36],XMC-GAN [55] 使用额外的预训练 VGG-19 [42] 和 Bert [6],DAEGAN [39] 使用额外的 NLTK POS 标记和手动设计规则,适用于不同的数据集,而 TIME [26] 使用额外的 2-D 位置编码。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第9张图片

如表 1 所示,与其他领先模型相比,我们的 DF-GAN 具有显著较小的参数数量(NoP),但仍然实现了竞争性能。与采用跨模态注意力融合文本和图像特征的 AttnGAN [50] 相比,我们的 DF-GAN 在 CUB 数据集上将 IS 指标从 4.36 提高到 5.10,将 FID 指标从 23.98 降低到 14.81。我们的 DF-GAN 在 COCO 数据集上将 FID 从 35.49 降低到 19.32。与采用循环一致性和孪生网络以确保文本-图像语义一致性的 MirrorGAN [33] 和 SD-GAN [51] 相比,我们的 DF-GAN 在 CUB 数据集上将 IS 从 4.56 和 4.67 提高到 5.10。与引入记忆网络以细化模糊图像内容的 DM-GAN [60] 相比,我们的模型在 CUB 上将 IS 从 4.75 提高到 5.10,并将 FID 从 16.09 降低到 14.81,同时在COCO 上将 FID 从 32.64 降低到 19.32。此外,与引入额外知识的最近模型相比,我们的 DF-GAN 仍然实现了竞争性能。定量比较证明了我们的模型更简单但更有效。

4.2 定性评估

我们还比较了由 AttnGAN [50]、DM-GAN [60] 和提出的 DF-GAN 合成的可视化结果。可以看到,在图 6 中,由 AttnGAN [50] 和 DM-GAN [60] 合成的图像看起来像是模糊形状和一些视觉细节的简单组合(第 1、3、5、7 和 8 列)。如第 5、7 和 8 列所示,AttnGAN [50] 和 DM-GAN [60] 合成的鸟类包含错误的形状。此外,由我们的 DF-GAN 合成的图像具有更好的物体形状和逼真的细粒度细节(例如第 1、3、7 和 8 列)。此外,我们的 DF-GAN 中鸟类的姿势结果也更自然(例如第7 和 8 列)。 与其他模型的文本-图像语义一致性进行比较,我们发现我们的 DF-GAN 还能够在文本描述中捕捉更细粒度的细节。例如,如图 6 中第 1、2、6 列所示的结果,其他模型不能很好地合成 “持滑雪杖”、“火车轨道” 和 “眼睛旁边的黑色条纹” 等文本描述,但我们提出的 DF-GAN 能够更正确地合成它们。

4.3 消融研究

在这一部分,我们在 CUB 数据集的测试集上进行了消融研究,以验证提出的 DF-GAN 中每个组件的有效性。这些组件包括单阶段文本到图像主干(One-Stage text-to-image Backbone,OS-B)、匹配感知梯度惩罚(Matching-Aware Gradient Penalty,MA-GP)、单路输出(One-Way Output,OW-O)、深度文本图像融合块(Deep text-image Fusion Block,DFBlock)。我们还将我们的目标感知鉴别器与当前模型中广泛采用的深度注意力多模态相似性模型(Deep Attentional Multimodal Similarity Model,DAMSM)进行比较 [50,51,60]。首先评估了 OS-B、MA-GP 和 OW-O 的有效性。我们进行了用户研究以评估文本-图像语义一致性(SC),我们要求十名用户为具有文本描述的 100 张随机合成的图像评分。评分范围从 1(最差)到 5(最佳)。在 CUB 数据集上的结果如表 2 所示。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第10张图片

基准。我们的基准采用了堆叠框架和与 Stack-GAN [56] 相同的双向输出,具有相同的对抗损失。在基准中,句子向量被朴素地连接到输入噪声和中间特征图中。

单阶段主干的效果(OS-B。我们提出的 OS-B 将 IS 从 3.96 提高到 4.11,并将 FID 从 43.45 降低到 32.52。结果表明,我们的单阶段主干比堆叠架构更为有效。

匹配感知梯度惩罚的效果(MA-GP。搭载了 MA-GP 后,模型进一步提高了 IS 至4.46,SC 至 3.55,并显著降低了 FID 至 32.52。这表明,提出的 MA-GP 可以促使生成器合成更逼真和文本图像语义一致的图像。

单路输出的效果(OW-O。提出的 OW-O 还将 IS 从 4.46 提高到 4.57,将 SC 从 3.55 提高到4.61,并将 FID 从 32.52 降低到 23.16。这也证明了在文本到图像生成任务中,单路输出比双路输出更为有效。

目标感知鉴别器的效果。与 DAMSM 相比,我们提出的由 MA-GP 和 OW-O 组成的目标感知鉴别器将 IS 从 4.28 提高到 4.57,将 SC 从 1.79 提高到 4.61,并将 FID 从 36.72 降低到 23.16。结果表明,我们的目标感知鉴别器优于额外的网络。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第11张图片

DFBlock 的效果。我们将我们的 DFBlock 与 CBN [1,5,29]、AdaIN [16] 和 AFFBlock 进行比较。AFFBlock 使用一个仿射变换层来融合文本和图像特征。MA-GP GAN 是采用单阶段文本到图像主干、匹配感知梯度惩罚和单路输出的模型。从表 3 的结果中,我们发现,与其他融合方法相比,拼接不能有效地融合文本和图像特征。CBN、AdaIN 和 AFFBlock 之间的比较证明了在融合块中,归一化并非是必要的,甚至去除归一化会略微提高结果。DFBlock 与 AFFBlock 之间的比较证明了深化文本图像融合过程的有效性。总的来说,比较结果证明了我们提出的 DFBlock 的有效性。

4.4 局限性

尽管 DF-GAN 在文本到图像合成中显示出优越性,但在未来的研究中必须考虑一些局限性。首先,我们的模型只引入了句子级文本信息,这限制了对细粒度视觉特征合成的能力。其次,引入预训练的大型语言模型 [6,34] 以提供额外知识可能会进一步提高性能。我们将在未来的工作中努力解决这些局限性。

5. 结论和未来工作

结论与未来工作 在本文中,我们提出了一种新颖的 DF-GAN 用于文本到图像生成任务。我们提出了一个单阶段文本到图像主干,可以直接合成高分辨率图像,而无需不同生成器之间的纠缠。我们还提出了一个由匹配感知梯度惩罚(MA-GP)和单路输出组成的新型目标感知鉴别器。它可以在不引入额外网络的情况下进一步增强文本图像语义一致性。此外,我们引入了一种新颖的深度文本图像融合块(DFBlock),它更有效地深度融合文本和图像特征。大量实验证明,我们提出的 DF-GAN 在 CUB 数据集和更具挑战性的 COCO 数据集上显著优于当前最先进的模型。

S. 总结

S.1 主要贡献

本文提出了简单有效的深度融合生成对抗网络(Deep Fusion Generative Adversarial Networks,DF-GAN)。使用一阶段文本到图像骨干,避免高分辨率合成时堆叠结构引入的纠缠。使用匹配感知梯度惩罚和单路输出(Matching-Aware Gradient Penalty and One-Way Output)组成的新型目标感知鉴别器(Target-Aware Discriminator),增强文本-图像语义一致性而无需引入额外的网络。使用深度文本-图像融合块(Deep text-image Fusion Block,DFBlock),通过加深融合过程实现文本和视觉特征之间的充分融合。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第12张图片

S.2 架构和方法

本文使用的网络架构如图 2 所示。

生成器

  • 两个输入,一个由文本编码器(双向长短时记忆网络(bi-directional Long Short-Term Memory,LSTM))编码的句子向量和从高斯分布中采样的噪声向量,以确保生成的图像具有多样性。
  • 噪声向量首先通过全连接层 FC 并进行形状重塑。
  • 然后,应用一系列 UPBlocks 对图像特征进行上采样。UPBlock 由上采样层、残差块和 DFBlocks 组成,在图像生成过程中融合文本和图像特征。
  • 最后,卷积层将图像特征转换为图像。

判别器

  • 通过一系列 DownBlocks 将图像转换为图像特征。
  • 然后,句子向量将被复制并与图像特征连接。
  • 然后预测对抗性损失以评估输入的视觉逼真度和语义一致性。
  • 通过区分生成的图像和真实样本,判别器促使生成器合成质量更高且具有文本-图像语义一致性的图像。

一阶段文本到图像骨干

  • 由于 GAN 模型的不稳定性,先前的文本到图像 GAN 通常采用堆叠式架构从低分辨率图像生成高分辨率图像。
  • 堆叠式架构引入了不同生成器之间的纠缠,使得最终精化图像看起来像是由模糊形状和一些细节简单组合而成。
  • 本文通过单一的生成器合成高分辨率图像,避免不同生成器之间的纠缠,并使用铰链损失和残差网络稳定训练。

(2022|CVPR,单阶段骨干,目标感知鉴别,深度图文融合块)DF-GAN:简单有效的文本到图像合成基线_第13张图片

目标感知鉴别器

  • 目标感知鉴别器由匹配感知梯度惩罚(MA-GP)和单路输出组成,促使生成器合成更逼真和文本-图像语义一致的图像。
  • MA-GP 是鉴别器上的一种正则化策略,追求目标数据(真实且和文本匹配的图像)上的鉴别器梯度为零。
  • 双路输出减缓了生成器的收敛速度。具体而言,条件损失在反向传播后给出一个指向真实图像和匹配输入的梯度 α,而无条件损失只给出一个指向真实图像的梯度 β。然而,最终梯度的方向,即简单地对 α 和 β 求和的方向,并不指向期望的真实和匹配数据点,从而减缓生成器的收敛过程。
  • 因此,本文提出单路输出来加快收敛速度。结构如图 4 所示。

深度文本-图像融合块(Deep text-image Fusion Block,DFBlock)

  • DF-GAN 的生成器包含 7 个 UPBlocks。一个 UPBlock 包含两个文本-图像融合块。每个融合块中堆叠了多个仿射变换和 ReLU 层。仿射变换采用两个 MLPs(多层感知机)分别从句子向量 e 中预测语言条件的通道缩放参数和偏移参数。然后逐通道对图像特征进行调制。
  • 使用 DFBlock 可以更充分的利用文本信息。
  • 使用多个仿射层和非线性的 ReLU 有助于提升多样性。
  • 现有的文本到图像 GAN 通常采用跨模态注意机制,这种机制随着图像大小的增加带来计算成本的迅速增长。使用 DFBlock 则不需要考虑图像尺度的限制。

你可能感兴趣的:(论文笔记,生成对抗网络,人工智能,神经网络)