CVPR2021
文献下载:CVPR 2021 Open Access Repository
文本到图像合成系统的输出应该是连贯、清晰、逼真的场景,对其条件文本描述具有高度的语义保真度。我们的跨模态对比生成对抗网络 (XMC-GAN) 通过最大化图像和文本之间的互信息来解决这一挑战。它通过多个对比损失来实现这一点,这些损失捕获了模态间和模态内的对应关系。 XMC-GAN 使用注意力自调制生成器,它强制执行强文本-图像对应,以及一个对比判别器,作为对比学习的评论家和特征编码器。正如我们在三个具有挑战性的数据集上展示的那样,XMC-GAN 的输出质量比以前的模型有了很大的进步。在 MS-COCO 上,XMC-GAN 不仅将最先进的 FID 从 24.70 提高到 9.33,而且——更重要的是——人们更喜欢 XMC-GAN 77.3% 的图像质量和 74.1% 的图像文本对齐,与其他三个最近的模型相比。 XMC-GAN 还推广到具有挑战性的 Localized Narratives 数据集(具有更长、更详细的描述),将最先进的 FID 从 48.70 提高到 14.12。最后,我们在具有挑战性的开放图像数据上训练和评估 XMC-GAN,建立了 26.91 的强大基准 FID 分数。
与其他类型的输入(例如,草图和对象掩码)相比,描述性句子是一种直观且灵活的方式来表达生成图像的视觉概念。文本到图像合成的主要挑战在于学习 从非结构化描述和处理视觉和语言输入之间的不同统计属性。
图一、我们提出的 XMC-GAN 文本到图像合成模型中的模态间和模态内对比损失。
生成对抗网络 (GAN) [12] 使用条件 GAN 公式 [11] 在文本到图像生成 [44,61,62] 方面取得了可喜的成果。 At-tnGAN [58] 提出了一个多阶段细化框架,通过关注描述中的相关词来生成细粒度的细节。这些模型在单域数据集(例如,鸟类 [56] 和花卉 [35])上生成高保真图像,但在具有许多对象的复杂场景中挣扎——例如 MS-COCO [30] 中的那些。最近的方法 [18,27,16,22] 提出了对象驱动的分层方法,可以明确地对图像中的对象实例进行建模。给定文本描述,他们首先推断语义布局(例如,对象边界框、分割掩码或组合),然后从布局生成图像。这些分层方法应用于实际场景很麻烦;生成成为一个多步骤过程(框到掩码到图像),并且模型需要更细粒度的对象标签来训练。
我们在文本图像合成的背景下研究了对比学习,并证明了一个简单的无对象层次的注释可以胜过先前的对象驱动和多阶段的方法。除了生成真实的图像,我们还希望(1)图像应该整体匹配的描述; (2)生成的图像应该匹配真实的图像时,他们的条件同样的描述; (3)个别的图像区域应该是可识别的,并与句子中的词一致。为了实现这些愿望,并获得强有力的语言对齐,我们建议通过对比学习最大化对应对应对象之间的互信息。我们的方法,交叉(x)-模态对比生成对抗网络(xmc-gan) ,使用图像到句子,图像到词,图像到图像的对比丢失,以强制生成的图像和它们的字幕之间的对齐(图1)。我们的主要贡献包括:
1、我们提出 XMC-GAN,这是一种简单的单级 GAN,它采用了几种对比损失。 XMC-GAN 比以前的模型产生了巨大的改进,例如 将 MS-COCO 上的 FID [15] 从 24.70 减少到 9.33,将 LN-COCO 上的 FID [15] 从 48.70 减少到 14.12(Localized Narratives [40] 的 MS-COCO 部分) |
2、我们进行了全面的人工评估,将 XMC-GAN 与三个最近的模型进行比较。 这些表明人们在 77.3% 的时间里更喜欢 XMC-GAN 的图像真实感,74.1% 的人更喜欢图像文本对齐。 |
3、我们在具有挑战性的 LN-OpenImages(本地化叙事的开放图像子集)上建立了强有力的基准。 据我们所知,这是第一次针对开放图像的各种图像和描述进行文本到图像结果的训练和测试。 |
4、我们对 XMC-GAN 中使用的对比损失进行了全面分析,为条件 GAN 中的对比学习提供一般建模见解。 |
XMC-GAN 始终生成比以前的模型更连贯和更详细的图像。 除了更逼真(具有更清晰、更清晰的物体),它们还能更好地捕捉完整的图像描述,包括命名物体和背景构图的存在。
2、相关工作
文本到图像的合成从文本描述生成图像已经通过深度生成模型得到了快速改进,包括 pixelCNN [55,45]、近似朗之万采样 [34]、变分自动编码器 (V AEs) [21,13] 和生成对抗网络 (GAN) [12,44]。特别是基于 GAN 的模型显示出更好的样本质量 [61,64,58,66,59,26,52,42,24]。 GAN-INT-CLS [44] 是第一个使用条件 GAN 生成文本到图像的人。 StackGAN [61,62] 通过从粗到细的框架改进了这一点,该框架以不同的分辨率逐步生成用于高分辨率合成的图像。 AttnGAN [58] 引入了跨模式注意以更好地捕捉细节。 DM-GAN [66] 使用可写入和读取文本和图像特征的内存模块自适应地细化生成的图像。 MirrorGAN [43] 通过在生成的图像上生成标题来强制文本图像的一致性。 SD-GAN [59] 提出了词级条件批量归一化和具有三元组损失的双编码器结构,以改善文本图像对齐。与三元组损失相比,我们的对比损失不需要挖掘信息性底片,从而降低了训练复杂度。 CP-GAN [28] 提出了一种对象感知图像编码器和细粒度鉴别器。其生成的图像获得了很高的 Inception Score [46];然而,我们表明它在使用更强的 FID [15] 度量和人工评估时表现不佳(参见第 6.1 节)。为了创建最终的高分辨率图像,这些方法依赖于多个生成器和鉴别器来生成不同分辨率的图像。其他人提出了在推断语义布局后显式生成不同对象的分层模型 [18,16,22]。这些的一个缺点是它们需要细粒度的对象标签(例如,对象边界框或分割图),因此生成是一个多步骤的过程。与这些多阶段和多步框架相比,我们提出的 XMC-GAN 只有一个端到端训练的生成器和鉴别器,它生成的图像质量要高得多。
给定两个随机变量 v1 和 v2,通常称为数据的视图,对比学习旨在通过学习测量两个视图依赖关系的函数来找到 v1 和 v2 的有用表示 [53],即样本是否来自联合分布 p(v1)p(v2|v1 ) 或边际 sp(v1)p(v2) 的乘积。 得到的函数是互信息 I(v1;v2) 的估计量。由于直接最大化互信息是具有挑战性的 [37,3,50],因此建议使用 InfoNCE 损失 [36] 来最大化一个较低的 互信息的界I(v1;v2)。 具体来说,给定一个查询样本 v1,i,最小化 In-foNCE 损失是对匹配的正样本 v2,i∼
这里,S(·,·)是得分函数,它通常有两个参数化的特征编码器,分别用于v1和v2。 如果v1和v2来自同一个域,编码器可以共享参数。构建v1和v2的方法有很多种:同一图像的不同增强[14,5]; 空间相邻的图像块[36]; 用于视频表示学习的视频 asv1 及其对齐的音频 asv2 [33,8]
GAN [12] 是同时使用生成器和鉴别器的生成模型。 生成器G将潜在变量z∼p(z)(通常从高斯分布采样)映射到真实数据分布pdata。 鉴别器 Dis 被训练来区分输入是合成的还是从真实数据中采样的。 生成器Gis 训练合成图像,鉴别器将其归类为真实图像。大量工作集中在设计对抗性目标以改进训练[12,1,31,47,29,54]。 一个值得注意的例子是铰链损失:
text-to-image 合成是一个有条件的生成任务。 生成的图像既应该是真实的,又应该与给定的描述相符。 为此,我们建议最大化对应对之间的互信息:(1)图像和句子,(2)具有相同描述的生成图像和真实图像,以及(3)图像区域和单词。 直接最大化互信息是困难的(参见第 3.1 节),因此我们通过优化对比损失来最大化互信息的下界。
给定一个图像及其相应的描述,我们在以前的对比学习工作的基础上定义了得分函数[14,5,36] :
Wherecos (u,v) = utv/kukkvk 表示余弦距离,并表示温度超参数。提出了一种基于图像编码器的全局句子特征向量提取算法,该算法利用图像编码器提取全局句子特征向量。这将图像和句子表示映射到一个联合嵌入空间。想象力和它的成对句子之间的对比缺失计算如下:
这种对比损失也称为归一化温度标度交叉熵损失(nt-xent)[5]。
在共享描述的情况下,真实图像和假图像之间的对比损失。其主要区别在于共享图像编码器能同时提取真假图像的特征。两幅图像之间的得分函数为 cos (f ′ img (x) ,f ′ img (x))/τ。真实形象与生成形象之间的形象-形象对比损失是:
图像区域和文字之间的对比丢失。输入描述中的单个图像区域应与相应的文字一致。我们使用注意力来学习图像中的区域和句子中的单词之间的联系,而不需要细粒度的注释来对齐单词和区域。首先计算句子中所有单词和图像中所有区域之间的成对余弦距离矩阵,然后计算软注意力 αi,jfor wordwito regionrjas:
在分别用区域和词表示字和区域特征编码的情况下,图像中的区域总数和 ρ1作为锐化的超参数,减少了软注意的熵。该单词的对齐区域特征定义为: ci = pr j = 1αi,jfregion (rj)。这样,句子中所有单词和图像中所有区域之间的得分函数就可以定义为
ρ2是一个超参数,用来决定句子中单词的权重对齐的词-区域对,例如,asρ2→∞ ,得分函数逼近 toaxth = 1cos (fword (wh) ,ch)。最后,意象 x 及其对齐句子中的词与区域之间的对比缺失定义为:
我们提出一个一级生成器,直接生成所需分辨率的图像。这比以前的多级生成器要简单得多,后者可以生成多种不同分辨率的图像。我们首先从一个标准的正态分布上采集噪声样本。我们从一个经过训练的 bert [10] module.esandzare 中获得整体句子嵌入和单词嵌入,并将其连接起来形成整体条件,然后通过几个向上抽样块(详见附录)生成16 × 16的特征映射。并以全局条件为条件,计算了条件批归一化层的尺度参数 γ 和偏移参数 β。这种配方也被称为自我调制[6]。
自调制层提高了隐藏特征与条件输入的一致性,但缺乏每个子区域的细节。为了产生细粒度的可编码区域,我们提出了注意自调制层。具体来说,除了随机噪声和全局句子嵌入之外,我们还改进了注意机制[58]来计算单词上下文矢量作为每个子区域的附加调制参数。对于带有 featurehj 的 jthregion,word-context vectorcjis:
句子中的单词总数 ρ0是一个锐化的超参数。然后,对于 jthregion 的调制特征可以定义为:
其中 μandσr 是将批量维度和空间维度合并得到的估计平均值和标准差。γj ()和 βj ()表示任意函数逼近,在我们的工作中,我们简单地使用线性投影层。有关发电机的详细资料,请参阅附录
我们提出的鉴别器有两个作用: (1)作为判断输入图像是真是假的评判者,(2)作为计算全局图像和区域特征的编码器。图像通过几个下采样块,直到其空间维数降低到16 × 16(见图2,左下)。然后采用1 × 1卷积方法获得特征维数与嵌入字维数一致的区域特征。原始图像特征通过两个下采样块和一个全局聚集层提供。最后由投影头计算对手损失的 logit,由单独的投影头计算对手损失的图像-句子和图像-图像的图像特征。请注意,重要的是只使用真实的图像和他们的描述,以训练这些甄别器投影头。原因是生成的图像有时无法识别,特别是在训练开始时。使用这样生成的图像和句子对,伤害了图像特征编码器投影头的训练。因此,假图像造成的对比损失只适用于发生器。除了鉴别器投影层,我们使用一个预先训练的 vgg 网络[49]作为图像编码器的额外监督图像-图像对比损失(见第6.2节)。算法1总结了 xmc-gan 的训练程序。为了简单起见,我们在实验中将算法中的对比损耗系数(λ1,λ2,λ3)设置为1.0。
5. 评估
5.1. 数据
Xmc-gan 和之前 coco-14型号的比较。R-prec (cc)是从一个经过概念标题训练的模型中计算出的 r 精度分数(见第5.2节)。†表示根据原始论文作者分享的图像计算的分数,‡表示根据开放源模型生成的图像计算的分数。 |
我觉得在这项工作中,作者提出了一个跨模式对比学习框架,以训练文本到图像合成的语言模型。同时研究了几种加强图像和文本对应的跨模态对比损失。通过对多个数据集进行人工和自动评估,xmc-gan 比以前的模型有了显著的改进: 它生成更高质量的图像,更好地匹配输入描述,包括长而详细的叙述。这是一个简单的端到端模型。我们相信这些进步是从自然语言描述生成图像的创造性应用的强大飞跃。