VLMGAN,提出一种新的文本到图像合成的视觉语言匹配策略,模型引入了双视觉语言匹配机制,以增强图像质量和语义一致性,另外其提出了一种新的度量指标:VLMS(视觉语言匹配分数)来评估文本到图像合成的性能。文章于22年8月发表于arxiv。
论文地址:https://arxiv.org/abs/2208.09596
文本到图像合成是一项有吸引力但具有挑战性的任务,其目的是从特定的文本描述生成照片真实和语义一致的图像。与相应的图像和文本描述相比,由现成模型合成的图像通常包含有限的成分,这降低了图像质量和文本视觉一致性。为了解决这个问题,我们提出了一种新的文本到图像合成的视觉语言匹配策略,名为VLMGAN*,该策略引入了双视觉语言匹配机制,以增强图像质量和语义一致性。双视觉语言匹配机制考虑生成的图像和对应的文本描述之间的文本视觉匹配,以及合成图像和真实图像之间的视觉一致性约束。给定特定的文本描述,VLMGAN*首先将其编码为文本特征,然后将其馈送到基于双视觉语言匹配的生成模型,以合成照片逼真和文本语义一致的图像。此外,流行的文本到图像合成的评估指标借鉴了简单的图像生成,主要评估合成图像的真实性和多样性。因此,我们引入了一个名为视觉语言匹配分数(VLMS)的度量来评估文本到图像合成的性能,该度量可以同时考虑图像质量和合成图像与描述之间的语义一致性。所提出的双层次视觉语言匹配策略可以应用于其他文本到图像的合成方法。我们在标记为VLMGAN+AttnGAN和VLMGAN+DFGAN的两个流行基线上实现了该策略。在两个广泛使用的数据集上的实验结果表明,该模型比其他最先进的方法实现了显著的改进。
文本到图像合成旨在基于特定的文本描述生成真实感和文本一致的图像。
文本到图像的合成与简单的图像合成有着显著的不同,它包含两个挑战,即视觉真实性和文本-视觉语义一致性。目前视觉真实性的方向已经得到了充分研究,一些方法可以生成高度逼真的图像,但是视觉文本语义一致性依然是文本图像合成的关键挑战。
尽管许多方法能够合成相对细粒度和真实的图像,但它们很少关注生成的图像和相应文本之间的多级语义一致性。他们可以合成相对真实的图像,但可能无法生成与文本语义一致的图像特别是对于CUB数据集等简单数据集,例如,对于描述:small bird, with white breast,red head and black wings and back,其他模型(AttnGAN、DMGAN)可以生成逼真的图像,但是细节与文本描述不一致。
在保证图像的逼真性条件下,文本到图像合成应同时关注:
此外,如何公平地评估文本到图像合成的性能是一个需要处理的重要问题。文本生成图像是一项配对翻译任务,它应该考虑合成图像的质量以及与文本描述的语义一致性。然而,FID和IS都只考虑合成图像,而忽略文本描述。因此,文本到图像的合成需要一种新的评估度量,该度量考虑了描述和合成图像之间的一致性,以弥补FID和IS的不足
基于以上启发,作者首先提出了一种新的视觉语言匹配模型(VLM),该模型可以基于度量学习有效地探索图像和文本之间的相似性。然后,作者将所提出的VLM视为一个额外的约束块,并将其插入基于多级GAN的文本到图像合成框架中,并考虑了合成图像与真实图像之间的多级匹配。
根据这一基本思想,作者还提出了一种新的度量方法VLMS,用于从另一个角度评估文本到图像的合成性能,称为视觉语言匹配分数。
跨模态理解是一项有吸引力但具有挑战性的任务,包括跨模态检索、图像字幕生成和语义基础,图像-文本匹配模型是跨模态理解其中的一项子任务,其旨在使用对比学习将视觉图像和文本描述投影到语义共享空间,具体而言,视觉和文本特征被分别编码到同一子空间中,在该子空间中计算相似度值,方法可分为三种:全局匹配方法、区域匹配方法和多级匹配方法。
为了更全面地计算生成的图像与原始句子之间的相似度,作者也设计了多级匹配模型VLM。
视觉语言匹配(VLM)模型学习文本和图像模态的多级相似性,包括局部级匹配、全局级匹配和通用级匹配。
VLM模型包含三个子模型:视觉编码器、文本编码器和匹配评分块(MSB)。
视觉编码器和文本编码器旨在将图像和文本嵌入到语义对齐的向量中,连接视觉和语言领域。而所提出的匹配评分块MSB通过Transformer编码器为图像和文本生成匹配分数。
sigmoid
层,最终生成Score
分数。匹配评分块主要用于计算General-level matching
(可以见后文)而可以看到,视觉语言匹配VLM模型同时考虑了文本-视觉匹配和视觉-视觉匹配,其中有三处匹配度的计算,第一处是局部级的匹配Local-level matching,第二处是全局级别的匹配Global-level matching,第三处是通用级的匹配General-level matching:
Local-level matching表示局部匹配度,局部匹配考虑了单词特征和图像局部区域特征之间的语义一致性。
首先计算具有289个局部区域特征的特定图像和具有T0个单词特征的文本描述的相似度矩阵: s ( ϕ i , φ j ) = ϕ i T φ j ∥ ϕ i ∥ ∥ φ j ∥ , i ∈ [ 1 , 2 , … , 289 ] , j ∈ [ 1 , 2 , … , T 0 ] s\left(\phi_{i}, \varphi_{j}\right)=\frac{\phi_{i}^{\mathrm{T}} \varphi_{j}}{\left\|\phi_{i}\right\|\left\|\varphi_{j}\right\|}, i \in[1,2, \ldots, 289], j \in\left[1,2, \ldots, T_{0}\right] s(ϕi,φj)=∥ϕi∥∥φj∥ϕiTφj,i∈[1,2,…,289],j∈[1,2,…,T0],我们采用S作为单词特征和图像局部特征之间的相似度矩阵。 c i = ∑ j = 0 288 α i j ϕ j c_{i}=\sum_{j=0}^{288} \alpha_{i j} \phi_{j} ci=∑j=0288αijϕj,其中 α i j = exp ( γ 1 s i , j ) ∑ k = 0 288 exp ( γ 1 s i , k ) \alpha_{i j}=\frac{\exp \left(\gamma_{1} s_{i, j}\right)}{\sum_{k=0}^{288} \exp \left(\gamma_{1} s_{i, k}\right)} αij=∑k=0288exp(γ1si,k)exp(γ1si,j)。
根据最小分类误差公式,通过LogSumExp池计算图像和文本描述之间的局部水平匹配分数,如下所示: S local ( I , T ) = log ( ∑ i = 1 T − 1 exp ( γ 2 S ( c i , φ i ) ) ) 1 γ 2 S_{\text {local }}(I, T)=\log \left(\sum_{i=1}^{T-1} \exp \left(\gamma_{2} S\left(c_{i}, \varphi_{i}\right)\right)\right)^{\frac{1}{\gamma_{2}}} Slocal (I,T)=log(∑i=1T−1exp(γ2S(ci,φi)))γ21,其中 S ( c i , φ i ) = c i T φ i ∥ c i ∥ ∥ φ i ∥ S\left(c_{i}, \varphi_{i}\right)=\frac{c_{i}^{\mathrm{T}} \varphi_{i}}{\left\|c_{i}\right\|\left\|\varphi_{i}\right\|} S(ci,φi)=∥ci∥∥φi∥ciTφi
Global-level matching表示全局级匹配度,全局级匹配度考虑视觉全局特征和全局文本特征。类似地,对于全局视觉特征φ和句子特征φ,匹配分数直接通过余弦相似度计算: S global ( I , T ) = φ ˉ T ϕ ˉ ∥ φ ˉ ∥ ∥ ϕ ˉ ∥ S_{\text {global }}(I, T)=\frac{\bar{\varphi}^{\mathrm{T}} \bar{\phi}}{\|\bar{\varphi}\|\|\bar{\phi}\|} Sglobal (I,T)=∥φˉ∥∥ϕˉ∥φˉTϕˉ
General-level matching表示常规级匹配度,常规级匹配度由预先训练的视觉语言匹配评分块产生。计算如下: S general ( I , T ) = F M S B ( ϕ , ϕ ˉ , φ , φ ˉ ) S_{\text {general }}(I, T)=F_{\mathrm{MSB}}(\phi, \bar{\phi}, \varphi, \bar{\varphi}) Sgeneral (I,T)=FMSB(ϕ,ϕˉ,φ,φˉ)(见四)。
作者以AttnGAN为基准模型,设计了VLMGAN,是一个多阶段模型,框架如下图所示,也可以大致分为文本编码器、生成器、鉴别器三大部分:
文本经过文本编码器进行编码,形成句子特征和单词特征,句子特征经过CA变换输入到生成器部分当中,单词特征使用到单词级别注意力机制将单词特征与视觉特征做融合(这一步就是AttnGAN当中的方法),然后经过多个生成器(一般为3个)堆叠形成图像。
图像之后通过视觉编码器编码形成图像特征和区域特征,之后分别计算 Global-level matching
和 Local-level matching
,真实图像也同时计算Global-level matching
和 Local-level matching
,然后两者比较General-level matching
。
总的损失函数为: L G = ∑ i = 0 2 L G i + λ 1 L V V M + λ 2 L V L M \mathcal{L}_{G}=\sum_{i=0}^{2} \mathcal{L}_{G_{i}}+\lambda_{1} \mathcal{L}_{V V M}+\lambda_{2} \mathcal{L}_{V L M} LG=∑i=02LGi+λ1LVVM+λ2LVLM,其中 L G L_G LG表示生成对抗损失, L V V M L_{VVM} LVVM表示文本-视觉匹配损失, L V L M L_{VLM} LVLM表示的是视觉-视觉损失。
多级阶段的 L G L_G LG损失有三层,因为有三层生成器,第i层的生成器的损失为: L G i = − 1 2 E x ^ i ∼ P G i [ log ( D i ( x ^ i ) ) ] − 1 2 E x ^ i ∼ P G i [ log ( D i ( x ^ i , φ ˉ ) ) ] \mathcal{L}_{G_{i}}=-\frac{1}{2} E_{\hat{x}_{i} \sim P_{G_{i}}}\left[\log \left(D_{i}\left(\hat{x}_{i}\right)\right)\right]-\frac{1}{2} E_{\hat{x}_{i} \sim P_{G_{i}}}\left[\log \left(D_{i}\left(\hat{x}_{i}, \bar{\varphi}\right)\right)\right] LGi=−21Ex^i∼PGi[log(Di(x^i))]−21Ex^i∼PGi[log(Di(x^i,φˉ))]。目标函数中,前半部分是无条件损失,它决定了合成图像是真实的还是假的。后半部分是条件损失,它确定图像内容是否与文本描述匹配。生成损失函数迫使模型合成照片逼真和文本语义一致的图像。
L V L M = L l o c a l + L g l o b a l + L g e n e r a l \mathcal{L}_{VLM}= \mathcal{L}_{local} +\mathcal{L}_{global} +\mathcal{L}_{general} LVLM=Llocal+Lglobal+Lgeneral,其中 L l o c a l \mathcal{L}_{local} Llocal表示局部级匹配损失, L g l o b a l \mathcal{L}_{global} Lglobal表示全局级匹配损失, L g e n e r a l \mathcal{L}_{general} Lgeneral表示常规级损失。在四种已经详细介绍,不再赘述。其中局部级匹配损失类似5.2.1方法计算,全局级匹配损失类似5.2.2方法计算,常规级损失类似5.2.3方法计算。
具体计算方法比较复杂,请看原文。
视觉-视觉全局级匹配损失旨在最大化真实图像和合成假图像之间的全局匹配分数。损失函数为: L V V M = L V G + L V L + L V G E N . \mathcal{L}_{V V M}=\mathcal{L}_{V G}+\mathcal{L}_{V L}+\mathcal{L}_{V G E N} . LVVM=LVG+LVL+LVGEN.,相同原理, L V G \mathcal{L}_{V G} LVG表示全局级视觉匹配损失, L V L \mathcal{L}_{V L} LVL表示局部级视觉匹配损失, L V G E N \mathcal{L}_{V G E N} LVGEN表示常规级视觉匹配损失。
具体计算方法比较复杂,请看原文。
数据集:CUB、MSCOCO;
评估指标:FID、IS、R-precision和本文提出的VLM Score;
实验设置:8个NVIDIA GeForce GTX2080ti GPU,对于视觉编码器、文本编码器和视觉语言匹配评分模型,batchsize设置为64。对于VLMGAN+AttnGAN模型,batchsize设置为24,生成器的学习率为0.0001,鉴别器为0.0004。生成网络和鉴别网络的参数交替优化。
所提出的双视觉语言匹配模块VLM可以应用于其他各种文本到图像合成架构,作者在实验中首先是以AttnGAN作为基准模型进行了改进,后续也将其扩展用到了DF-GAN框架上,实验效果如下:
文章设计了一个双重语义一致的文本到图像合成框架,该框架可以增强视觉内容和文本描述之间的文本-视觉一致性,以及合成图像和真实图像之间的视觉-视觉一致性。文章设计的这个模块即插即用,可以应用于任何其他文本到图像任务。
另外,作者提出了一种新的多层次视觉语言匹配模型来学习图像和文本之间的相似性,该模型可以考虑全局级匹配、细粒度局部级匹配和通用级匹配,引出一种新的评估度量(视觉语言匹配分数,VLMS)用于来评估文本生图像的性能,VLMS可以同时考虑生成图像的视觉真实性和生成图像与文本描述之间的语义一致性。
本文通过增强合成图像与真实数据之间的语义和视觉匹配,解决了文本到图像的合成问题,提出的双层次视觉语言匹配同时考虑了文本-视觉匹配和视觉-视觉匹配,其同时考虑了图像质量和图像语义来测量图像和文本之间的匹配分数,更符合人类感知。
我们已经建立了T2I研学社群,如果你对Dreamfields和DreamFusion还有其他疑问或者对文本生成图像很感兴趣,可以私信我加入社群。
加入社群 抱团学习:中杯可乐多加冰-采苓AI研习社
限时免费订阅:文本生成图像T2I专栏
支持我:点赞+收藏⭐️+留言