©作者 | 苏熠暄
单位 | 剑桥大学
研究方向 | 文本生成和表征学习
本文提出了一个全新的 MAGIC (iMAge-guided text GeneratIon with CLIP) 框架。该框架可以使用图片模态的信息指导预训练语言模型完成一系列跨模态生成任务,例如 image captioning 和 visually grounded story generation。
与其他方法不同的是,MAGIC 框架无需多模态的训练数据,只需利用现成的语言模型(例如 GPT-2)和图文匹配模型(例如 CLIP)就能够以 zero-shot 的方式高质量地完成多模态生成任务。此外,不同于使用梯度更新生成模型cache 的传统方法,MAGIC 框架无需梯度更新,因而具备更高效的推理效率。
论文标题:
Language Models Can See: Plugging Visual Controls in Text Generation
作者单位:
剑桥大学,腾讯AI Lab,特伦托大学,DeepMind,香港大学
论文链接:
https://arxiv.org/pdf/2205.02655.pdf
代码链接:
https://github.com/yxuansu/MAGIC
借助于日益强大的预训练语言模型,我们已经可以根据文本前缀生成一段流利文本。当前,绝大多数工作的主要研究方向集中于利用文本模态的前缀来生成后续文本的方法。然而,如何有效利用其他模态的信息(例如图片)来指导预训练语言模型生成高质量的文本,仍然是一个待解决的难题。
目前,针对此类问题最常见的解决思路是在收集好的高质量多模态平行数据的基础上,训练多模态的模型来完成特定的跨模态任务。例如,现在我们可以在图文匹配的标注数据集上,通过监督学习的方法训练 image captioning 模型,从而根据输入图片生成对应的文本描述。
但是,该方法存在标注数据获得困难的弊端,并不适合所有应用场景。为了解决这一难题,许多研究者们提出了一系列弱监督的方法。而这类方法也有其弊端,它们会受到不同多模态任务的特定限制。例如,在 image captioning 任务中,弱监督的方法需要使用特定的目标检测器,来收集图片内可识别目标的标签信息。然而,当图片中包含目标检测器无法识别的物体(out-of-domain object)时,弱监督方法的有效性就会大打折扣。
为了摆脱对目标检测器的依赖从而真正实现 zero-shot 跨模态文本生成,ZeroCap [1] 提出在推理阶段通过梯度更新的方式修正生成语言模型模型的内部的隐状态,从而使生成的文本描述和图片内容尽可能接近。但是,这一方法也有其弊端,通过多次迭代梯度更新来调整模型的内部隐状态,在当前预训练语言模型参数量越来越大的趋势下,其运行效率会变得越来越低,严重限制了该方法在实际场景中的应用。
本文提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。
为了适应特定跨模态任务的文本领域,我们在本文中,预先使用了跨模态训练数据集中的文本数据,采取无监督的方式更新语言模型的参数(仅需在 1 块 NVIDIA 1080Ti 上运行不到两个小时),从而使得语言模型更加熟悉该领域的文本分布。具体而言,本文使用 MLE 损失函数训练语言模型的参数:
此外,SimCTG [2] 的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的的语言模型。因此,本文也同时优化如下的对比损失:
其中 是用来校准生成模型表示空间的 margin 参数, 用来计算 token 表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的 GPT-2 语言模型:
本文提出了 MAGIC Search 解码算法。MAGIC 使用视觉信息指导预训练语言模型的生成过程。具体而言,给定文本前缀 和图片 ,第 步的 token 选择公式如下:
其中 表示按照语言模型概率分布选择的 top-k 个候选 token。同时,我们借鉴了 SimCTG 中 contrastive search 的思路,在 token 选择指标中引入了 model confidence 和 degeneration penalty 项来使得模型选择更合适的 token。上述公式中最重要的一项是将视觉控制信息引入到模型的解码过程中的 magic score:
其中 是 CLIP 的 image encoder 产生的图片表示, 是 CLIP 的 text encoder 产生的文本表示。 参数用来调节视觉信息的控制力度。当其值为 0 时,语言模型的生成过程不再被视觉信息所影响,从而 magic search 退化为传统的 contrastive search。
本文在 MS-COCO 和 Flickr30k 数据集上进行了大量的实验,并选用以下的无监督 baseline 进行对比:
1. top-k sampling:不基于图片信息,用 top-k 解码方法使用语言模型来生成caption;
2. nucleus sampling:不基于图片信息,用 nucleus 解码方法使用语言模型生成 caption;
3. contrastive search:不基于图片信息,用 contrastive search 解码方法使用语言模型来生成 caption;
4. CLIPRe:使用 CLIP 模型从 MS-COCO 或 Flickr30k 的训练数据中检索文本数据;
5. ZeroCap:在解码过程中,使用 CLIP 信息来指导语言模型梯度更新的方法。
值得注意的是 top-k sampling, nucleus sampling 和 contrastive search 解码方法因为不基于图片信息,所以可看作是文本生成模型在跨模态任务上的性能下界。此外,本文还选取了一批监督和弱监督的方法来进行对比。
对于评价方法,本文采用 image captioning 中经典的评价指标:BLEU-1, BLEU-4, METEOR, ROUGE-L, CIDEr 和 SPICE,同时也测试了不同模型的相对解码速率。
如上图所示,本文发现当忽视 captions 的信息,只使用语言模型进行生成时效果并不好(Top-k, Nucleus, Contrastive),这说明没有对应的图片信息,只依靠语言模型很难完成这个跨模态的任务。CLIPRe 方法效果虽然显著好于 Top-k 等纯文本解码方法,但仍然弱于当前 state-of-the-art 的无监督方法,ZeroCap。这是由 training set 和 test set 之间的数据差异所造成。这也证明了检索模型在该任务上效果弱于生成模型。
本文 MAGIC 的生成结果显著优于 ZeroCap,展示了 MAGIC 框架的有效性。并且因为 MAGIC 完全不依赖于梯度更新,其解码速度比 ZeroCap 快接近 27 倍。
此外,本文还做了跨领域的实验以进一步测试 MAGIC 的泛化能力。具体而言,本文使用在源领域(例如 MS-COCO)上得到的无监督语言模型,在目标领域(例如 Flickr30k)的测试集上进行实验。本文在该实验中对比无监督解码方法和 CLIPRe。其中 CLIPRe 的检索数据集仅来自于源领域的训练集,实验结果如下:
从表格中结果可以发现,MAGIC 远好于纯文本解码方法和 CLIPRe 强 baseline。
参考文献
[1] Tewel et al., ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic, arXiv 2022
[2] Su et al., A Contrastive Framework for Neural Text Generation, arXiv 2022
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·