ECCV2020| Length-Controllable Image Captioning

Length-Controllable Image Captioning

作者

  • 中南大学、阿德莱德大学
  • 开源地址:https://github.com/bearcatt/LaBERT

解决的问题

  • 图像字幕,长度可控的文本生成
ECCV2020| Length-Controllable Image Captioning_第1张图片

摘要

  • 现存的方法不能控制生成文本的长度,无法选择粗糙/细致地对图像进行描述。因此这篇文章提出一个简单的length-level embedding实现这个能力。由于自回归特性,模型的计算复杂度与句长成线性增加。本文在三个模型上做了实验:两个自回归SOTA模型with不同类型的decoder,和本文提出的非自回归模型。实验结果在MS COCO上达到了SOTA。代码已开源 https://github.com/bearcatt/LaBERT.

解决方案

  • 训练时,学习不同长度的length-level embedding;inference时,生成器被分为不同level使用学到的embedding生成对应长度范围的文本。为了解决计算复杂度随着句长线性增加这个问题,本文提出非自回归模型,基于BERT因此称为length-awareBERT(LaBERT)。实验 证明提出模型的有效性:一个SOTA是AoANet,使用LSTM作为decoder;一个SOTA是VLP,使用Transformer作为deocder;还有一个自己提出的LaBERT。

Contribution

  • 使用length-level作为生成长度可控文本的控制信号,使得模型具有生成高品质以及长度可控文本的能力
  • 提出一个非自回归解码器,提升解码长文本的效率,同时也提高了生成文本的精度和多样性
  • 在三个模型上验证提出模型的有效性,这三个模型有LSTM-based decoder的,有Transformer-based decoder的,也有非自回归模型

Related Work

  • 自回归图像描述:一般使用Teacher Forcing策略最大化GT的单词生成概率,从[BOS]开始,一直到[EOS]结束。后来,SCST策略被提出,使用策略梯度方法最大化CIDEr分数以解决序列建模中的exposure bias问题。
  • 多样性长度可控图像描述:几乎没有工作致力于提高生成文本的多样性。而文本长度是很重要的属性。在自然语言文本摘要任务中Kikuchi的工作控制了输出的文本通过 1不使用[EOS] 而是使用句子长度决定文本生成的结束,2 设置文本长度范围然后丢弃超出范围的文本,3 使用embedding在解码器中对保留长度进行标记,4 将要求的长度信息用隐含层状态初始化的方式融入到长度信息中。但是第一种方法不能得到完整的句子,第二种方法需要很大的beam size才能获得有效的结果,后面两种策略则很难实现对结果的约束。
  • 非自回归文本生成:自回归序列生成问题要求序列化的解码,不能并行,为了解决这个问题在机器翻译领域提出了非自回归机器翻译,解决方法是使用非自回归直接预测整个序列,不再需要forward pass。

Method

ECCV2020| Length-Controllable Image Captioning_第2张图片
  • 用k*d的矩阵Wl对k个不同level的d维的embedding进行区分。最终token的表征由length-level embedding+word embedding+position embedding组成。长度范围在inference的时候和视频特征一起输入。
  • 具体设计了两套长度分类:第一套[1,9],[10,14],[15,19],[20,25],第二套更细粒度。
  • LaBERT的提出是为了解决长文本的生成问题。还采取了预训练的物体检测器检测M个物体的proposal,获得对应的区域特征、分类概率和位置特征,生成visual embedding。
  • 训练:最小化masked位置的交叉熵损失函数
ECCV2020| Length-Controllable Image Captioning_第3张图片
  • Inference:输入text和image的embedding,得到单词概率。第一步输入全是mask token,长度是最大程度,然后经过mask-predict-update流程,也就是将置信度低的单词mask掉重新预测单词。

Experiments

  • Dataset: MS COCO
  • Metric:BLEU、ROUGE、METEOR、CIDEr-D都是衡量GT文本和生成文本之间n元组的相似度。SPICE和METEOR和人类的评价最接近。由于测试集中的文本都只有8-14 tokens很短,因此对于长文本,SPICE应该是最优先的。

你可能感兴趣的:(阅读笔记)