2020年, image captioning论文汇总

目录

  • CVPR2020:ASG
  • CVPR2020:POS-SCAN
  • CVPR2020:SLL-SLE

CVPR2020:ASG

  • 题目
    Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
    下载链接
    吴琦老师组的新作, 一作是人大的博士生陈师哲.
  • 动机
    现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容.
  • 贡献
  1. 提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
  2. 根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
  3. 对于没有ASG标注的数据集, 可以自动生成ASG标注.
  • 方法
    整体框架如下:
    2020年, image captioning论文汇总_第1张图片
  1. ASG
    ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG.
  2. ASG2Caption
    2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入用于区分每个节点的意图,文中给出了详细的计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.

    2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.

    2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.
  • 实验
    消融实验
    2020年, image captioning论文汇总_第2张图片
    在不同baseline上添加ASG后的实验结果对比
    2020年, image captioning论文汇总_第3张图片
    和state-of-the-art的对比
    2020年, image captioning论文汇总_第4张图片
    不同ASG生成的结果在这里插入图片描述在这里插入图片描述

CVPR2020:POS-SCAN

  • 题目
    More Grounded Image Captioning by Distilling Image-Text Matching Model
    下载链接
  • 动机
    本文的出发点是grounded image captioning,意思就是,captioner在生成words时,应在images上注意到正确的objects。但是,想在保留captioning质量的同时,提升模型的grounding准确性,需要数据集具有word-region alignment的标注作为训练时的监督,这很expensive。本文针对上述问题,基于SCAN提出了POS-SCAN(Part-Of-Speech),使用知识蒸馏的方法达到more grounded image captioning。
    2020年, image captioning论文汇总_第5张图片
  • 贡献
  1. 本文提出了POS-SCAN,在传统的captioners上添加POS-SCAN可以提高grounding的准确性。
  2. 本文使用了SCST(Self-Critical Sequence Training),使用图像-文本匹配的分数作为reward,进行强化学习,进一步提高了grounding的准确性。
  • 方法
    本文方法的整体如下图所示,主要分为两个模块:Captioner和Pre-trained Matcher。Captioner采用的是Up-Down,Pre-trained Matcher即为本文提出的POS-SCAN。对于Captioner没什么好说的,下面说一下POS-SCAN和SCAN的区别。
    2020年, image captioning论文汇总_第6张图片
    在SCAN中,计算图片 I I I和句子 T T T的相似度公式如下式所示。
    2020年, image captioning论文汇总_第7张图片
    其中, R ( e t , a t v ) R(e_t,a_t^v) R(et,atv)用于计算word特征 e t e_t et和添加了注意力的图片特征 a t v a_t^v atv之间的相似度,具体公式如下:
    2020年, image captioning论文汇总_第8张图片
    通过实验发现,SCAN模型在grounding上的表现不如Up-Down。作者认为,这是由于句子中包含过多的non-visual words,故采用下式计算图片 I I I和句子 T T T的相似度,其本质是,通过指示函数 1 y t ∗ = y n o n e 1_{y_t^*=y^{none}} 1yt=ynone来筛选出名词。
    2020年, image captioning论文汇总_第9张图片
    在训练时,POS-SCAN是预训练好的,参数保持不变。训练共分为两阶段,第一阶段就是传统的监督训练;第二阶段是使用强化学习进一步提升captioner的能力,这里使用了SCST中的方法,使用CIDEr作为一部分reward,并使用 S ( I , T ) S(I,T) S(I,T)作为另一部分reward。
  • 实验
    首先是在Flickr30k Entities val set上Attention Acc。
    2020年, image captioning论文汇总_第10张图片
    下图是在Flickr30k Entities val set上进行的消融实验。
    2020年, image captioning论文汇总_第11张图片
    在Flickr30k Entities test set上的实验结果。
    2020年, image captioning论文汇总_第12张图片
    在MS-COCO Karpathy test set上的实验结果, ∗ * 表示使用的是原文中实验结果。[3]就是SCST那篇论文。
    2020年, image captioning论文汇总_第13张图片
    下面是一些结果展示,红色方框内是不添加POS-SCAN方法,绿色方框内是添加POS-SCAN方法。

    下面是一些failure cases。
    2020年, image captioning论文汇总_第14张图片

CVPR2020:SLL-SLE

  • 题目
    Better Captioning with Sequence-Level Exploration
    下载链接
  • 动机
    动机就一句话:提高模型的recall指标。最开始,captioning方法中使用交叉熵做word级别的监督,尽可能提高每个单词的准确率。由于训练时使用GT word作为输入,测试时用predicted word作为输入,这导致训练和测试之间存在gap。然后,大家提出了sequence级别的监督,即使用生成的sentence进行监督。sequence级别的监督也存在问题:1. 理论上,忽视了recall问题。2. 实验上,在recall相关的metrics上指标不高。
    2020年, image captioning论文汇总_第15张图片
  • 贡献
  1. 分析了现有的sequence-level的不足之处
  2. 提出了新的学习目标
  3. 在精准率和召回率上,指标均有提升
  • 方法
    本文方法:在损失函数中添加sequence level exploration term,最大化生成的captions的距离。
    2020年, image captioning论文汇总_第16张图片
  • 实验
    在image captioning上的结果:
    2020年, image captioning论文汇总_第17张图片
    在video captioning上的结果:
    2020年, image captioning论文汇总_第18张图片

你可能感兴趣的:(vision&language,#,image,captioning)