CIDEr: Consensus-based Image Description Evaluation

CIDEr: Consensus-based Image Description Evaluation

原文地址

时间:2015

Intro

  • 自动度量 description of an image 的困难
  • 提出了consensus-based 的度量协议:CIDEr

Approach

给定一副图片和一系列人给出的描述,我们的目标是估计candidate和大多数ground truth的相似性

直观来说,为了度量consensus,需要找到candidate中的n-gram在reference中出现的频率,同时,不在reference中的n-gram不应该出现在candidate中,且频繁出现在数据集中的n-gram权值应该更低,因为它们代表性更差(less informative),因此,我们通过TF-IDF来加权n-gram,n-gram w k w_k wk出现在reference s i j s_{ij} sij中的次数记作 h k ( s i j ) h_k(s_{ij}) hk(sij) h k ( c i ) h_k(c_i) hk(ci),其中 c i c_i ci是candidate,计算公式如下
CIDEr: Consensus-based Image Description Evaluation_第1张图片
其中 Ω \Omega Ω是所有n-gram的集合, ∣ I ∣ |I| I是图片集合,第一项是TF第二项是IDF

长度为n的n-gram的 C I D E r n CIDEr_n CIDErn计算为candidate和reference的平均余弦相似度,这同时计算了precision和recall
在这里插入图片描述
其中 g n \mathbf{g^n} gn g k g_k gk组成的向量,综合所有长度的n-gram,计算
在这里插入图片描述
最终,我们发现 w n = 1 / N w_n=1/N wn=1/N最好,我们取 N = 4 N=4 N=4

CIDEr-D

为了抵抗一些’gaming’样本,在原始的CIDEr上要做一些改进:

  • 去掉stemming,stemming就是将词根相同的词变成一个词
  • 因为CIDEr会给一些包含重复高置信度的词的句子打高分,所以加入高斯惩罚,它基于candidate和reference的句长差异
  • 最后,第二个改动可能会被重复产生高置信度的词到句长这一方法破除,所以,我们利用clipping来解决这个问题,将candidate中n-gram出现次数超过reference中最高次数的clip掉,最后的结果是
    CIDEr: Consensus-based Image Description Evaluation_第2张图片
    l代表句子的长度,我们取 σ = 6 \sigma=6 σ=6,最后的综合计算公式和之前的CIDEr一样

Idea

  • 度量相似度相比度量candidate对reference的recall和precision是更加客观的,因为它是对称的度量
  • BLEU 是基于precision的度量,ROUGH是基于recall的度量
  • BLEU的key idea是compute precision by clipping

总结

本文提出了一个consensus-based自动度量准则,这个准则能够客观比较candidate和reference的差异,无需特别依赖内容加权、语法和显著性特征。

你可能感兴趣的:(论文笔记)