论文复现-1:Perturbation CheckLists for Evaluating NLG Evaluation Metrics

以data2text任务为例,探讨generation metric矩阵对于一些句子扰动是否敏感,在多个维度上的敏感性如何?

1数据集

data2text数据集是由3025条samples构成,关键词由“ID”和“reference”构成。

每个子任务由对应的criteria:

在这里插入图片描述

2 数据集加工处理

数据集对应的perturb是采用了checklist包完成的,针对每个维度由相应的perturb 方法。
在这里插入图片描述

base中提供了替换否定词、同义词、消除stopwords这些操作,
data2text中
change_numeric:将数字转为文本描述;

change_names:更改name;
drop_phrases:drop掉一定量的word。

整个的代码做的是data generation,而且是perturb data的generation过程。
人工annotated data并没有给出。

git link:https://github.com/iitmnlp/EvalEval

3 metric实施

For BLEU , METEOR , ROUGE-L (Lin, 2004), CIDEr, Greedy Matching (GM)
(Rus and Lintean, 2012), and Vector Extrema (VE)
(Forgues and Pineau, 2014), we use the implementation provided by Sharma et al. (2017).

chrF++ (Popovic, 2017), TER (Snover et al., 2006),
BERTScore (Zhang et al., 2020), and BLEURT
(Sellam et al., 2020) we use the repository of Castro Ferreira et al. (2020).

For SMS (Clark et al.,2019), WMDo (Chow et al., 2019), and MoverScore (Zhao et al., 2019), we use the implementation provided by Fabbri et al. (2020)

代码中没有给出具体是怎么实施的。

总结

相似度metric的提出,有难度。
相似度metric好坏的评价,也有难度。

你可能感兴趣的:(相似度,深度学习)