论文复现-1:Perturbation CheckLists for Evaluating NLG Evaluation Metrics
以data2text任务为例,探讨generationmetric矩阵对于一些句子扰动是否敏感,在多个维度上的敏感性如何?1数据集data2text数据集是由3025条samples构成,关键词由“ID”和“reference”构成。每个子任务由对应的criteria:2数据集加工处理数据集对应的perturb是采用了checklist包完成的,针对每个维度由相应的perturb方法。base中提