BLUE 评价指标

BLEU:用于机器翻译任务的评价。根据n-gram可以划分为多个评价指标。常见的有BLUE-1、BLUE-2、BLUE-3、BLUE-4四种,其中的数字表示连续单词的个数。BLUE-1衡量的是单词级别的准确性,高阶BLUE可以衡量句子的流畅性。

BLUE通常用来衡量一组机器产生的翻译句子集合 (candidates) 与一组人工翻译句子 (references) 的相似程度。

示例如下:

candidate: The cat sat on the mat.
reference: The cat is on the mat.
  • BLUE-1

candidate {the, cat, sat, on, the, mat} 中有5个在 reference 中,即 blue1=5/6=0.83

  • BLUE-2

candidate {the cat, cat sat, sat on, on the, the mat} 中有3个在 reference 中,即 blue2=3/5=0.6

  • BLUE-3

candidate {the cat sat, cat sat on, sat on the, on the mat} 中有1个在 reference 中,即 blue3=1/4=0.25

  • BLUE-4

candidate {the cat sat on, cat sat on the, sat on the mat}中有0个在 reference 中,即 blue4=0/3=0

你可能感兴趣的:(NLP,NLP)