【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU的意义

在计算语言学的研究实验中,研究者希望能实时对机器翻译的质量进行评估(可能每天甚至没几个小时进行一次),而人工翻译评估是无法满足这一需求的,因此机器翻译研究受到了这一瓶颈的限制,难以有所突破。

BLEU作为一种自动翻译评估方法,目的是解决这一问题。

BLEU的全拼(Bilingual Evaluation Understudy)

BLUE原理

  • 核心思想:机器翻译和人工翻译的越接近越好
  • 实现方法:定义数字量化“接近度”的方法
  • 必须条件:质量优秀的人工翻译语料库

举例一:n-gram匹配

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第1张图片
【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第2张图片
在候选1中与参考译文重合部分:

  • It is aguide to action
  • which
  • ensures that the military
  • always
  • commands
  • of the party

在候选2中与参考译文重合部分

  • It is
  • to
  • forever
  • party

据此匹配结果,判断候选1优于候选2

举例二:n-gram精确度

最简单的精度定义方法:1-gram匹配数 / 候选句子长度

但是对于过于简单的度量方法,机器翻译方法总能“过拟合”出一套完全不合理但是精度很高的翻译(总有漏洞,比如下面这个例子的精度是100%)
【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第3张图片
因此需要对规则进行补充(类似于加正则化)

修正版1-gram精度

核心思想:当参考译文中的一个词被匹配后就被消耗掉

  • 计算当前词在各参考译文中的出现次数
  • 当前词的匹配成功次数=min(在各译文中出现次数最大值,在候选句中出现次数)
  • 将每个词的匹配成功次数相加 / 候选句长度
    【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第4张图片

修正版n-gram精度

1-gram关注的是用词,而基本上忽略了词序,显然是不能全面评估质量
因此可以很轻松的将1-gram推广至n-gram方向。

混合n-gram精度

最先想到的混合方式就是线性加权混合,通过实验发现随着n-gram变大,精度的下降并不是线性的而是指数的,因此在加权时必须考虑这一点。
【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第5张图片
文章中并没有给出具体结合公式,只说是均匀权重的对数加权
在这里插入图片描述

冗余惩罚

句子不宜太长或太短,在一定程度上n-gram精度可以解决这个问题

  • 句子如果太长,那么就会有冗余词(未曾出现在参考译文),精度下降
  • 但是句子如果太短,那么精度是无法对其造成影响的
  • 一般来说,精度(precession)会配合召回(recall)来解决句子过短,但是bleu中包含多种风格的参考译文,这使得recall效果不佳(因为我们希望译文的风格是单一的,而不是混合的)
    【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第6张图片

简洁惩罚系数(brevity penalty factor)

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第7张图片

  • 其中:r是参考译文中的最佳句长加和,c是所有候选译文的句长加和。
  • 最佳句长的定义:如果候选句长为9,参考句长分别为7,10,12,那么最佳句长为10,即与候选句长最接近的参考句长。
  • 当候选句长高时,BP=1,即不做惩罚(不缩小得分)
  • 当候选句长低时,BP<1,做出简洁惩罚(缩小得分)

值得注意的是,简洁惩罚是不考虑源语言长度的
还有一点是,简洁惩罚是建立在全体语料上进行考量的

BLEU的计算方式

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation_第8张图片

  • N一般取4
  • w n w_n wn一般取1/N
  • BLEU ≤ 1(在与参考译文完全相同时取等号)
  • 可以预见的是,参考译文的风格和种类越多,BLEU越高(总有一款适合你)

关于BLEU可靠性的一些实验

其实这里就不用再实验了,BLEU用了快20年都没被替代,不需要再证明了。
值得注意的是,文中为了证明BLEU方法的优秀,提到了即使只有一个参考译文也能比较有效的进行评估,前提是这些参考翻译风格不同,以保证翻译风格的多样化。
现在做机器翻译的测试集似乎都是只有一条参考译文的,但是在翻译风格上不知道有没有进行控制。

你可能感兴趣的:(机器翻译,自然语言处理)