自然语言处理机器常用评价度量

看论文经常给出一张表，那个数据集指标是多少，尤其是每个方向都有经典的数据集，针对该数据集给出评价指标。

本节将描述4大评价指标BLEU，ROUGE，METEOR，CIDEr。实际上可以看出由于最后生成的目标内容是自然语言描述语句，因此评价VTT质量的客观标准都来源于自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的，并且被证明可以很好的反应待评测翻译结果的准确性，并且与人类对待评测翻译结果的评价存在强相关。

BLEU：

BLEU实质是对两个句子的共现词频率计算，但计算过程中使用好些技巧，追求计算的数值可以衡量这两句话的一致程度。BLEU的全名为：bilingual evaluation understudy，即：双语互译质量评估辅助工具。它是用来评估机器翻译质量的工具。当然评估翻译质量这种事本应该由人来做，机器现在是无论如何也做不到像人类一样思考判断的（我想这就是自然语言处理现在遇到的瓶颈吧，随便某个方面都有牵扯上人类思维的地方，真难），但是人工处理过于耗时费力，所以才有了BLEU算法。
　　BLEU的设计思想与评判机器翻译好坏的思想是一致的：机器翻译结果越接近专业人工翻译的结果，则越好。BLEU算法实际上在做的事：判断两个句子的相似程度。我想知道一个句子翻译前后的表示是否意思一致，显然没法直接比较，那我就拿这个句子的标准人工翻译与我的机器翻译的结果作比较，如果它们是很相似的，说明我的翻译很成功。因此，BLUE去做判断：一句机器翻译的话与其相对应的几个参考翻译作比较，算出一个综合分数。这个分数越高说明机器翻译得越好。（注：BLEU算法是句子之间的比较，不是词组，也不是段落）
BLEU的优缺点有哪些？
　　优点很明显：方便、快速、结果有参考价值　
　　缺点也不少，主要有：

不考虑语言表达（语法）上的准确性；
测评精度会受常用词的干扰；
短译句的测评精度有时会较高；
没有考虑同义词或相似表达的情况，可能会导致合理翻译被否定；

from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'a', 'test'], ['this', 'is' 'test']]
candidate = ['this', 'is', 'a', 'test']
score = sentence_bleu(reference, candidate)
print(score)

ROUGE

Rough(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

Rouge-1、Rouge-2、Rouge-N

分母是n-gram的个数，分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下：
自动摘要Y（一般是自动生成的）：

Rough-L

L即是LCS(longest common subsequence，最长公共子序列)的首字母，因为Rough-L使用了最长公共子序列。Rough-L计算方式如下图：

目前rouge主要以perl包为主，pyrouge进行了封装
https://github.com/andersjo/pyrouge/tree/master/tools/ROUGE-1.5.5

METEOR

METEOR标准于2004年由Lavir发现在评价指标中召回率的意义后提出[3][3]^{[3]}
他们的研究表明，召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU)，其结果和人工判断的结果有较高相关性
METEOR测度基于单精度的加权调和平均数和单字召回率，其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能，如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)mmm，而这一校准基于WordNet的同义词库，通过最小化对应语句中连续有序的块(chunks)chchch来得出
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均，METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均，并包含一个惩罚系数PenPenPen
和BLEU不同，METEOR同时考虑了基于整个语料库上的准确率和召回率，而最终得出测度
METEOR使用java包实现
http://www.cs.cmu.edu/~alavie/METEOR/index.html

CIDEr