自动文摘评测方法:Rouge-L、Rouge-N

Rouge-L 的初认识

本人参加百度机器阅读理解比赛,发现阅读理解比赛的评价标注,以Rouge-L为主,若 Rouge-L相同的 话,则看 BLEU-4。由此可见,Rough-L 作为自动文摘评测方法是特别有用的,接下来我讲解一下。

Rouge-L 论文:

https://www.aclweb.org/anthology/W04-1013

BLEU-4 的学习,可以看我的另一篇博客,有助于理解Rouge-N:

https://blog.csdn.net/ding_programmer/article/details/89740078

 

什么是Rouge呢?

Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

 

Rouge-N


Rouge-1、Rouge-2、Rouge-N

 

ROUGE-N=\frac{\sum\limits_{S\in \{ReferenceSummaries\} }\ \sum\limits_{gram_n \in S}Count_{match}(gram_n)}{\sum\limits_{S\in \{ReferenceSummaries\} }\ \sum\limits_{gram_n \in S}Count(gram_n)}

分母是n-gram的个数,分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下:
自动摘要YY(一般是自动生成的):

the cat was found under the bed

参考摘要(标准答案),X1X1(gold standard ,人工生成的):

the cat was under the bed

summary的1-gram、2-gram如下,N-gram以此类推:

自动文摘评测方法:Rouge-L、Rouge-N_第1张图片

 

Rouge-1=(X1,Y)=\frac{6}{6}=1

分子是待评测摘要和参考摘要都出现的1-gram的个数,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间,我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同)


同样,Rouge-2=(X1,Y)=\frac{4}{5}=0.8

 

Rouge-L

L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:

\large R_{lcs}=\frac{LCS(X,Y)}{m}

 

\large P_{lcs}=\frac{LCS(X,Y)}{n}

 

\large F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2 P_{lcs}}

 

其中 \large LCS(X,Y)   是X和Y的最长公共子序列的长度,考虑顺序。     \large m,n  分别表示参考摘要(人工摘要)和 自动摘要(机器生成的摘要)的长度(一般就是所含词的个数)

\large R_{lcs} \ P_{lcs} 分别表示召回率和准确率。最后的 \large F_{lcs}​即是我们所说的Rouge-L。

 

对于什么是召回率、什么是准确率,F-measure 可以看我的另一篇博客:

https://blog.csdn.net/ding_programmer/article/details/89740668

 

当   \large \beta    很大的时候               \large F_{lcs}=\frac{R_{lcs}P_{lcs}}{\frac{R_{lcs}}{(1+\beta^2)}\ +\ \frac{\beta^2P_{lcs}}{(1+\beta^2)}}=\frac{R_{lcs}P_{lcs}}{0\ + \ P_{lcs}}=R_{lcs}

 

所以 当,\large \beta   被设置为一个很大的数,所以 Rouge_L几乎只考虑了\large R_{lcs}​,与上文所说的一般只考虑召回率对应。

 

参考文献:

https://blog.csdn.net/qq_25222361/article/details/78694617#t2

https://www.aclweb.org/anthology/W04-1013

 

 

你可能感兴趣的:(人工智能)