ROUGE评价方法

NLP自然语言处理评价自动摘要质量的方法

ROUGE(recall-oriented understudy for gisting evaluation)由2004年chin-yew lin提出。
基本思想:
由多个专家分别生成人工摘要,构成标准数据集。将系统生成的自动摘要与人工生成的标准摘要进行对比,通过统计两者的重叠基本单元(n元语法、词序列和词对)的数目,来评价系统的稳定性和鲁棒性。
评价标准主要有以下:
ROUGE-N
ROUGE-L
ROUGE-S
ROUGE-W
ROUGE-SU

1.ROUGE-N

N-gram模型
假设句子是由词序列W1,W2…Wn组成,那么句子出现的概率为
p=p(W1,W2…Wn)=p(W1)p(W2|W1)…p(Wn|W1W2…Wn-1)

引入马尔科夫假设:
一个词的出现仅仅依赖于它前面出现的有限个的一个或者几个词。
ROUGE评价方法_第1张图片
例:
S1:police killed the gunman
S2:the gunman was shot down by police
S3:police ended the gunman
S4:the gunman murdered police

S1,S2为参考摘要,S3,S4为候选摘要。

ROUGE-1(S3)=(3+3)/(4+7)=6/11
ROUGE-1(S4)=(3+3)/(4+7)=6/11
ROUGE-2(S3)=(1+1)/(3+6)=2/9
ROUGE-2(S4)=(1+1)/(3+6)=2/9

简单来说就是匹配句子中重叠的词的个数,以第一个为例:
S3于S1匹配三个单词,S3于S2匹配三个单词,S1总共4个单词,S2总共7个单词,就会有上式的结果。

ROUGE-N中的N就是连续几个单词的意思
(从上面可以看出S3和S4 的句子意思完全不一样,但是它们的得分却相同)

2.ROUGE-L

ROUGE-L:longest common subsequence(LCS最长公共子序列)(公共子序列不要求连续匹配,只要顺序对即可)
LCS:给定x,y,使得公共子序列最大的序列为二者的最长公共子序列。

公式:
摘要X为参考摘要,长度为m,摘要Y为候选摘要,长度为n。用F值来衡量X,Y的相似度。

R(lcs)=LCS(X,Y)/m
P(lcs)=LCS(X,Y)/n
F(lcs)=(1+β^2)*R(lcs)P(lcs)
/ (R(lcs)+β^2
P(lcs))

在DUC测评大会中,beita趋近无穷大,所以上式就相当于只考虑R(lcs)

例子:
S1:police killed the gunman
S2:police ended the gunman
S3:the gunman murdered police
S1为参考摘要,S2,S3为候选摘要,取beita=1

ROUGE-L(S2)=3/4
ROUGE-L(S3)=2/4

ROUGE-L的优势:
不要求词的连续匹配,只要求按词的顺序匹配即可,能够像n-gram一样反映句子级的词序。
自动匹配最长子序列,不需要预先定义n-gram的长度。
(简化计算,直接看S1,S2中按顺序排列的单词,police,the ,gunman)总共4个单词,结果就是3/4

你可能感兴趣的:(nlp)