文本生成模型评估方法

“”"

好的,我来通俗易懂地介绍一下这几个指标,并给出一些例子。

1. Rouge 指标
   Rouge 是一组用于自动文本摘要评估的指标,经常用于自然语言处理中。Rouge 包括三种常用的指标:Rouge-1、Rouge-2 和 Rouge-L,它们的含义分别如下:

   - Rouge-1:计算自动生成文本与参考摘要中各个短语之间的重合度分数,其中短语包括单个的词语和句子。
   - Rouge-2:计算自动生成文本与参考摘要中相邻两个短语之间的重合度分数,其中短语为两个单词组成的二元组。
   - Rouge-L:使用最长公共子序列(LCS)来计算生成文本和参考摘要的相似性分数。

   例如,在一个文本摘要任务中,我们需要将一段文本(例如一篇新闻文章)缩短为一个摘要(例如一到两句话),然后使用 Rouge 指标来评估我们的摘要的质量。假设我们的摘要生成如下:

今天是一个阳光明媚的日子,我和朋友们开心地玩耍着。


我们可以将参考摘要(ground-truth summaries)定义为人工编写的摘要,假设参考摘要如下:

晴朗的天气里,我们在户外尽情游玩。


对于 Rouge-1,我们可以将生成文本和参考摘要分解成多个短语并计算它们的重合度得分,例如:

生成文本:今天、是、一个、阳光明媚、的、日子、我、和、朋友们、开心、地、玩耍着
参考摘要:晴朗、的、天气里、我们、在、户外、尽情、游玩

重合度分数:3/10 = 0.3


对于 Rouge-2,我们需要计算相邻两个短语之间的重合度得分。以下是一个例子:

生成文本:今天 是、是 一个、一个 阳光明媚、阳光明媚 的、的 日子、日子 我、我 和、和 朋友们、朋友们 开心、开心 地、地 玩耍着
参考摘要:晴朗 的、的 天气里、天气里 我们、我们 在、在 户外、户外 尽情、尽情 游玩

重合度分数:1/9 = 0.111


对于 Rouge-L,我们需要使用最长公共子序列(LCS)来计算生成文本和参考摘要之间的相似性。以下是一个例子:

生成文本:今天 是 一个 阳光明媚 的 日子,我 和 朋友们 开心 地 玩耍着
参考摘要:晴朗 的 天气里,我们 在 户外 尽情 游玩

LCS:是 一个 我 和 开心 玩耍着

LCS 长度:5

Rouge-L 分数:5/11=0.454


这就是 Rouge 指标的一些例子,它们能够自动对生成的文本进行评估并得出相应的得分来衡量质量。

2. BLEU-4
BLEU 是一种用于评估自动机器翻译(MT)结果的评估指标,BLEU-4 是 BLEU 中的一种最常用的型号。BLEU-4 的基本工作流程如下:

- 从已经翻译好的文本和机器翻译结果中提取 N-grams
- 使用 N-grams 的重叠数量来计算机器翻译结果和参考翻译之间的相似性分数。
- 计算几何平均值以获得 BLEU 分数。

例如,假设我们正在评估一个机器翻译系统的质量,我们将使用“BLEU-4”来计算分数。考虑翻译系统生成以下翻译结果:

机器翻译:the cat is sitting on the mat


然后下面是比较输出翻译和参考文本之间 N-gram 重叠度的过程:
参考翻译1:the cat is on the mat
参考翻译2:there is a cat on the mat

计算 1-gram、2-gram、3-gram、4-gram 中的重叠度。

1-gram:翻译和参考翻译之间的重叠度:3/6=0.5
2-gram:翻译和参考翻译之间的重叠度:2/5=0.4
3-gram:翻译和参考翻译之间的重叠度:1/4=0.25
4-gram:翻译和参考翻译之间的重叠度:0/3=0

计算几何平均值。

BLEU-4 分数计算:exp(1/4*(log(0.5) + log(0.4) + log(0.25) + log(0)))=0

BLEU-4 得分越高表示机器翻译在翻译同样的文本时的效果越好。

  1. 困惑度
    困惑度是一种常用于评估语言模型性能的指标,用于衡量模型在新数据上的预测能力。困惑度越低,表示模型预测新数据的能力越好。以一个语言模型为例,计算困惑度的步骤如下:

    • 准备好测试数据集。
    • 对于测试集中的每个序列,计算模型对其的预测概率。
    • 用对数概率计算平均困惑度,使用 e 求指数平均值并取倒数。

    例如,考虑以下文本序列:

    训练集:the cat is sitting on the mat
    测试集:the dog is chasing the cat
    

    神经语言模型被训练用于预测每个词在序列中的出现概率。基于测试序列,对于每个可能的下一个词,模型可以给出一个概率分数,并得出以下困惑度分数:

    Model Predicted: 0.5 * 0.2 * 0.15 * 0.3 = 0.0045
    Perplexity: exp(-(log(0.0045)/4))=83.006
    

    对于这个序列,困惑度为 83.006,表示模型在预测新序列时的不确定性相对较高。

希望这些例子能够让你对这些指标有更加清晰的理解。
“”

非常抱歉让你感到困惑。我会尽力再次解释这些指标。

1. Rouge 指标:
   Rouge (Recall-Oriented Understudy for Gisting Evaluation) 是用于评估自动摘要质量的指标。它有三个常用的变种:Rouge-1、Rouge-2 和 Rouge-L。

   - Rouge-1:它衡量生成的摘要与参考摘要中单个单词的重合程度。
   - Rouge-2:它衡量生成的摘要与参考摘要中相邻两个单词的重合程度。
   - Rouge-L:它使用最长公共子序列(LCS)来衡量生成的摘要与参考摘要的相似程度。

   例如,对于以下参考摘要和生成的摘要:
   参考摘要:在晴朗的天气中,他们在户外尽情玩耍。
   生成摘要:他们在阳光明媚的天气里放松和娱乐。

   计算 Rouge-1:
   参考摘要中的单词: 在、晴朗、的、天气、中、他们、在、户外、尽情、玩耍
   生成摘要中的单词: 他们、在、阳光明媚、的、天气、里、放松、和、娱乐

   单词重合数:4
   单词总数:9

   Rouge-1 分数:4/90.444

   类似地,可以计算 Rouge-2 和 Rouge-L。

2. BLEU-4:
   BLEU (Bilingual Evaluation Understudy) 是用于评估机器翻译结果质量的指标。BLEU-4 是 BLEU 中的一个常用变体。

   这个指标通过比较参考翻译的 N-gram 与机器翻译结果中的 N-gram 的匹配程度来计算分数。通常使用 1-gram 到 4-gram 进行比较。

   例如,考虑以下参考翻译和机器翻译结果:
   参考翻译: 这只猫正躺在地毯上。
   机器翻译: 那只猫在地毯上睡觉。

   对于 1-gram、2-gram、3-gram 和 4-gram,得出以下结果:
   1-gram 匹配数:3
   2-gram 匹配数:2
   3-gram 匹配数:1
   4-gram 匹配数:0

   根据这些结果,计算 BLEU-4 分数,得出如下结果:
   BLEU-4 分数:exp( 1/4 * (log(3/3) + log(2/2) + log(1/1) + log(0/1) ) ) = 0

   BLEU 分数介于 01 之间,越接近 1 表示机器翻译的质量越好。

3. 困惑度 (Perplexity):
   困惑度是用来评估语言模型的一个指标。它衡量模型在给定一段文本后能预测下一个词的能力。困惑度越低,说明模型的预测能力越好。

   对于一个语言模型,它会基于训练数据计算每个词在序列中的概率。然后,对于一个测试序列,
模型会将其分解为单词,并计算每个单词的概率得分。每个单词的概率得分之积称为该序列的似然度(likelihood)。困惑度是将似然度进行指数化后得到的一个值。

例如,考虑以下语言模型和测试序列:
语言模型: the cat is sitting on the mat
测试序列: the dog is chasing the cat

对于测试序列中的每个单词,模型计算它出现在该序列中的概率和。然后,模型将每个单词的概率得分相乘,得到该序列的概率得分为 0.002。

通过将这个值求指数平均值并取倒数,可以计算出困惑度。在这种情况下,困惑度为 250,说明模型的预测能力相对较差。

希望这次讲解更加清晰易懂。如果您还有任何疑问,请随时提出。

你可能感兴趣的:(人工智能,AIGC,其他)