PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models

本文是LLM系列文章,针对《PROMETHEUS 2: An Open Source Language Model Specialized in
Evaluating Other Language Models》的翻译。

PROMETHEUS 2:一个专门用于评估其他语言模型的开源语言模型

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验设置
  • 5 实验结果
  • 6 讨论
  • 7 结论

摘要

GPT-4等专有LM通常用于评估各种LM的响应质量。然而,包括透明度、可控性和可负担性在内的担忧强烈推动了专门从事评估的开源LM的发展。另一方面,现有的开放式评估器LMs表现出严重的缺点:1)它们发布的分数与人类分配的分数存在显著差异,2)它们缺乏执行直接评估和成对排名的灵活性,这是两种最常见的评估形式。此外,他们不具备根据自定义评估标准进行评估的能力,而是专注于有用性和无害性等一般属性。为了解决这些问题,我们引入了PROMETHEUS 2,这是一个比其前身更强大的评估器LM,它密切地反映了人类和GPT-4的判断。此外,它能够处理与用户定义的评估标准分组的直接评估和成对排名格式。在四个直接评估基准和四个成对排名基准上,PROMETHEUS 2在所有测试的开放评估器LM中与人类和专有LM法官的相关性和一致性得分最高。我们的模型、代码和数据都是公开的。

1 引言

2 相关工作

3 方法

4 实验设置

5 实验结果

6 讨论

7 结论

我们介绍PROMETHEUS 2,这是一种专门用于评估其

你可能感兴趣的:(LLM,Daily,LLM,Evaluation,prometheus,开源,语言模型,自然语言处理)