CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE

本文是LLM系列文章,针对《CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE》的翻译。

CHATEVAL:通过多智能体的辩论,实现更好的基于LLM的评估

  • 摘要
  • 1 引言
  • 2 方法
  • 3 实验
  • 4 分析
  • 5 相关工作
  • 6 结论

摘要

文本评估在历史上提出了重大挑战,通常需要大量的人力和时间成本。随着大型语言模型(LLM)的出现,研究人员探索了LLM作为人类评估替代品的潜力。虽然这些基于单智能体的方法显示出了前景,但实验结果表明,还需要进一步的进步来弥补其目前的有效性和人类水平的评估质量之间的差距。认识到人类评估过程的最佳实践通常涉及多个人类注释器在评估中的协作,我们求助于多智能体辩论框架,超越了单一智能体的提示策略。基于多代理的方法使一组LLM能够与一系列智能同行协同工作,利用他们独特的能力和专业知识来提高处理复杂任务的效率和有效性。在本文中,我们构建了一个名为ChatEval的多智能体裁判团队,以自主讨论和评估不同模型对开放式问题和传统自然语言生成(NLG)任务生成的回答的质量。我们从实际场景中获得见解和教训,在这些场景中,人类发起小组讨论进行头脑风暴,并在ChatEval中提出不同的沟通策略。我们在两个基准任务上的实验表明,ChatEval提供了与人类评估一致的卓越准确性和相关性。此外,我们发现不同的角色提示(不同的人物角色)在多智能体辩论过程中是必不可少的;也就是说,在提示中使用相同的角色描述可能会导致性能下降。我们的定性分析还表明,ChatEval超越了单纯的文本评分,为可靠的评估提供了一个模仿人类的评估过程。我们的代码可在https://github.com/chanchimin/ChatEval.

1 引言

2 方法

3 实验

4 分析

5 相关工作

6 结论

在本文中,我们提出了证据,证明ChatEval有助于提高文本质量的评估性能,更紧密地与人类偏好保持一致。我们强调了多样化角色规范的必要性,并提出了不同的沟通策略,作为ChatEval的组成部分。我们对讨论过程的定性分析传达了ChatEval如何评估文本的深刻直觉,并证实了我们的方法支持类似于人类判断的全面评估的能力,从而证明了我们框架的可靠性和有效性。

你可能感兴趣的:(LLM,语言模型,人工智能)