【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs

前言

  • 该文章提出一种利用大模型对open-domain对话进行评估的方法。主要利用一个Prompt,来指示LLMs一次性输出相应的多个指标
  • 原文地址:LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models

方法

  • 基于大模型,提出一个unified multi-dimensional evaluation method LLM-EVAL,不依赖human references和多种prompts,来从多个角度评测对话

    • 其实就是利用一个 prompt,仅调用一次模型,能够在多个维度评估对话
    • 有两种设定,分别在0-5的区间和0-100的区间进行评分

    【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第1张图片

    • unified evaluation schema: 一个自然语言指令,定义任务以及评估标准(包含多个维度,以及每个维度的分数区间)

    • single prompt for evaluation: 包含必要的对话上下文和需要评估的 target response

      【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第2张图片

      • reference是可选的
  • 输入:unified evaluation schema + single prompt for evaluation

  • 输出:

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第3张图片

结论

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第4张图片

  • DSTC 10 hidden test datasets 上,0-5和0-100两个版本都好,0-5的还更好一些

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第5张图片

  • 在带有human reference的数据集上,两种设定的效果都好,0-100的最好

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第6张图片

  • 在不带human reference的数据集上,两种设定效果都好,说明在可以作为reference-free的评估方法
  • 上面三张表,在各种数据集上的效果都很不错,说明该指标评估效果好,且鲁棒性好,泛化性强

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs_第7张图片

  • dialogue-optimized LLMs Claude ChatGPTLLM-EVAL 上效果更好,小一些的模型 Anthropic Claude-instant虽然没达到最好效果,但是也能用

  • 使用greedy decoding比nucleus sampling生成 LLM-EVAL效果更好

你可能感兴趣的:(自然语言处理,论文阅读,LLMs,论文阅读)