论文翻译:ICLR-2023.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS

DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS

https://openreview.net/forum?id=gjfOL9z5Xr

Dynamic evaluation to mitigate potential test data contamination: we integrated the dynamic evaluation framework DyVal [5], which generates evaluation samples on-the-fly with controlled complexity. 来自:https://github.com/microsoft/promptbench

b站讲解视频:https://www.bilibili.com/video/BV1iSUmYREub

DYVAL:大型语言模型推理任务的动态评估

文章目录

  • DYVAL:大型语言模型推理任务的动态评估
  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 DYVAL
    • 3.1 通用动态评估描述语言
    • 3.2 基于图的动态评估用于推理任务
      • 3.2.1 生成算法G:DAG构建
      • 3.2.2 图生成约束C
      • 3.2.3 描述函数F
    • 3.3 DYVAL与现有基准测试共存并共同进化
  • 4 实验
    • 4.1 实验设置
    • 4.2 数学、逻辑推理和算法任务的结果
    • 4.3 案例研究
    • 4.4 消融研究
  • 5 DYVAL有助于微调
  • 6 结论与讨论
  • B
    • B.1 生成算法
      • B.1.1 T-DAGs
      • B.1.2 G-DAGs

摘要

大型语言模型(LLMs)在各种

你可能感兴趣的:(LLMs-数据污染,论文翻译,语言模型,人工智能,自然语言处理)