第六节课 OpenCompass 大模型评测(笔记)

第六节课 OpenCompass 大模型评测(笔记)_第1张图片一、关于评测的三个问题?

1.为什么需要评测?

  • 模型选型
  • 模型能力提升
  • 真是应用场景效果评测

2.我们需要测什么?

  • 知识、推理、语言
  • 长文本、智能体、多轮对话
  • 情感、认知、价值观

3.怎么样测试大语言模型

  • 自动化客观评测
  • 人机交互评测
  • 基于大模型的大模型评测

二、我们为什么需要评测?

第六节课 OpenCompass 大模型评测(笔记)_第2张图片

第六节课 OpenCompass 大模型评测(笔记)_第3张图片

建立在公平的、全面的统一框架下

可以知道模型的能力边界

三、我们需要评测什么?

第六节课 OpenCompass 大模型评测(笔记)_第4张图片

第六节课 OpenCompass 大模型评测(笔记)_第5张图片

四、如何评测大语言模型

1.根据模型

  • 基座模型
  • 对话模型(经过指令微调的模型)

2.根据评测

  • 客观评测(问答题、多选题、判断题/分类题/...)
  • 主观评测(人类评价、模型评价)

3.提示词工程

第六节课 OpenCompass 大模型评测(笔记)_第6张图片

 

五、主流大模型评测框架

第六节课 OpenCompass 大模型评测(笔记)_第7张图片

六、OpenCompass 能力框架

第六节课 OpenCompass 大模型评测(笔记)_第8张图片

Meta官方推荐,唯一由国内开发的大模型评测体系,其他三个分别是HuggingFace、Stanford和Google退出的测评体系。

架构:

第六节课 OpenCompass 大模型评测(笔记)_第9张图片

OpenCompass会将评测请求切分为多个独立执行的任务,从而最大化利用计算资源。

七、OpenCompass前沿探索

  • 多模态(基于感知与推理将评估维度逐级细分)
  • 法律领域(三维认知维度:法律知识理解、法律知识记忆、法律知识应用)
  • 医疗领域(多来源基准评估维度)

八、大模型评测领域的挑战

  • 缺少高质量中文评测集
  • 难以准确提取答案
  • 能力维度不足
  • 测试集混入训练集
  • 测试标准各异
  • 人工测试成本高昂

你可能感兴趣的:(书生·浦语大模型实战营(笔记,笔记,python)