大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第1张图片

基于OpenCompass大模型评测

关于评测的三个问题Why/What/How

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第2张图片

Why

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第3张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第4张图片

What

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第5张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第6张图片
有许多任务评测,包括垂直领域

How

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第7张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第8张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第9张图片

包含客观评测和主观评测,其中主观评测分人工和模型来评估。

提示词工程

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第10张图片

主流评测框架

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第11张图片

OpenCompass 能力框架

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第12张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第13张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第14张图片

  • 模型层
  • 能力层
  • 方法层
  • 工具层

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第15张图片
支持丰富的模型

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第16张图片
评测流水线设计,能切分多个独立执行的任务,最大化利用计算资源。
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第17张图片
大模型能力对比结果输出

前言探索
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第18张图片

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第19张图片
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第20张图片
探索性方向涵盖:

  • 多模态
  • 法律
  • 医生

挑战

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第21张图片

实践

创建开发环境和准备数据集

大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第22张图片
查看支持的数据集:
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第23张图片

启动评测

客观评测

主要是run.py代码文件
在这里插入图片描述

  • datasets:指定数据集
  • hf-path:模型文件
  • tokenizer-path:tokenizer路径
  • max-seq-len:模型读入的最大长度
  • max-out-len:模型输出的最大长度,客观题设置一般较小
  • –debug:debug模式,打印出所有的过程
    大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第24张图片
    大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第25张图片
主观评测

主要是eval_sbujective_alignbench.py文件修改,需要注意modelmax_out_len等处的修改。
大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测_第26张图片

你可能感兴趣的:(#,书生·浦语大模型,大模型,LLM,评测,OpenCompass)