【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记

《OpenCompass 大模型评测》

文档:OpenCompass大模型评测教程

1、主观评测

【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记_第1张图片

2、提示词工程

【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记_第2张图片
李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?

李华每周给2个不同的朋友写一封3页的信, 一周写两次。他一年总共写了多少页的信。

问题:李华每周给2个不同的朋友写一封3页的信,一 周写两次。他一年总共写了多少页的信?答案:

问题:李华每周给2个不同的朋友写一封3页的信,一周写两次。 他一年总共写了多少页的信?请你一步一步思考。答案:

这是一道数学题,请在“答案”后给出你的回答:李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?请你一步一步思考。答案:

3、主流大模型评测框架

【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记_第3张图片

4、大模型评测练习

在InternStudio平台中选择A100 (1/4) * 2的配置,镜像选择 Cuda11.7-conda

4.1 激活虚拟环境

conda activate opencompass

4.2 Clone项目代码

git clone https://gitee.com/open-compass/opencompass

4.3 数据集验证

cd opencompass && python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

4.4 Troubleshooting

(1)评测结果的分数表格中,出现很多数据集没有结果,而且比文档中无结果的数据集条目多很多

“刚开始我们是直接用的之前的机器配置,也就是 A100 (1/4),显存是20G”。

于是就出现了一个问题如图所示:
【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记_第4张图片
可以看到ceval-plant_protectionceval-basic_medicineceval-clinical medicine等数据集都没有评测分数,甚至连后面的metric类型都没有显示出来,而文档中即使没有显示分数的条目也都会显示metric类型,所以我们感觉有点问题;
经过查询资料得知:

“出现许多数据集无评分一般OOM了”。

再次比对视频教程,发现需要使用40G的显存配置;
修改之后,就跟文档中的结果完全一样了:
【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记_第5张图片

你可能感兴趣的:(学习,笔记)