中文大语言和多模态模型测评

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your teamicon-default.png?t=N7T8https://yaofu.notion.site/C-Eval-6b79edd91b454e3d8ea41c59ea2af873排行榜 | C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件icon-default.png?t=N7T8https://cevalbenchmark.com/static/leaderboard_zh.htmlhttps://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboardicon-default.png?t=N7T8https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboardGitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 - GitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。icon-default.png?t=N7T8https://github.com/HqWu-HITCS/Awesome-Chinese-LLMhttps://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboardicon-default.png?t=N7T8https://huggingface.co/spaces/AILab-CVC/SEED-Bench_LeaderboardGitHub - BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluation:sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation. - GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models at Evaluationicon-default.png?t=N7T8https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/EvaluationMMBenchicon-default.png?t=N7T8https://mmbench.opencompass.org.cn/leaderboard中文大语言模型:

C-Eval/OpenCompass/SuperCLUE/GAOKAO/Open LLM Leaderboard/CMMLU/MMCU/,C-Eval和Open LLM Leaderboard这两个榜单都比较不错。

C-Eval:MMLU/MATH/BBH,MMLU考虑了57个学科,从人文到社科到理工多个大类的综合知识能力,C-Eval包括4个大方向,52个学科,从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。

中文大语言和多模态模型测评_第1张图片

1.模型强弱的核心指标

区分模型强弱的核心指标:知识和推理。知识型能力可以很好的衡量底座模型的潜力,推理能力是在知识的基础上进一步上升的能力,它代表模型是否能做很困难,很复杂的事情。

  • 知识型的能力是模型能力的基础,推理能力是进一步的升华 — 模型要推理也是基于现有的知识图里。
  • 知识性任务的榜单上,模型大小和模型分数一般是连续变化的,不大会因为模型小就出现断崖式下跌 — 从这个角度来说知识型的任务更有区分度一点。
  • 推理型任务的榜单上,模型大小和模型分数可能存在相变,只有当模型大到一定程度之后(大概是 50B 往上,也就是 LLaMA 65B 这个量级),模型推理能力才会上来。
  • 对于知识性的任务,Chain-of-thought (CoT) prompting 和 Answer-only (AO) prompting 的效果是差不多的;对于推理型任务,CoT 显著好于 AO.
  • 所以这边需要记住一下,CoT 只加推理效果不加知识效果。在 C-Eval 数据集中,我们也观察到了这个现象。

2.C-Eval的目标

对标MMLU(GPT3.5/GPT4/PaLM/Gopher/Chinchilla) 

3.数据集制作

从头开始手工制作数据集,并且防止题目被爬虫爬到训练集里。

C-Eval里面的题目大多数来源于pdf和word文件,先把pdf文件用ocr来电子化,把格式统一转成Markdown,其中数理部分统一用latex表示,公式处理,能转latex直接转,转不了就手动输入,

中文大语言和多模态模型测评_第2张图片

构造官方的chain-of-thought prompt,针对in-content example,让GPT4生成一个chain-of-thought,生成的也不一定对,自己在修改一遍。

在本地用模型将测试集中的题目进行推理,推理之后上传网站,得到分数。C-Eval的题目都是模拟题,不适用真题,真题容易被训练。

4.提升模型排名

llama作为底座模型;使用GPT4生成的数据;

多模态大模型测评:

MME/MMBENCH(opencompass)/SEED-Bench Leaderboard/

你可能感兴趣的:(大模型,多模态和生成,chatgpt,人工智能,多模态)