那些动不动就“追上或超越”GPT的模型,球球你们收了神通吧

在“第一个中文大模型”、“第一个垂类大模型”等名号被各大科技公司相继占领之后,这场竞赛逐渐转移到了分数上,竞争者们纷纷宣称自己在某些维度上排名第一,或是在某方面远超GPT-4。性能不行,分数再高也没用呀。

原文链接:超越GPT4的捷径,被国产大模型找到了-36氪
AIGC专区:aigc
更多消息:AI人工智能行业动态,aigc应用领域资讯

那些动不动就“追上或超越”GPT的模型,球球你们收了神通吧_第1张图片

即便是谷歌在发布其新模型Gemini时也未能免俗。

到了年末,AI排行榜上充斥着各种高分大模型,然而它们似乎也就止步于此,高分的模型就只存在于排行榜上,真正能用的似乎也没几个。用李彦宏的话来说,就是目前大量的资源浪费在各种各样基础模型的训练上,甚至是跑分刷榜上,而比较少的资源和精力放在了AI原生应用上。大模型为什么要跑分,源于一个最朴实的概念:如果用户用不上,那么如何证明咱家的模型高级?

在ChatGPT横空出世后,大家只知道ChatGPT很厉害,因为它可以像模像样地回答任何问题,哪怕是脑筋急转弯。于是大家开始用各种刁钻的问题问大模型,来判断大模型好不好。

被称为人类最后堡垒的“弱智吧”问题,常常用来用测试大模型,像什么“老鼠生病了,吃老鼠药可以治好吗?”、“跳多高才能跳过广告?”“生蚝煮熟了还叫生蚝吗?”但仔细想想,这种测试方式不够科学也不太全面,而且万一未来AI主导社会,显然也不是靠抖机灵上位的。

那些动不动就“追上或超越”GPT的模型,球球你们收了神通吧_第2张图片

于是,众多研究机构、高校开始建立完善的大模型评估体系。比如由MBZUAI、上海交通大学、微软亚洲研究院共同推出的CMMLU,专门用于评估大模型在中文语境下的知识和推理能力。

我们根据OpenCompass(主流的开源网站)整理了一下目前主流的AI大模型评测方法,大概有39种。严格意义来说,这39种评测方法只要有一个领域领先GPT,就可以拿来当宣发标题了。大模型测试都会涉及5个方面的能力。考试能力、语言能力、知识能力、理解能力和推理能力。

那些动不动就“追上或超越”GPT的模型,球球你们收了神通吧_第3张图片

考试能力主要测试了大模型在特定任务或条件下的表现。以GAOKAO-Bench(一个数据集)为例,这个测试集简单来说就是让大模型去参加高考。

GAOKAO-Bench收集了2010-2022年全国高考卷的题目,包括选择填空之类的客观题,和阅读理解类的主观题,其中主观题训练集的标准答案由上海市曹杨第二中学的老师们评分。插句题外话,这所学校在上海高中里面可以排进前二十。这一能力通常说明模型在接受特定训练后,能否实现相应的效果,也是评测中努努力最容易得高分的项目。这和好好学习就能考高分如出一辙。

看到眼花缭乱的测试,你是不是觉得高分的大模型一定很厉害?————还真不一定。

首先,行业内存在“大模型测试泄露”的问题。很多大模型的测试题目是公开的,导致厂商可以“针对性训练”AI模型以提高分数。(说的就是你!老滑头谷歌Gemini)

这一现象在人民大学高瓴人工智能学院最近发表的论文《Don’t Make Your LLM an Evaluation Benchmark Cheater》被证实。这种做法虽然能提升测试成绩,但并不代表模型的真实能力得到了提升。

那些动不动就“追上或超越”GPT的模型,球球你们收了神通吧_第4张图片

换句话说,只要把这些测试题全部喂给大模型,然后送这个模型去考试,怎么得分都不会低,毕竟是开卷考试。具体来看,在使用测试题进行训练后,小模型也能秒杀大模型。论文中测试了很多模型,这里我们以LLaMA为例。LLaMA-2(7B)在没有使用测试题训练前,在各大测试中分数都不如LLaMA-13B。但在使用测试题训练后,LLaMA-2(7B)的分数可以接近甚至高于LLaMA-65B。后者的参数量是前者的近10倍,要知道,在绝大多数情况下,参数量往往决定了大模型的能力。

那些动不动就“追上或超越”GPT的模型,球球你们收了神通吧_第5张图片

你可能感兴趣的:(人工智能,aigc,机器学习,深度学习,语言模型)