神仙打架:大模型能力在线比拼

LMSYS 组织在https://chat.lmsys.org/?arena上进行了一项有趣的试验,同时与两个匿名的大模型聊天,在模型输出结果之后,再人工对其进行打分,模型的名称会在投票后显示。

神仙打架:大模型能力在线比拼_第1张图片

不过,这一轮Claude抢跑直接说出了自己的名字,但是从第二轮问答来看,右边的Claude明显还是强于左边的mpt-7b的。一共有如下13位参赛选手:

vicuna-13b koala-13b oasst-pythia-12b RWKV-4-Raven-14B
alpaca-13b  chatglm-6b llama-13b dolly-v2-12b
stablelm-tuned-alpha-7b fastchat-t5-3b mpt-7b-chat ChatGPT-3.5

欸,不是说好的13位参赛选手吗,怎么还少一位?缺少的那一位当然就是“跳出三界外,不在五行中”的GPT-4了。

神仙打架:大模型能力在线比拼_第2张图片

在这一轮的测试中,虽然Claude充分发挥了他话痨的特点,很尽力的在安慰我了,但是GPT-4就是这么不讲道理的,用最少的语言就给出了最精妙的回答。

神仙打架:大模型能力在线比拼_第3张图片

而在这一轮的卧龙凤雏比拼当中,ChatGLM依旧嘴硬我行我素,但是无奈alpaca在中文领域实在是太薄弱了,无奈我的票也只能投给ChatGLM了。但是需要注意的是,由于某些原因,这个测试绝大部分是在英语环境下,因此alpaca的这个弱点并不会被放大。以下是总榜单:

神仙打架:大模型能力在线比拼_第4张图片
可以看到GPT-4毫无意外的又荣登宝座了,不过随着近期bard以及Claude的升级,不知道下周GPT-4还能不能蝉联这个桂冠呢?除此之外ChatGLM以6B的弱小身板能在英文环境下依旧徘徊在中游,也挺令人吃惊的。下图是测试的详细数据:

神仙打架:大模型能力在线比拼_第5张图片

神仙打架:大模型能力在线比拼_第6张图片

神仙打架:大模型能力在线比拼_第7张图片

神仙打架:大模型能力在线比拼_第8张图片

最近还流传了一张中文大模型之间的比拼图:
神仙打架:大模型能力在线比拼_第9张图片

这张图据说争议很大,但是经过我这个弱小的人类测试,实际效果可能也跟这张图大差不差。文心一言最近也在以肉眼可见的速度变聪明,相信不久后他也能摆脱倒一的称号,慢慢变强。

你可能感兴趣的:(chatgptchatglm)