ChatGLM2-12B 效果怎么样?官方公布

点击蓝字

ChatGLM2-12B 效果怎么样?官方公布_第1张图片

关注我们

AI TIME欢迎每一位AI爱好者的加入!

以下内容来源于GLM大模型

ChatGLM2 系列模型发布月余,大家对 ChatGLM2-6B 的效果已经有较多认知。我们现在公布 ChatGLM2-12B 在部分中英文典型数据集上的评测效果,供大家参考。这些数据集包括 MMLU(英文)、C-Eval(中文)、GSM8K(数学) 和 BBH(英文) 等。

ChatGLM2-12B 模型在这些数据集上取得了不错的成绩。我们将继续不断改进和优化模型,以提供更优质的模型效果。

具体信息请参考:https://github.com/THUDM/ChatGLM2-6B

为感谢大家对 GLM 技术团队的关注和支持,我们计划于近期举办「ChatGLM开发者日」,为大家分享大模型研究相关的前沿进展,包括且不限于模型训练、微调、检索、prompt 等,敬请关注。

MMLU

ChatGLM2-12B 效果怎么样?官方公布_第2张图片

Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试,Base 模型使用 few-shot answer-only 的方法测试。

C-Eval

ChatGLM2-12B 效果怎么样?官方公布_第3张图片

Chat 模型使用 zero-shot CoT 的方法测试,Base 模型使用 few-shot answer only 的方法测试。

GSM8K

ChatGLM2-12B 效果怎么样?官方公布_第4张图片

所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自  http://arxiv.org/abs/2201.11903

* 我们使用翻译 API 翻译了 GSM8K 中的 500 道题目和 CoT prompt 并进行了人工校对。

BBH

ChatGLM2-12B 效果怎么样?官方公布_第5张图片

所有模型均使用 few-shot CoT 的方法测试,CoT prompt 来自 

https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts

往期精彩文章推荐

ChatGLM2-12B 效果怎么样?官方公布_第6张图片

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1100多位海内外讲者,举办了逾550场活动,超600万人次观看。

ChatGLM2-12B 效果怎么样?官方公布_第7张图片

我知道你

在看

~

69ecd464de03cd1cd142482ebbef25ea.gif

点击 阅读原文 直达ChatGLM2-12B!

你可能感兴趣的:(ChatGLM2-12B 效果怎么样?官方公布)