BIG-bench

推荐频道

BIG-bench

小心你的大模型被基准评估坑了，模型直接傻掉！人大高瓴揭秘大模型作弊

典型的评估基准包括MMLU（用于衡量多任务语言理解能力）、Big-Bench（用于量化和外推LLMs的能力）以及AGIEval（用于评估应对人类级任务的能力）。不同的

夕小瑶·2023-11-13 01:32

清华发布 KoLA 评测集，分4个认知层级评测LLM，GPT-4竟不是第一？

现在常用的榜单，例如MMLU评测了57个学科知识，Big-Bench评测204个推理任务。而这次，清华大学提出KoLA评测基准，从掌握和利用世界知识的角度，衡量大语言模型的表现。

夕小瑶·2023-06-21 18:58

NLP：BIG-bench基准任务的简介、安装、使用方法之详细攻略

NLP：BIG-bench基准任务的简介、安装、使用方法之详细攻略目录BIG-bench基准任务的简介1、BIG-bench基准任务的概述2、BBLBIG-bench基准任务的安装BIG-bench基准任务的使用方法

一个处女座的程序猿·2023-06-18 23:35

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他