AGIEval

推荐频道

AGIEval

国内外十大语言模型横向对比测评（截至2023.12.8）

主要参考资料：B站Up主贯一智能科技《国内外十大语言模型之横向对比测评》现在有非常多的开源测试数据集，比如MMLU、AGIEval、CEval但是根据Up主描述比较费时成本高，其次这类标准化评测更多考察模型在各个学科和领域的综合表现

弱冠少年·2024-01-13 05:11

小心你的大模型被基准评估坑了，模型直接傻掉！人大高瓴揭秘大模型作弊

典型的评估基准包括MMLU（用于衡量多任务语言理解能力）、Big-Bench（用于量化和外推LLMs的能力）以及AGIEval（用于评估应对人类级任务的能力）。不同的

夕小瑶·2023-11-13 01:32

【GPT】中文大语言模型梳理与测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

文章目录概述申请后直接使用大模型开源可本地部署通识数据集测评（C-Eval、AGIEval、MMLU、SuperCLUE）自媒体报道SuperCLUE：中文通用大模型综合性基准C-Eval：中英测评（清华上交提出

曾小蛙·2023-10-24 15:18

百川智能发布开源中英文大模型；GitHub调查显示92%的程序员使用AI编码工具；第一季度中国云服务支出增长6%丨每日大事件...

baichuan-7B在C-Eval、AGIEval和Gaokao中文权威评测榜单上，超过了ChatGLM-6B等其他大模型，并且在MMLU英文权威评测榜单上，领先LLaMA-7B。

数据猿·2023-06-19 16:47

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他