【第7节】OpenCompass 大模型评测实战

目录

  • 1 基础课程笔记
    • 1.1 研究大模型的评测的必要性
    • 1.2 OpenCompass介绍
      • 1.2.1 评测体系开源历程
      • 1.2.2 如何评测大模型?
        • 1.2.2.1 设计思路
        • 1.2.2.2 评测的方法:
          • (1) 客观评测
          • (2) 主观评测
        • 1.2.2.3 评测中关于提示词工程优化
      • 1.2.3 主要产品:工具-基准-榜单 三位一体
        • 1.2.3.1 CompassRank性能榜单
        • 1.2.3.2 全栈评测工具链
        • 1.2.3.3 高质量社区-广泛的数据集
      • 1.2.4 与上一代相比能力的提升
  • 2 实践操作
    • 2.1 工具架构
    • 2.2 评价流程概览
    • 2.3 环境搭建
    • 2.4 数据下载
    • 2.5 数据评测
  • 问题解决

欢迎关注我的公众号,后续将会及时更新更多AI前沿内容和实践。
公众号:Aifastlane
【第7节】OpenCompass 大模型评测实战_第1张图片

1 基础课程笔记

【资源汇总】视频 | 文档 | opencompass - github | opencompass官方文档

基础作业

你可能感兴趣的:(大模型,LLM,书生浦语,agent)