大模型实战营Day6 笔记

本期主题为:大模型实战营Day6 笔记_第1张图片

为何测评,因场景众多,需要统一的标准:大模型实战营Day6 笔记_第2张图片

评测的意义:大模型实战营Day6 笔记_第3张图片

传统NLP的一些评测需要:

到了大模型时代,需要评测的就更多了:

客观评测:大模型实战营Day6 笔记_第4张图片

有些主观题可以用模型评价模型:大模型实战营Day6 笔记_第5张图片

已有的评测框架:

本次评测框架的架构图:大模型实战营Day6 笔记_第6张图片

评测流程:

大模型实战营Day6 笔记_第7张图片

一些评测结果:大模型实战营Day6 笔记_第8张图片

在我们生物er紧密相关的医疗领域的一些功能组件:大模型实战营Day6 笔记_第9张图片

一些评测中的困难:

大模型实战营Day6 笔记_第10张图片

觉得有用的话,给个点赞收藏加关注哦!

你可能感兴趣的:(笔记,人工智能,AIGC)