大模型及传统模型评估指标

一、大模型评价指标

大模型及传统模型评估指标_第1张图片

二、图像类算法指标

避坑指南

1、准确率Accuracy有一个缺点,就是数据的样本不均衡,这个指标是不能评价模型的性能优劣的
2、如果阈值较高,那么精准率Precision会高,但是会漏掉很多数据;如果阈值较低,召回率Recall高,但是预测的会很不准确
3、F1 Score是一种调和平均数,兼顾Precision和Recall
4、AP表示的是检测器在各个recall情况下的平均值,PR曲线

指标详细公式

大模型及传统模型评估指标_第2张图片
大模型及传统模型评估指标_第3张图片
大模型及传统模型评估指标_第4张图片
大模型及传统模型评估指标_第5张图片
大模型及传统模型评估指标_第6张图片
PR曲线越往右效果越好,
大模型及传统模型评估指标_第7张图片

三、回归类算法指标

避坑指南

1、RMSE 的最优化是试图找到平均值,而 MAE 的最优化是让预测偏高的次数与偏低的次数相等
2、RMSE对异常点过于敏感,MAE会忽略异常值
3、Huber Loss结合了MSE和MAE的特点,在误差接近0时使用MSE,在误差较大时使用MAE,但是需要额外设置一个delta超参数
4、如果存在不同样本的真实值有量级差或者更加关注预测和真实值的百分比差异的情况,最好选用MAPE
5、如果y具有随着x进行指数变动的趋势时,适合用MSLE

指标详细公式

大模型及传统模型评估指标_第8张图片
大模型及传统模型评估指标_第9张图片
大模型及传统模型评估指标_第10张图片
大模型及传统模型评估指标_第11张图片
大模型及传统模型评估指标_第12张图片

大语言模型评价框架参考 :

https://juejin.cn/post/7246049169306927159
https://zhuanlan.zhihu.com/p/620618701

你可能感兴趣的:(人工智能,大数据)