模型评价指标

模型评价指标

1. 准确率、召回率、F1

对于某一类的模型评价指标。

模型评价指标_第1张图片

TP(True Positive): 实际是正例,预测为正例

FP(False Positive): 实际为负例,预测为正例

TN(True Negative): 实际为负例,预测为负例

FN(False Negative): 实际为正例,预测为负例

准确率(Precision) = 也叫查准率,系统检索到的相关文件 / 系统所有检索到的文件总数

召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数

Precision(精确度):在系统识别出来的目标中,正确识别的个数所占的比率

Recall(召回率):也叫查全率,在测试集中目标个数,正确识别的个数所占的比率

注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。

一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如下图:

模型评价指标_第2张图片

如果是做搜索,那就是保证召回的情况下提升准确率;

如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回;

两者都要求高的情况下,可以用F1来衡量:F1 = 2 * P * R / (P + R)

2. AP和mAP

2.1. AP(Average Precision)

AP是为解决P,R,F-measure的单点值局限性的。为了得到 一个能够反映全局性能的指标,可以看考察下图,其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线

模型评价指标_第3张图片

可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统。

从中我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上突出。更加具体的,曲线与坐标轴之间的面积应当越大。

最理想的系统, 其包含的面积应当是1,而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标。

2.2. Approximated Average Precision

其规范的定义如下: (其中p,r分别为准确率与召回率)

在这一积分中,其中p代表Precision ,r代表Recall,p是一个以r为参数的函数,That is equal to taking the area under the curve.

实际上这一积分极其接近于这一数值:对每一种阈值分别求(Precision值)乘以(Recall值的变化情况),再把所有阈值下求得的乘积值进行累加。公式如下:

在这一公式中,N代表测试集中所有图片的个数,P(k)表示在能识别出k个图片的时候Precision的值,而 Delta r(k) 则表示识别图片个数从k-1变化到k时(通过调整阈值)Recall值的变化情况。

2.2.1 Interpolated Average Precision

不同于Approximated Average Precision,一些作者选择另一种度量性能的标准:Interpolated Average Precision。

假设当前识别出k个图片,则使用识别图片数大于k时最大的Precision值与Recall的变化值相乘。公式如下:

一些很重要的文章都是用Interpolated Average Precision 作为度量方法,并且直接称算出的值为Average Precision 。PASCAL Visual Objects Challenge从2007年开始就是用这一度量制度,

他们认为这一方法能有效地减少Precision-recall 曲线中的抖动。所以在比较文章中Average Precision 值的时候,最好先弄清楚它们使用的是那种度量方式。

2.2.2 mAP(mean Average Precision)

针对单图多目标的情况

每一个类别都可以根据recall和precision绘制一条曲线,那么AP就是该曲线下的面积,而mAP是多个类别AP的平均值,这个值介于0到1之间,且越大越好。这个指标是目标检测算法最为重要的一个。

参考:

https://blog.csdn.net/yechaodechuntian/article/details/37394967

https://blog.csdn.net/syoung9029/article/details/56276567

你可能感兴趣的:(模型评价指标)