机器学习——模型测试与评估方法与指标

评估模型的方法与指标

目录

评估模型的方法与指标

1.P-R曲线

2.ROC曲线

3.mAP

4.IOU


1.P-R曲线

查准率(precision)-------P-R曲线的纵坐标

查全率,召回率(recall)------------P-R曲线的横坐标

对于二分类问题,可以将样例根据其真实类别和学习器预测类别的组合划分四种情况:

真正例(true positive)----TP
假正例(false positive)---FP
真反例(true negative)----TN
假反例(false negative)---FN
真实情况 预测结果 预测结果
  正例 反例
正例 TP(正确的标记为正)实际是人脸,你把它标注为人脸,是对的 FN(错误的标记为负)实际是人脸,但你标注他不是人脸,所以你标错了,你错误的把他标注成不是人脸
反例 FP(错误的标记为正)实际不是人脸,但是你把它标为人脸,所以标注错了,你错误的把不是的标为是了 TN(正确的标记为负)实际不是人脸,然后你正确的把它标注为不是人脸,标对了

机器学习——模型测试与评估方法与指标_第1张图片

查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题.
查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。
​
准确率P是评估你预测的准不准(看预测列),而召回率R是看你找的全不全(看实际行).
查准率和查全率是相互矛盾的,一般来说,当查准率高时,查全率往往会偏低,而查全率高时,查准率会偏低,鱼与熊掌的关系

机器学习——模型测试与评估方法与指标_第2张图片

在进行比较时,若一个学习器的P-R曲线被另一个完全包住,则可断言后者优于前者,如图,A优于C;如果两个学习器的P-R曲线发生了交叉,如A和B,则难以一般性的断言两者孰优孰劣,只能在具体的P或R条件下进行比较。然而,在很多情形下,人们往往仍希望把学习器A和B比个高低,这时一个比较合理的判断依据是比较曲线下面积的大小,它在一定程度上表征了学习器在P和R上取得相对“双高”的比例,但这个值不太容易估算,因此人们设计了一些综合考虑P和R的度量。平衡点(brerak-even point,BEP)就是这样一个度量,是P=R时的取值,基于BEP,可判断A优于B。

2.ROC曲线

ROC曲线(受试者工作特征曲线--receiver operating characteristic curve)

横坐标--假正例率(True Positive Rate)----TPR

纵坐标--真正例率(False Positive Rate)---FPR

机器学习——模型测试与评估方法与指标_第3张图片

AUC (Area Under ROC Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。

从AUC判断分类器(预测模型)优劣的标准(AUC越大,分类效果就越好):

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。

  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

  • AUC = 0.5,跟随机猜测一样,就像扔硬币一样,模型没有预测价值。

  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

3.mAP

mAP:mean Averge Precision,作为object detection中衡量检测精度的指标。

在目标检测中,每一类都可以根据recall和precision绘制P-R曲线,AP就是该曲线下的面积。而mAP就是所有类AP的平均值。

  1. 计算AP值,若use_07_metric=true,则用11个点采样的方法,将rec从0-1分成11个点,这些点prec值求平均近似表示AP

  2. 若use_07_metric=false,则采用更为精确的逐点积分方法

4.IOU

重叠度IOU--------Intersection over Union

物体检测需要定位出物体的bounding box,对于bounding box的定位精度,有一个很重要的概念: 因为我们算法不可能百分百跟人工标注的数据完全匹配,因此就存在一个定位精度评价公式:IOU。 它定义了两个bounding box的重叠度,

机器学习——模型测试与评估方法与指标_第4张图片

一般来说,这个score > 0.5 就可以被认为一个不错的结果了。

 

你可能感兴趣的:(机器学习)