人工智能讲义(深度学习常用模型评估指标)

原文地址:【深度学习】常用的模型评估指标 - Madcola - 博客园

文章重点:理解Precision(查准率,有些书籍里也叫清确率)、Recall(查全率,也叫召回率)、F1-score这几个概念

---------------------------------------------------------------------------------------------

没有测量,就没有科学。” 这是科学家门捷列夫的名言。在计算机科学中,特别是在机器学习的领域,对模型的测量和评估同样至关重要。只有选择与问题相匹配的评估方法,我们才能够快速的发现在模型选择和训练过程中的可能出现的问题,迭代地对模型进行优化。本文将总结机器学习最常见的模型评估指标,其中包括:

  • precision
  • recall
  • F1-score
  • PRC
  • ROC和AUC
  • IOU

从混淆矩阵谈起

看一看下面这个例子:假定瓜农拉来一车西瓜,我们用训练好的模型对这些西瓜进行判别,显然我们可以使用错误率来衡量有多少比例的瓜被判别错误。但如果我们关心的是“挑出的西瓜中有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑出来了”,那么错误率显然就不够用了,这时我们需要引入新的评估指标,比如“查准率”和查全率更适合此类需求的性能度量。

在引入查全率和查准率之前我们必须先理解到什么是混淆矩阵(Confusion matrix)。这个名字起得是真的好,初学者很容易被这个矩阵搞得晕头转向。下图a就是有名的混淆矩阵,而下图b则是由混淆矩阵推出的一些有名的评估指标。

人工智能讲义(深度学习常用模型评估指标)_第1张图片

我们首先好好解读一下混淆矩阵里的一些名词和其意思。根据混淆矩阵我们可以得到TP,FN,FP,TN四个值,显然TP+FP+TN+FN=样本总数。这四个值中都带两个字母,单纯记忆这四种情况很难记得牢,我们可以这样理解:第一个字母表示本次预测的正确性,T就是正确,F就是错误;第二个字母则表示由分类器预测的类别,P代表预测为正例,N代表预测为反例。比如TP我们就可以理解为分类器预测为正例(P),而且这次预测是对的(T),FN可以理解为分类器的预测是反例(N),而且这次预测是错误的(F),正确结果是正例,即一个正样本被错误预测为负样本。我们使用以上的理解方式来记住TP、FP、TN、FN的意思应该就不再困难了。,下面对混淆矩阵的四个值进行总结性讲解:

  • True Positive (真正,TP)被模型预测为正的正样本
  • True Negative(真负 , TN)被模型预测为负的负样本
  • False Positive (假正, FP)被模型预测为正的负样本
  • False Negative(假负 , FN)被模型预测为负的正样本

Precision、Recall、PRC、F1-score

Precision指标在中文里可以称为查准率或者是精确率,Recall指标在中卫里常被称为查全率或者是召回率,查准率 P和查全率 R分别定义为:

查准率P和查全率R的具体含义如下:

  • 查准率(Precision)是指在所有系统判定的“真”的样本中,确实是真的的占比
  • 查全率(Recall)是指在所有确实为真的样本中,被判为的“真”的占比

这里想强调一点,precision和accuracy(正确率)不一样的,accuracy针对所有样本,precision针对部分样本,即正确的预测/总的正反例:

查准率和查全率是一对矛盾的度量,一般而言,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。我们从直观理解确实如此:我们如果希望好瓜尽可能多地选出来,则可以通过增加选瓜的数量来实现,如果将所有瓜都选上了,那么所有好瓜也必然被选上,但是这样查准率就会越低;若希望选出的瓜中好瓜的比例尽可能高,则只选最有把握的瓜,但这样难免会漏掉不少好瓜,导致查全率较低。通常只有在一些简单任务中,才可能使查全率和查准率都很高。

再说PRC, 其全称就是Precision Recall Curve,它以查准率为Y轴,、查全率为X轴做的图。它是综合评价整体结果的评估指标。所以,哪总类型(正或者负)样本多,权重就大。也就是通常说的『对样本不均衡敏感』,『容易被多的样品带走』。

人工智能讲义(深度学习常用模型评估指标)_第2张图片

上图就是一幅P-R图,它能直观地显示出学习器在样本总体上的查全率和查准率,显然它是一条总体趋势是递减的曲线。在进行比较时,若一个学习器的PR曲线被另一个学习器的曲线完全包住,则可断言后者的性能优于前者,比如上图中A优于C。但是B和A谁更好呢?因为AB两条曲线交叉了,所以很难比较,这时比较合理的判据就是比较PR曲线下的面积,该指标在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。因为这个值不容易估算,所以人们引入“平衡点”(BEP)来度量,他表示“查准率=查全率”时的取值,值越大表明分类器性能越好,以此比较我们一下子就能判断A较B好。

BEP还是有点简化了,更常用的是F1度量:

F1-score 就是一个综合考虑precision和recall的指标,比BEP更为常用。

你可能感兴趣的:(人工智能,人工智能,深度学习,机器学习)