趣谈 错误率 精度 查准率 查全率

错误率 精度 查准率 查全率

笔者刚开始学习ML DL,对于分类任务中的几个性能度量指标,之前一直有点绕,今天看西瓜书时才明白,尤其是对于查准率与查全率部分,然后记录下来预防后期自己忘掉。

错误率与精度

首先对于错误率很好理解,就是分类错误的样本数占总样本数的比例,假设你有N个样本,其中有F个样本被错误分类,那么错误率:

p = F/N -------错误率

于此对应的正确率也就是精度为:

acc = 1 -p

其实对于错误率与精度的概念还是很好理解的,这与我们日常中了解的概念没啥区别,接下来就是对于查准率(准确率)以及查全率(召回率)的理解了。

查准率与查全率

我们以二分类问题为例,上文提到的精度的概念是有多少样本被分为了正样本,而我们更想知道的是被分为正样本的数据是否真的全部为正样本呢?其中是否有被错误判别为正样本的数据呢?因此这时单用上述的错误率与精度就很难对此进行评价。
对于二分类问题,可将样本根据其真实类别和学习器预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN)则显然有:

TP+FP+TN+FN = 样例总数

分类结果混淆矩阵:

真实情况/预测情况 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

首先给出两者的定义:
查准率P:
P = T P T P + F P P = \dfrac{TP}{TP+FP} P=TP+FPTP
查全率R:
R = T P T P + F N R = \dfrac{TP}{TP+FN} R=TP+FNTP

查准率顾名思义,要点在与“准”,也就是你分类中的结果,其中正确分类的比例是多少,查全率的重点在于“全”,也就是说你你当前分出的类别,是否在总样本中还有剩余,检测出的样本占这一类别样本的总数的比例是多少,这两者一般而言是一个矛盾体,也就是随这R的增加P会下降,但是在一些简单分类任务中,如果你的分类器识别 效果特别棒,那么也会出现随着R的增加P会保持一定的高精度值。

我们以经典的西瓜案例子进行讲解,话说小花的导师今天闲来无事,给了小花一堆西瓜,西瓜有好有坏:

a.现在小花的导师对小花说:你给我把好瓜挑出来送到办公室,如果最后给我的瓜里有坏瓜,那么这个月的补贴就由100变为50(都是金钱)。这种情况下,小花会怎么做呢,那肯定是把那种看起来百分百像好瓜的西瓜都挑选出来给boss,而这时那种看起来坏掉但是实际是好瓜的的西瓜可能就会被略掉,次时我们的查准率P就会很高,因为我们的查准率公式中此时的FP基本会很小很小,为了50块小花真是宁缺勿滥,也就是说查准率P很高的情况下我们会漏检一部分目标,而此时我们的查全率R自然会较小(对照公式很容易明白)。

b.第二天,小花的老师换了要求(可能回家后师娘发现太浪费),说你把好瓜尽可能都给我挑出来,要是挑完以后我发现剩余的瓜里还有好瓜,我就给你扣工资,此时的小花又会怎么做呢?自然这次的小花看到好瓜的他就挑出来,这样才能尽可能的保证把所有的好瓜都挑出来。(其实小花如果把所有的瓜都给了导师,那么此时的我们的查全率R就是100%了,因为眼前的这所有的瓜中一定会包含所有的好瓜,自然而然这时有些坏瓜也被认为了好瓜,自然而然此时的查准率P就会很低。)

总的来说几个字概括:
查准率高时是漏检率高,误检率低;查全率高时是漏检率低,误检率高

结合上边的小趣味以及公式,我相信查准率以及查全率的概念会很容易搞懂笔者比较笨,所以写下来预防自己后期忘掉!!别喷我 我第一次写博客 太能哔哔了 溜了溜了~~
趣谈 错误率 精度 查准率 查全率_第1张图片

你可能感兴趣的:(趣谈 错误率 精度 查准率 查全率)