C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题

C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题

1、为什么要使用 “精准率” 和 “召回率”

总结一句话:精准率 和 召回率——解决样本不平衡的情况下 准确率的问题

正常情况下(样本平衡(即好坏参半)),我们使用的是准确率 — Accuracy,来预测正确的结果占总样本的百分比,判别算法的好坏。但是当样本不平衡时(100个人,1个患病,99人健康),准确率 — Accuracy就不起效果了:

  • 举例:

​ 有一个测试集(测有X类型罕见病的),在测试集里,有100条数据,其中99个人是正常人,1个人是患有X罕见病的人。这里提供了两种算法:——(本质就是二分类,通过输出 0 / 1 来判断是否有病)

​ 算法一:是一个真正的模型算法,准确率有 90%

​ 算法二:其实也不算一个算法,就是一个输出语句 print(“1”)。。。那么他的准确率有99%

单从准确率来看,算法二好,但是算法二并不能算是一个真正的 算法,他也并不好用。所以,在样本不平衡情况下,准确率 — Accuracy就没有意义了,这时就引出了 “精确率(差准率)- Precision” 以及 “召回率(查全率)- Recall”

2、样本不平衡、精准率、召回率——相关概念

  • 样本不平衡:

在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。

  • 精准率 :(为了方便理解,民间也叫它**“查准率”**)

    (预测阳性患者)的精准率:

    • 你认为的该类样本,有多少猜对了(猜的精确性如何)。
    • 如果判断患者有病,那么他有极大的可能有病
  • 召回率:(为了方便理解,民间也叫它**“查全率”**)

    • 该类样本有多少被找出来了(召回了多少)。
    • 确保在所有人中,患病患者被找出的概率
  • 【※注释】:记住下面这个田字格的图

C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题_第1张图片

【注释】:“精准率” 与 “召回率” 两个指标都很重要。都是越高越好

3、精准率 与 召回率 之间的权衡——手工 / F1 算法

3.1 为什么要权衡

  • 为什么要权衡呢:

​ 鱼和熊掌不能兼得,有着高准确率,就伴随着低召回率,同理召回率高的情况。如何权衡他们之间的关系,就要看具体情况看重什么。

C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题_第2张图片

  • 强调 准确率——Precision的情况:

    ​ 比如:这中罕见疾病,在医院要是说给谁看错了,说误诊了,肯定是不合适的,那么这个时候要的就是准确率,说你有病,那必然是你大概率有病,不能出差错(很小概率出差错)。——这个时候就需要强调“准确率”

  • 强调 召回率——Rcall的情况:

​ 比如:这种罕见疾病,不能耽误,医院秉着一条“宁可看错,也不能放过”原理,需要在人群中。尽可能多的召回 / 找出 这些有病的人。——这个时候就强调“召回率”

3.2 如何权衡

(平均值的算法不合适,算法3的平均值最大,但是他只是一个简单的输出函数,所以并不能说他好)

权衡分类两种方法:

  • 手动选择:

​ 看实际的生产情况,具体着重哪个指标 从而通 过提 \ 高阀值 来 着重 准确率 \ 召回率

  • 自动选择:

    ​ 这是引出了——F1算法,综合他俩。F1算法和 求并联电阻一样,不在乎二者(准确率和召回率)谁的大,而强调谁的更小,对结果的影响就越大

C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题_第3张图片

C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题_第4张图片

C2-3.4.1 精准率 和 召回率——解决样本不平衡的情况下 准确率的问题_第5张图片

你可能感兴趣的:(机器学习,机器学习)