机器学习如何评估模型结果的好坏

所有事情都需要评估好坏,模型当然也需要!机器学习算法最终的目的就是生成模型,模型的评估有很多指标,主流的评估指标包括 准确率, 召回率 ,F1, AUC 曲线, ROC 曲线
机器学习如何评估模型结果的好坏_第1张图片

目录

一、评估指标的分类

分类问题评估指标

回归问题评估指标

二、分类问题

什么是分类问题?

分类问题的评估指标详解

准确率 — Accuracy

精确率(查准率)- Precision

召回率(查全率)- Recall

F1-measure

ROC曲线、AUC曲线


一、评估指标的分类

分类问题评估指标

  1. 准确率 — Accuracy
  2. 精确率(查准率)- Precision
  3. 召回率(查全率)- Recall
  4. F1-Measure
  5. ROC曲线
  6. AUC曲线

回归问题评估指标

  1. MAE
  2. MSE

二、分类问题

什么是分类问题?

已知:班里有50个同学,20个男生,30个女生。有一个可以评估预测性别的模型。
假设:判断输入的同学是否是男生。(男生是正样本)
结果:将会出现以下四种情况
  • 输入为男性,机器预测为男性(机器预测正确)
  • 输入为男性,机器预测为女性(机器预测错误)
  • 输入为女性,机器预测为女性(机器预测正确)
  • 输入为女性,机器预测为男性(机器预测错误)
以上4种情况构成了混淆矩阵:
P(Positive): 预测结果是正样本
N(Negative): 预测结果是负样本
T(True): 预测结果正确
F(False): 预测结果错误
输入:男生 输入:女生
机器预测:男生 男生→男生
预测结果正确且预测结果为正样本TP
女生→男生
预测结果错误且预测结果为正样本FP
机器预测:女生 男生→女生
预测结果错误且预测结果为负样本FN
女生→女生
预测结果正确且预测结果为负样本TN
  • TP — True Positive:     输入男生,预测为男生(正确)
  • FN — False Negative: 输入男生,预测为女生(错误)
  • TN — True Negative:  输入女生,预测为女性(正确)
  • FP — False Positive:    输入女生,预测为男生(错误)

分类问题的评估指标详解

准确率 — Accuracy

预测正确的结果占总样本的百分比,公式:准确率 =(TP+TN)/(TP+TN+FP+FN)

虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举例,比如在一个总样本中,正样本占 80%,负样本占 20%,样本严重失衡。对于这种正样本占比较大的样本,随意预测分类即可得到 90% 的高准确率。由于样本不平衡的问题,导致得到的高准确率结果信服力低。即如果样本不平衡,准确率就会失效。

精确率(查准率)- Precision

所有被预测为正的样本中实际为正的样本的概率,公式:精准率 =TP/(TP+FP)

精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

召回率(查全率)- Recall

实际为正的样本中被预测为正样本的概率,公式:召回率=TP/(TP+FN)

召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个。

F1-measure

精准率和召回率的综合评估指标:F1=(2×精准率×召回率)/(精准率+召回率)

把精确率(Precision)和召回率(Recall)之间的关系用图来表达,就是下面的PR曲线:为了综合两者的表现,在两者之间找一个平衡点,就出现了一个 F1分数。

机器学习如何评估模型结果的好坏_第2张图片

ROC曲线、AUC曲线

详见:https://www.6aiq.com/article/1549986548173

机器学习如何评估模型结果的好坏_第3张图片

 图中的齿状弧形曲线就是ROC曲线。这个曲线的横轴为FP,纵轴为TP。如何来评估魔性的好坏呢?模型的曲线越接近左上角,说明模型的效果越好。通过AUC值来表示ROC曲线和横轴围起来的面积,也就是ROC曲线下的覆盖的部分,这个AUC的值越大,说明模型效果越好。

AUC 的一般判断标准

  • 0.5–0.7: 效果较低,但是用于股票基金已经很可以了
  • 0.7–0.85: 效果一般
  • 0.85–0.95: 效果很好
  • 0.95–1: 效果非常好,但一般不太可

你可能感兴趣的:(大数据,机器学习,分类,算法)