学习器的性能度量(机器学习评价指标:Accuracy、Precision、Recall、F1-score)

对模型的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准
回归任务中最常用的性能度量是“均方误差”(MSE)
分类任务中的评价标准更为全面,下面着重介绍分类评价任务中的模型性能度量标准

1. 错误率(error_rate)与准确率(accuracy)

(既适用于二分类也适用于多分类任务)
准确率:分类正确的样本数占样本总数的比例
在这里插入图片描述
错误率:分类错误的样本数占总样本数的比例
在这里插入图片描述

2.精确率(precision)和召回率(recall)

对于二分类问题,可以将样例根据真实类别与预测类i别的组合分为:
真正例(true positive): 将正类预测为正类
假正例(false positive):将负类预测为正类(误报)
真反例(true negative):将负类预测为负类
假反例(false negative):将正类预测为负类(漏报)
其混淆矩阵情况如下:
学习器的性能度量(机器学习评价指标:Accuracy、Precision、Recall、F1-score)_第1张图片
一般Precision和Recall都是对每某个类别而言的,比如正类的Recall或负类的Recall
精确率的定义:
正样本的Precision表示预测为正的样本中有多少预测对了
在这里插入图片描述
召回率的定义:
正样本的Recall表示真实标签为正的样本有多少被预测对了
在这里插入图片描述

3.F-score

Precision和Recall有时会出现矛盾的情况(),为了综合考量它们,常采用指标F-score,F值越高表示模型效果越好。
F-score是Precision和Recall的加权调和平均
在这里插入图片描述
当参数α = 1时,就是最常被采用的的F1-score:
在这里插入图片描述

4. ROC曲线和AUC(Area Under Curve)

很多学习器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则为反类。这个实值或概率预测结果的好坏,直接决定了学习器的泛化能力。
根据学习器的预测结果对样例进行排序,按照顺序逐个把样本作为正例进行预测,每次计算出“真正例率”(True Positive Rate,简称TPR)作为纵轴,计算出“假正例率”(False Positive Rate,简称FPR)作为横轴。
学习器的性能度量(机器学习评价指标:Accuracy、Precision、Recall、F1-score)_第2张图片
学习器的性能度量(机器学习评价指标:Accuracy、Precision、Recall、F1-score)_第3张图片
(图片和以下四点结论来源:https://blog.csdn.net/quiet_girl/article/details/70830796)

(1)曲线与FP_rate轴围成的面积(记作AUC)越大,说明性能越好,即图上L2曲线对应的性能优于曲线L1对应的性能。即:曲线越靠近A点(左上方)性能越好,曲线越靠近B点(右下方)曲线性能越差。
(2)A点是最完美的performance点,B处是性能最差点。
(3)位于C-D线上的点说明算法性能和random猜测是一样的–如C、D、E点。位于C-D之上(即曲线位于白色的三角形内)说明算法性能优于随机猜测–如G点,位于C-D之下(即曲线位于灰色的三角形内)说明算法性能差于随机猜测–如F点。
(4)虽然ROC曲线相比较于Precision和Recall等衡量指标更加合理,但是其在高不平衡数据条件下的的表现仍然过于理想,不能够很好的展示实际情况。

参考文档:

[1] 机器学习——周志华
[2] https://blog.csdn.net/u014380165/article/details/77493978
[3] https://blog.csdn.net/quiet_girl/article/details/70830796
[4] https://blog.csdn.net/weixin_42518879/article/details/83959319

你可能感兴趣的:(机器学习,机器学习,深度学习)