本文部分图片来源网络或学术论文,文字部分来源网络与学术论文,仅供学习使用。
目录
机器学习笔记(5)——模型评价指标
1、精确率、召回率、准确率、错误率
混淆矩阵
各个指标的对比
注意
2、F1值
为什么选择F1值?
F值的定义
两个场景帮助更好理解F1值
3、PR曲线
PR曲线适用范围(优缺点)
PR曲线怎么看?
4、ROC曲线
ROC曲线怎么看?
ROC曲线的主要作用:
ROC曲线的优点
何时选择PR曲线和ROC曲线?
4、AUC值
AUC值定义
AUC值怎么看?
AUC值的意义
AUC指标评价的优点
ROC曲线与AUC值的比较
首先需要了解模型预测结果得到的混淆矩阵。
Actual positive |
Actual negative |
|
Predicted positive |
TP (true positive) 真阳性 |
FP (false positive) 假阳性 |
Predicted negative |
FN (false negative) 假阴性 |
TN (true negative) 真阴性 |
(Positive与Negative是预测标签,True与false代表预测正误。)
TP (真正,True Positive)表示真实结果为正例,预测结果也是正例;
FP (假正,False Positive)表示真实结果为负例,预测结果却是正例;
TN (真负,True Negative)表示真实结果为正例,预测结果却是负例;
FN (假负,False Negative)表示真实结果为负例,预测结果也是负例。
不难发现四者满足以下关系式:TP+FP+FN+TN=样本总数;FN+TP=TN+FP
有上述混淆矩阵可以得到几个评价指标:准确率、精确率、灵敏度(召回率)、特异度几个指标。
精确率和召回率是二分类指标,不适用多分类,由此得到P-R曲线以及ROC曲线均是二分类评估指标(因为其横纵轴指标均为二分类混淆矩阵计算得到)。
准确率适用于多分类评估。(可以将多分类问题转换为二分类问题进行求解,将关注的类化为一类,其他所有类化为一类)。
理想情况下,精确率和召回率两者都越高越好。然而事实上这两者在某些情况下是矛盾的,精确率高时,召回率低;精确率低时,召回率高,此时需要调和P值和R值。
F函数是一个常用指标,F值是精确率和召回率的调和均值,F值可泛化为对精确率和召回率赋不同权值进行加权调和:
利用α给P和R赋予不同的权重,若α=1则为F1值,即
地震的预测对于地震的预测,我们希望的是recall非常高,也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲precision。情愿发出1000次警报,把10次地震都预测正确了;也不要预测100次对了8次漏了两次。此时,我们就只看recall=99.9999%(地震全中)时的precision,其他指标就变得没有了意义。
嫌疑人定罪基于不错怪一个好人的原则,对于嫌疑人的定罪我们希望是非常准确的。及时有时候放过了一些罪犯(recall低),但也是值得的。对于分类器来说,本质上是给一个概率,此时,我们再选择一个CUTOFF点(阀值),高于这个点的判正,低于的判负。那么这个点的选择就需要结合你的具体场景去选择。
优点:
缺点:
PR曲线怎么看?
ROC曲线:横坐标(x轴)是假阳性率、纵坐标(y轴)是真阳性率。
真阳性率(TPR)和假阳性率(FPR)的公式如下:
同时,TPR与FPR又有其他名称,如下:
敏感度 sensitivity = 召回率recall = true positive rate
特异性 specificity = 1- false positive rate
当数据量少时,绘制的ROC曲线不平滑;当数据量大时,绘制的ROC曲线会趋于平滑。
ROC曲线越靠近左上角性能越好。左上角坐标为(0, 1),即假阳性率FPR=0,真阳性率TPR=1,根据FPR和TPR公可以得知,此时FN=0, FP=0,模型对所有样本分类正确。
一般来说,如果ROC是光滑的,那么基本可以判断没有太大的overfitting,这个时候调模型可以只看AUC,面积越大一般认为模型越好。
ROC曲线:如果测试数据集类别分布大致均衡的时候我们可以用ROC曲线。
PR曲线:当数据集类别分布不均衡的时候采用PR曲线。
Area Under roc Curve(AUC),即ROC 曲线下方的那部分面积的大小,衡量学习器优劣的一种性能指标。AUC可通过对ROC曲线下各部分的面积求和而得。假定ROC曲线是由坐标为 的点按序连接而形成,则AUC可估算为:
通常AUC的值介于0.5到1.0之间,较大的AUC代表了较好的性能。一般训练出的模型,AUC>0.5,如果AUC=0.5,这个分类器等于没有效果,效果与完全随机一样,如果AUC<0.5,则可能是标签标注错误等情况造成
从Mann–Whitney U statistic的角度来解释,AUC就是从所有1样本中随机选取一个样本, 从所有0样本中随机选取一个样本,然后根据你的分类器对两个随机样本进行预测,把1样本预测为1的概率为p1,把0样本预测为1的概率为p0,p1>p0的概率就等于AUC。
即AUC是指随机给定一个正样本和一个负样本,分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性。
AUC的计算方法同时考虑了学习器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器做出合理的评价。AUC对样本类别是否均衡并不敏感,这也是不均衡样本通常用AUC评价预测性能的一个原因。
ROC 曲线具有不随样本比例而改变的良好性质,因此能够在样本比例不平衡的情况下较好地反映出分类器的优劣。
AUC计算主要与排序有关,所以他对排序敏感,而对预测分数没那么敏感。