每天五分钟机器学习:评估指标之查准率和召回率

本文重点

在上一节课程中,我们学习了准确率(或者说错误率)。分类错误率并不是对所有情况都合适的误差度量值,不同的情况要使用一个合适的数值评估值,有一种情况就是偏斜类的问题,什么是偏斜类的问题呢?下面就开始来讲解这个问题。

什么是偏斜类?

偏斜类问题可以看作是数据不平衡的问题,偏斜类情况表现为训练集中有非常多的同一种类的实例,只有很少其他类的实例,这个就是偏斜类问题,那么这种问题会对我们的算法的误差值度量造成什么影响呢?

偏斜类的实例

用算法来预测癌症是否是恶性的,我们训练一个逻辑回归模型,假设我们使用验证集来检验了这个分类的模型,我们发现它的错误率只有1%,这个看起来还是不错的。但是我们发现了在我们的测试集中其实只有0.5%的患者得了癌症,那么可以说这个1%的错误率就不算是那么好了。

这种数据集中样本y=1(有癌症),y=0(没有癌症)样本相比非常少,我们称这种情况为偏斜类,如果模型通过总是预测y=0算法表现的会很好,假设我们编写一个非学习而来的算法,在所有情况下都预测肿瘤是良性的,那么误差只有 0.5%。因此直接使用分类误差(错误率)或者分类精确度(1-错误率)来作为评估度量可能会产生问题。

偏斜类的问题

现在假如有一个算法模型的准确度99%,现在将算法改进,改进之后的算法变成了99.5%的精确度,那么这是不是一个算法的提升呢?

从数值评估的角度来看算是一个算法的提升,

你可能感兴趣的:(每天五分钟玩转机器学习算法,机器学习,算法,人工智能,神经网络,深度学习)