分类算法的评估方法

基本术语

常见的模型评价术语,假设分类目标只有两类,计为正例(positive)和负例(negtive)则:
1)True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数;
2)False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
4)True negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

评价指标

1)正确率(accuracy)
正确率是我们最常见的评价指标,accuracy=(TP+TN)/(P+N),正确率是被分对的样本数在所有样本数中的占比,通常来说,正确率越高,分类器越好。

2)错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,error rate=(FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy=1-error rate。

3)灵敏度(sensitive)
sensitive=TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。

4)特效度(specificity)
specificity=TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。

5)精度(precision)
精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP)。

6)召回率(recall)
召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。

7)真正例率(ture positive rare),TPR=TP/(TP+FN)

8)假正例率(false positive rare),FPR=FP/(TN+FP)

9) F1 值,也称为综合分类率:F1=2 * precision * recall/(precision+recall),为了综合多个类别的分类情况,评测系统整体性能,经常采用的还有微平均F1(micro-averaging)和宏平均F1(macro-averaging)两种指标。宏平均F1与微平均F1 是以两种不同的平均方式求的全局的F1指标。其中宏平均 F1 的计算方法先对每个类别单独计算F1值,再取这些F1值的算术平均值作为全局指标。而微平均F1的计算方法是先累加计算各个类别的a、b、c、d的值,再由这些值求出F1值。 由两种平均F1的计算方式不难看出,宏平均F1平等对待每一个类别,所以它的值主要受到稀有类别的影响,而微平均F1平等考虑文档集中的每一个文档,所以它的值受到常见类别的影响比较大。

10)PR曲线,横坐标recall,纵坐标precision。

11) ROC曲线(Receiver Operating Characteristic),横坐标FPR,纵坐标是TPR。对某个分类器而言,其在测试样本上的表现得到一个TPR和FPR点对,映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值,可以得到一个经过(0, 0),(1, 1)的曲线,这就是此分类器的ROC曲线。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实际上代表的是一个随机分类器。ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。

12)AUC值(Area Under Curve),定义为ROC曲线下的面积。由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

其他评价指标
计算速度:分类器训练和预测需要的时间;
鲁棒性:处理缺失值和异常值的能力;
可扩展性:处理大数据集的能力;
可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解的,而神经网络的一堆参数就不好理解。

你可能感兴趣的:(温故知新,GEEK学习笔记,机器学习,评估方法)