分类问题评价标准

分类问题评价标准

1、混淆矩阵

. 预测的正类(+,1) 预测的负类(-,0)
实际的正类(+,1) f++TPf_{++}TPf++TP f+−FNf_{+-}FNf+FN(Ⅱ)
实际的负类(-,0) f−+FPf_{-+}FPf+FP(Ⅰ) f−−TNf_{--}TNfTN

以预测的结果看待实际的值
T(True), F(False), P(Positive), N(Negative)

Ⅰ类错误(Type Ⅰ errot):实际为负样本,预测为正样本(FP)
Ⅱ类错误(Type Ⅱ error):实际为正样本,预测为负样本(FN)

2、评价指标

  • 准确率( Accuracy rate)
    ACC=TP+TNTP+FN+FP+TNACC=\frac{TP+TN}{TP+FN+FP+TN}ACC=TP+FN+FP+TNTP+TN

预测准确的与样本总数的比值

  • 精度( precision)
    p=TPTP+FPp=\frac{TP}{TP+FP}p=TP+FPTP

预测正确的正类与预测为正类的比值

  • 召回率( recall)=真正率(true positive rate TPR)
    r=TPTP+FNr=\frac{TP}{TP+FN}r=TP+FNTP

预测正确的正类与实际为正类的比值

  • F1度量F_{1}度量F1
    F1=2rpr+pF_{1}=\frac{2 r p}{r+p}F1=r+p2rp

F1表示召回率和精度的调和平均数F_{1}表示召回率和精度的调和平均数F1

3、ROC曲线及AUC

以FPR(负类召回率)为横坐标,TPR(正类召回率)为纵坐标,通过调整模型预测的阈值可以得到不同的点,将这些点可以连成一条曲线,这条曲线叫做接受者工作特征曲线(Receiver Operating Characteristic Curve,简称ROC曲线)

  • roc曲线是对预测为正样本概率按照从大到小的顺序排序,由上到下设定为阈值,>=阈值预测为正样本(逾期样本,标签设定为1),<=阈值预测为负样本(非逾期用户,标签设定为0),在根据真实标签得出混淆矩阵,计算出TPR,FPR做出图形。

  • FPR(负类召回率)
    FPR=FPFP+TNFPR=\frac{FP}{FP+TN}FPR=FP+TNFP

预测为正类的负样本与实际上所有负样本的比值

  • 真正率(true positive rate TPR)即召回率(recall)
    TPR=TPTP+FNTPR=\frac{TP}{TP+FN}TPR=TP+FNTP

预测正确的正类与实际为正类的比值

ROC曲线如下:
分类问题评价标准_第1张图片

  • D点每个样本都被预测为负类
  • C点每个样本都被预测为正类
  • A点为理想模型

显然A点为最优点,ROC曲线越靠近A点代表模型表现越好,曲线下面积(Area Under Curve, AUC)越大,AUC是衡量模型表现好坏的一个重要指标。

4、ks曲线

分类问题评价标准_第2张图片

http://mt.sohu.com/20160412/n443990141.shtml

http://blog.csdn.net/sinat_26917383/article/details/51725102

http://www.sohu.com/a/132667664_278472

你可能感兴趣的:(machineLearning)