二分类模型指标

        分类算法常用指标:准确率(Accuracy);但当样本中的分类极度不均匀时,分类准确率并不能说明问题。(例如,100个观测样本中有95个0,5个1,全部预测为0的准确率有95%,已经很高了)

        解决样本分布不均匀的办法:

        重新抽样:过抽样/欠抽样

        使用提升算法,Adabost

        更改阈值


混淆矩阵

二分类模型指标_第1张图片

                                                            ;

准确率(Accuracy):

灵敏度/召回率(Sensitivity/Recall):

注:TPR体现分类模型对正样本的识别能力,TPR越高,表示模型对正样本的识别能力越强,即得到尽可能多的正样本。

特异度(Specificity):

注:(假阳性率)

精确度(Precision):

注:PPV越高,找到的正样本相对越多,得到尽可能纯的正样本;

       TPR与PPV是此消彼长的关系。


假设1是违约客户,0是不违约客户:

情况1
情况2

情况1:;;

情况2:;;

情况1中,TPR高,找到的违约客户多,坏账减少,但损失一部分好客户,带来一定的利润损失。属于稳健性策略,宁可损失一些客户,也要降低坏账。

情况2中,PPV高,坏账高,但损失的好客户少,利润损失少。属于激进型策略,宁可坏账高一些,也要留住客户。


统计量:,即是tpr与ppv的调和平均数。只有当时,最大。

统计量:,当时,最大。

注:、都是越大越好。常用的是与。

ROC曲线

x轴为FPR,y轴为TPR;

选择不同的阈值会产生不同的混淆矩阵,进而可算出对应的FPR、TPR。

二分类模型指标_第2张图片

ISO精度线

准确率acc、召回率tpr、假阳性率fpr三者关系:

A:所有样本个数;P:正例的个数;N:负例的个数;A=N+P;

pos=P/A:正例的占比;neg=N/A:负例的占比;

即:

这条斜线就是ISO精度线,截距随着acc改变,斜率不变为N/P,即负例比正例。

二分类模型指标_第3张图片

最优acc值:截距最大时,对应acc值最大。

                                                   

                                                

两式联合求解,可得到:

即:找到与ROC曲线相切的精度线,切点为最优阈值点,精度线与反斜线的交点为最优精度。

例如:

二分类模型指标_第4张图片

AUC面积

ROC曲线下的面积

AUC=1:一个能完美区分所有正负样例的分类器

AUC=0.5:随机分类

AUC范围:[0,1]

KS曲线

预测为正例的比例:

以rpp(或阈值)为横坐标,tpr、fpr分别为纵坐标划线,得到的曲线为KS曲线。

KS值为max(tpr-fpr)

二分类模型指标_第5张图片

你可能感兴趣的:(二分类模型指标)