AI——ROC、AUC 学习总结

 

目录

roc曲线

auc面积


roc曲线

 

AI——ROC、AUC 学习总结_第1张图片横坐标 FPR,纵坐标 TPR 怎么计算呢?

  预测正例 P 预测负例 N
真正正例 T TP FN
真正负例 F FP TN

acc = (TP+TN) / (TP+TN+FP+FN)

TPR=\frac{TP}{TP+FN}        所有正例中判断正确的比例

FPR=\frac{FP}{FP+TN}        所有负例中判断错误的比例

在roc曲线中 (0,0)点 TPR=0,FPR=0说明正例全部判断为负例,负例全部判断正确,即所有都判定为 负例,对于sigmoid来说,相当于阈值变为>=1的数,小于1的都为负例;

在(1,1)点,可知将所有样本判断为 正例,对于sigmoid来说,相当于阈值为 <=0的数,大于0的都为正例;

在(0,1)点,FPR=0, TPR=1,说明所有样本都判断正确了,是完美分类器;

在上面auc曲线图中,三条曲线分表表示三个模型阈值在0~1之间调整时形成的点所连接构成的曲线;

可知 越靠近(0,1)点的模型越好,但是在FPR的不同位置划线时,可以看到模型不一定一直都好,那怎么办呢?

怎么找到综合指标呢?可以看到左侧红色曲线表示完美分类器的曲线,可以看到完美分类器所占的面积最大为1,

因此可以根据模型roc曲线所占用的面积来评判好坏,即auc面积;

 

auc面积

AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1

模型中为了规避风险,往往会更改阈值,此时auc就发挥作用了

auc面积越大,模型越好,

auc面积怎么计算呢?

一种近似算法为:\frac{\sum_{P}^{index}rank-\frac{N(N+1)}{2}}{P*N}

P:Positive 正例样本数目;

N:Negative 负例样本数目;

\sum_{P}^{index}rank 表示将预测结果(所有样本的预测分值)按从小到大排序,然后取 真正正例的序号加和;

可见若一个模型不好,那么正例就会判断为负例,分值较小,排序后索引号也小,最后auc就小;

 

 

 

你可能感兴趣的:(AI学习)