predict和predict_proba带入roc_auc_score结果不同

predict和predict_proba带入roc_auc_score结果不同

我们都知道AUC表示ROC曲线下的面积,下面两种计算格式(二分类):

# 带入预测的概率进行计算
roc1=roc_auc_score(y_test, model.predict_proba(x_test)[:, 1])
# 带入预测的分类进行计算
roc2=roc_auc_score(y_test, model.predict(x_test))

结果是roc2小于roc1

为什么呢?

如图,ROC是通过将不同threshold的x轴(FPR)和y轴(TPR)的点连接而成的曲线, AUC就是ROC下的面积。

threshold:划分预测分类的分界,一般大于0.5就认为是target,但是没规定必须是0.5,也可以是其他值

predict和predict_proba带入roc_auc_score结果不同_第1张图片

predict_proba得到的是预测的概率,不同的threshold会有不同的TPR和FPR,可以得到上图圆滑的曲线

predict则不同,输出结果的时候已经固定了threshold,默认为0.5,所以它的roc曲线呈现以下格式,一种折线的形式
predict和predict_proba带入roc_auc_score结果不同_第2张图片

如果是相同模型,同时画出这两条曲线,折线会在曲线的下方,这也解释了为什么前面计算的roc结果不同,同时roc2小于roc1的原因,因为曲线下的面积不同,同时曲线下的面积大于折线的面积

参考

sklearn学习:为什么roc_auc_score()和auc()有不同的结果?:https://www.programminghunter.com/article/4582657422/

你可能感兴趣的:(机器学习,sklearn,机器学习,python)