计算评估指标需要用到预测结果和真实标签,首先说一下获得预测结果的model.predict()和model.predict_proba()的区别:
y_score = model.predict_proba(x_test)[:, 1]
下边开始讲解计算指标容易掉的坑
from sklearn.metrics import confusion_matrix
metrics_out=confusion_matrix(y_true, y_pred) # 可以指定label
注意:y_true为真实类别,y_pred为预测的类别
from sklearn.metrics import accuracy_score,precision_score,recall_score
acc = accuracy_score(y_true, y_pred)
pre = precision_score(y_true, y_pred, average='macro')
recall = recall_score(y_true, y_pred, average='macro')
# average可以自己指定:‘micro’, ‘macro’, ‘samples’, ‘weighted’, ‘binary’,默认default=’binary’
注意:y_true为真实类别,y_pred为预测的类别
from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_true, y_scores)
plt.figure()
plt.plot([0, 1], [0, 1], 'k--')
plt.plot(fpr, tpr, label='Roc(AUC = {0:.3F})'.format(AUC), lw=2)
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('ROC curve')
plt.legend(loc='best')
plt.show()
注意:y_true为真实类别,y_scores为预测的概率
可以使用roc_auc_score()与auc()两种方式:
roc_auc_score()方式:
from sklearn.metrics import roc_auc_score
AUC = roc_auc_score(y_test, y_score_mean)
注意:roc_auc_score适用于二分类。y_test为真实类别,y_score_mean为预测的概率
auc()方式:由于auc()的输入为假阳性率fpr和真阳性率tpr,所以需要首先通过混淆矩阵计算出这两个值
from sklearn.metrics import roc_curve, auc
fpr, tpr, thresholds = roc_curve(y_true, y_scores)
AUC = auc(fpr, tpr)
注意:y_true为真实类别,y_scores为预测的概率
对于二分类:
Sensitivity = TP/(TP+FN),衡量所有真实为正例的样本中有多少被预测为正例。
Specificity = TN/(FP+TN),衡量所有真实为负例的样本中有多少被预测为负例。
from sklearn.metrics import confusion_matrix
metrics_out=confusion_matrix(y_true, y_pred)
Sensitivity = metrics_out[0][0] / (metrics_out[0][0] + metrics_out[0][1])
Specificity = metrics_out[1][1] / (metrics_out[1][0] + metrics_out[1][1])
Sensitivity=recall。