【机器学习】模型的性能评价指标

混淆矩阵

混淆矩阵:展示学习算法性能的一种矩阵,一个简单的方阵,展示一个分类器预测结果(真正,真负,假正,假负)的数量


图:

【机器学习】模型的性能评价指标_第1张图片
【机器学习】模型的性能评价指标_第2张图片


使用SKlearn的confusion_matrix方法实现混淆矩阵:

from sklearn.metrics import confusion_matrix
pipe_svc.fit(X_train, y_train)
y_pred = pipe_svc.predict(X_test)
confmat = confusion_matrix(y_true=y_test, y_pred=y_pred)
print(confmat)



# 绘制混淆矩阵
fig, ax = plt.subplots(figsize=(2.5, 2.5))
ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)
for i in range(confmat.shape[0]):
    for j in range(confmat.shape[1]):
        ax.text(x=j, y=i, s=confmat[i, j], va='center', ha='center')

plt.xlabel('predicted label')
plt.ylabel('true label')

plt.tight_layout()
# plt.savefig('./figures/confusion_matrix.png', dpi=300)
plt.show()

【机器学习】模型的性能评价指标_第3张图片



准确率和召回率

预测误差和准确率投提供了误分类样本数量的相关信息。

误差(ERR):预测错样本的数量所有被预测样本数量比值

准确率(ACC):正确预测样本的数量所有被预测样本数量比值

 

对于类别数量不均衡的分类问题来说,真正率假正率是非常有用的性能指标。


使用SKlearn实现这两种评分指标:

from sklearn.metrics import precision_score, recall_score, f1_score

print('Precision: %.3f' % precision_score(y_true=y_test, y_pred=y_pred))
print('Recall: %.3f' % recall_score(y_true=y_test, y_pred=y_pred))
print('F1: %.3f' % f1_score(y_true=y_test, y_pred=y_pred))



通过make_scorer函数构建评分,则可以以参数的形式提供给GridSearchCV:

from sklearn.metrics import make_scorer, f1_score

scorer = make_scorer(f1_score, pos_label=0)

c_gamma_range = [0.01, 0.1, 1.0, 10.0]

param_grid = [{'clf__C': c_gamma_range, 
               'clf__kernel': ['linear']},
                 {'clf__C': c_gamma_range, 
                  'clf__gamma': c_gamma_range, 
                  'clf__kernel': ['rbf'],}]

gs = GridSearchCV(estimator=pipe_svc, 
                                param_grid=param_grid, 
                                scoring=scorer, 
                                cv=10,
                                n_jobs=-1)
gs = gs.fit(X_train, y_train)
print(gs.best_score_)
print(gs.best_params_)



ROC曲线:

受试者工作特征曲线(ROC):基于模型的假正率真正率等性能指标进行分类模型选择的有用工具。

 

假正率真正率通过移动分类器的分类筏值来计算

 

ROC的对角线可以理解为随机猜测

如果分类器性能曲线在对角线以下,那么性能就比随机猜测还差。

基于ROC可以计算ROC线下区域(AUC)刻画分类模型的性能



使用乳腺癌数据集中的两个特征判断肿瘤是良性还是恶性,并绘制ROC曲线,再次使用逻辑回归流水线。


from sklearn.metrics import roc_curve, auc
from scipy import interp

X_train2 = X_train[:, [4, 14]]

cv = StratifiedKFold(y_train, n_folds=3, random_state=1)

fig = plt.figure(figsize=(7, 5))

mean_tpr = 0.0
mean_fpr = np.linspace(0, 1, 100)
all_tpr = []

for i, (train, test) in enumerate(cv):
    probas = pipe_lr.fit(X_train2[train], 
                         y_train[train]).predict_proba(X_train2[test])
    
    fpr, tpr, thresholds = roc_curve(y_train[test], 
                                     probas[:, 1], 
                                     pos_label=1)
    mean_tpr += interp(mean_fpr, fpr, tpr)
    mean_tpr[0] = 0.0
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, 
             tpr, 
             lw=1, 
             label='ROC fold %d (area = %0.2f)' 
                    % (i+1, roc_auc))

plt.plot([0, 1], 
         [0, 1], 
         linestyle='--', 
         color=(0.6, 0.6, 0.6), 
         label='random guessing')

mean_tpr /= len(cv)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
plt.plot(mean_fpr, mean_tpr, 'k--',
         label='mean ROC (area = %0.2f)' % mean_auc, lw=2)
plt.plot([0, 0, 1], 
         [0, 1, 1], 
         lw=2, 
         linestyle=':', 
         color='black', 
         label='perfect performance')

plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('false positive rate')
plt.ylabel('true positive rate')
plt.title('Receiver Operator Characteristic')
plt.legend(loc="lower right")

plt.tight_layout()
# plt.savefig('./figures/roc.png', dpi=300)
plt.show()

【机器学习】模型的性能评价指标_第4张图片

通过使用scipy中的interp函数利用三个块数据对 ROC曲线的内插均值进行计算,使用auc函数计算低于ROC曲线区域的面积。


# 计算分类器在单独测试集上的ROC AUC得分
pipe_svc = pipe_svc.fit(X_train2, y_train)
y_pred2 = pipe_svc.predict(X_test[:, [4, 14]])
from sklearn.metrics import roc_auc_score, accuracy_score
print('ROC AUC: %.3f' % roc_auc_score(y_true=y_test, y_score=y_pred2))
print('Accuracy: %.3f' % accuracy_score(y_true=y_test, y_pred=y_pred2))




多类别分类器的评价标准

Scikit-learn实现了macro(宏)均值micro(微)均值方法。

微均值:等同看待每个实例或每次预测时,通过系统的真正,真负,假正,假负来计算

宏均值:等同看待各个类别,将其用于评估分类器针对最频繁类标的整体性能



通过sklearn.metrics模块导入其他不同的平方参数,利用内置的average参数定义平均方法

使用方法:

pre_scorer = make_scorer(score_func=precision_score, 
                         pos_label=1, 
                         greater_is_better=True, 
                         average='micro')




你可能感兴趣的:(Machine,Learning,机器学习算法理论与实战)