机器学习-Precision(查准率)、Recall(查全率)、P-R曲线

目录

  • 前言
  • 一、查准率P、查全率R与P-R曲线
  • 二、Python实现
  • 总结


前言

        我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”“用户感兴趣的信息中有多少被检索出来了”。“查准率”(precision)“查全率”(recall)是更为适用于此类需求的性能度量。


一、查准率P、查全率R与P-R曲线

查准率P、查全率R:

在了解查准率P(亦称“准确率”)、查全率R(亦称“召回率”)的定义之前,我们需要先了解TP、FP、TN、FN。

TP:真正例(true positive)

FP:假正例(false positive)

TN:真反例(true negative)

FN:假反例(false negative) 

下表可以直观地看出各自的含义:

分类结果混淆矩阵
真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

由此定义查准率P查全率R

P=\frac{TP}{TP+FP}                R=\frac{TP}{TP+FN}

P-R曲线:

以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,其代表的是查准率P与查全率R的关系。

下图为西瓜书中给出的一个示意图:

机器学习-Precision(查准率)、Recall(查全率)、P-R曲线_第1张图片

二、Python实现

代码如下(示例):

#选择测试数据
import pandas as pd

df = pd.read_csv('file_name.csv')
X = df[df.columns[:-1]]
y = df[df.columns[-1]]

#训练——测试数据集划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X[y < 2], y[y < 2],test_size=.5,random_state=1)

#构造模型
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
#model.predict_proba将返回属于各个类别的概率,每行概率和为1
y_prob = model.predict_proba(X_test)[:,1]

#计算P值和R值:precision_recall_curve函数返回值分别为查准率precision,查全率recall,以及对应的阈值thresholds

precision, recall, thresholds = sklearn.metrics.precision_recall_curve(y_test, y_prob, pos_label=None, sample_weight=None)

#然后根据precision, recall绘制PR曲线

plt.plot()

此代码参考:Asher117的【Python】绘制PR曲线https://blog.csdn.net/Asher117/article/details/112531255


总结

P-R图直观地显示出学习器在样本总体上的查全率、查准率。本文章仅简单概述了Precision、Recall以及P-R曲线的概念以及如何用Python绘制P-R曲线,作者目前也是机器学习小白,希望可以同大家一起进步!

你可能感兴趣的:(机器学习,python)