python绘制pr曲线图_利用Python中的numpy包实现PR曲线和ROC曲线的计算!

闲来无事,边理解PR曲线和ROC曲线,边写了一下计算两个指标的代码。在python环境下,sklearn里有现成的函数计算ROC曲线坐标点,这里为了深入理解这两个指标,写代码的时候只用到numpy包。事实证明,实践是检验真理的唯一标准,在手写代码的过程中,才能真正体会到这两个评判标准的一些小细节,代码记录如下。

一、模拟一个预测结果

因为两个曲线都是用来判断一个分类器分类性能的,所以这里直接用随机数生成一组类别和对应的置信度。类别有0、1两个类别。置信度从0到1随机生成。data_len = 50

label = np.random.randint(0, 2, size=data_len)

score = np.random.choice(np.arange(0.1, 1, 0.01), data_len)

复制代码

生成结果如下:其中第一行代表真实的类别,第二行代表分类器判断目标是类别1的置信度。

label 1 0 1 0 0 1 1 …… score 0.22 0.31 0.92 0.34 0.37 0.18 0.51 …… 因为我们的置信度是随机生成的,所以得到的结果等同于一个二分类器“瞎猜”的结果。

二、PR曲线

Python学习交流群:1004391443,这里是python学习者聚集地,有大牛答疑,有资源共享!小编也准备了一份python学习资料,有想学习python编程的,或是转行,或是大学生,还有工作中想提升自己能力的,正在学习的小伙伴欢迎加入学习。

不管是PR曲线还是ROC曲线,首先要选定一个类别,然后针对这个类别具体计算。

该曲线的横坐标是召回率(R),纵坐标是精确度(P),故命名为PR曲线。 举一个简单的例子来说明P和R的定义:假设一个二分类器需要预测100个样本,这些样本中有80个类别1,20个类别0。当把置信度取某一个值S时,假设此时分类器认为有60个样本是类别1,在预测的这60个人样本中,有50个样本预测正确,其余10个样本预测错误。那么,对于类别1的P、R值计算如下:

你可能感兴趣的:(python绘制pr曲线图)