python 计算曲线面积_利用Python中的numpy包实现PR曲线和ROC曲线的计算!

闲来无事,边理解PR曲线和ROC曲线,边写了一下计算两个指标的代码。在python环境下,sklearn里有现成的函数计算ROC曲线坐标点,这里为了深入理解这两个指标,写代码的时候只用到numpy包。事实证明,实践是检验真理的唯一标准,在手写代码的过程中,才能真正体会到这两个评判标准的一些小细节,代码记录如下。
一、模拟一个预测结果
因为两个曲线都是用来判断一个分类器分类性能的,所以这里直接用随机数生成一组类别和对应的置信度。类别有0、1两个类别。置信度从0到1随机生成。
data_len = 50 label = np.random.randint(0, 2, size=data_len) score = np.random.choice(np.arange(0.1, 1, 0.01), data_len) 复制代码
生成结果如下:其中第一行代表真实的类别,第二行代表分类器判断目标是类别1的置信度。
label 1 0 1 0 0 1 1 …… score 0.22 0.31 0.92 0.34 0.37 0.18 0.51 …… 因为我们的置信度是随机生成的,所以得到的结果等同于一个二分类器“瞎猜”的结果。
二、PR曲线
不管是PR曲线还是ROC曲线,首先要选定一个类别,然后针对这个类别具体计算。
该曲线的横坐标是召回率(R),纵坐标是精确度(P),故命名为PR曲线。 举一个简单的例子来说明P和R的定义:假设一个二分类器需要预测100个样本,这些样本中有80个类别1,20个类别0。当把置信度取某一个值S时,假设此时分类器认为有60个样本是类别1,在预测的这60个人样本中,有50个样本预测正确,其余10个样本预测错误。那么

你可能感兴趣的:(python,计算曲线面积)