机器学习:关于P-R曲线和Roc曲线

一:关于P-R曲线

    1:1:何为P-R曲线:

     P为precision即精准率(查准率),R为recall即召回率,所以P-R曲线是反映了准确率与召回率之间的关系。一般横坐标为recall,纵坐标为precision。P-R曲线 

    1.2:P-R曲线作用:

     PR曲线常被用在信息提取领域,同时当我们的数据集中类别分布不均衡时我们可以用PR曲线         代替。是数据挖掘中常见的评价指标。 

    1.3:如何计算P值和R值:

     首先了解混淆矩阵

机器学习:关于P-R曲线和Roc曲线_第1张图片

    计算公式;

    P(精准率):

    R(召回率)

     如何理解P-R曲线(如图):

机器学习:关于P-R曲线和Roc曲线_第2张图片

    优劣对比:

    1:曲线越靠近右上方,性能越好。(例如上图黑色曲线)

    2:当一个曲线被另一个曲线完全包含了,则后者性能优于前者。(例如橘蓝曲线,橘色优于蓝      色)

    3:如果曲线发生交叉(黑橘曲线),判断依据:

        3.1:根据曲线下方面积大小判断,面积更大的更优于面积小的。

        3.2:根据平衡点F判断:平衡点是查准率与查重率相等时的点。F计算公式为F = 2 * P * R /(            P +R ),F值越大,性能越好。

二:关于Roc曲线:

       2.1:何为Roc曲线:

        Roc全称Receiver Operating Characteristic,即接收器操做特征曲线,坐标图式的分析工具。

       2.2:Roc作用:

       在机器学习(machine learning)和数据挖掘(data mining)领域同样是对学习器的泛化性能         进行评估

       2.3:计算公式:        

           真正率: 

           机器学习:关于P-R曲线和Roc曲线_第3张图片

           假正率:

 

          如何理解Roc曲线(如图):

 机器学习:关于P-R曲线和Roc曲线_第4张图片

       当ROC曲线接近于(1,0)点,表明模型泛化性能越好,接近对角线时,说明模型的预测结果为           随机预测结果.

       优劣对比:

       1:当一个曲线被另一个曲线完全包含了,则后者性能优于前者。

       2:ROC曲线下方的面积(AUC)可以用来作为评估模型模型性能的指标.如当两个模型               的ROC曲线发生交叉,则很难说哪一个模型更好,这时候可以用AUC来作为一个比较               合理的判据

三:两者曲线对比:

1:pr曲线因为涉及到精确率precision计算,容易受到样本分布的影响。而roc曲线本质上是正样本或者负样本召回率计算,不收样本分布的影响。

2:ROC曲线主要应用于测试集中的样本分布的较为均匀的情况,且当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。

3:实际问题中,正负样本数量往往很不均衡,P-R曲线的变化就会非常大,而ROC曲线则能够更加稳定地反映模型本身的好坏。

4:当正负样本比例失调时,ROC曲线变化不大,此时用PR曲线更加能反映出分类器性能的好坏。

   

你可能感兴趣的:(学习,人工智能)