决策树分类效果评价指标详解

1.概念普及:
对于常见二分类问题,样本有两种分类结果(正例与反例)。
在进行分类时,对于一个样本,可能出现的分类情况有四种:
(正/正):真正类
(反/正):假反类
(正/反):假正类
(反/反):真反类
2.评价指标:
1.准确率accuracy: 被正确分类的样本数/样本总数
解读:总共有100个样本,其中有90个样本是预测正确的,则准确率为90%
缺点:不能反映模型区分正反例的能力
2.精确率precision: 被正确分类的正例样本数/总的正例样本数
解读:一共有100个样本,有50个正例和50个反例,有90个样本是预测正确的,其中被分类正确的正例样本数为50,被分类正确的反例样本数为40,则精确率为100%。
即该模型在预测正例方面的准确率是100%,
3.召回率recall: 被正确分类的正例样本数/所有被正确分类的样本数
解读:一共有100个样本,有50个正例和50个反例,有90个样本是预测正确的,其中被分类正确的正例样本数为50,被分类正确的反例样本数为40,则召回率为50/90%。
即该模型可以正确识别出所有正例的概率为0.555%
3.关系
要全面评估模型的有效性,必须同时检查精确率和召回率。遗憾的是,精确率和召回率往往是此消彼长的情况。也就是说,提高精确率通常会降低召回率值,反之亦然。
召回率(查全率)表达的是模型找到数据集中相关实例的能力,而精度(查准率)表达模型找到的数据点中实际相关的比例。


根据案例不同,选择合适的指标

例一 :在对患者进行随访检查的初步疾病筛查中,我们可能希望得到接近于 1 的召回率,即我们想找到所有
实际患病的患者。这样虽然谎报了几次病情,但真的疾病来临时,我们没有错过,这样的分类器才是我们想要的,在一定正确率的前提下,我们要求分类器的召回率尽可能的高。

你可能感兴趣的:(机器学习)