建模知识3:lift图、Gini图

1、先列出混淆矩阵

    一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。

建模知识3:lift图、Gini图_第1张图片

以癌症的诊断为例,1代表癌症,0代表无病。

建模知识3:lift图、Gini图_第2张图片

有以下指标:

1) TPR(True Postive Rate)真正类率:正类判断成正类,也称命中率,即所有真实的“1”中,有多少被成功选出;

640?wx_fmt=png

2) TNR(True Negative Rate)真负类率:负类判断成负类。Specificity(特异性)

640?wx_fmt=png

3) FPR(False Postive Rate)负正类率:负类判断成正类,即所有真实的“0”中,有多少被模型误判为1了。也称误诊率=1-Specificity。

640?wx_fmt=png

2、Lift(提升指数)

    是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。

1)举个例子:

  • 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有200人会对你的问卷作出回应(response),用统计学的术语,我们说baseline response rate是20%;

  • 如果你现在就邮寄问卷,1000份你期望能收回200份,这可能达不到一次问卷调查所要求的回收率,比如说工作手册规定邮寄问卷回收率要在25%以上;

  • 通过以前的问卷调查,你收集了关于问卷采访对象的相关资料,比如说年龄、教育程度之类。利用这些数据,你确定了哪类被访问者对问卷反应积极。假设你已经利用这些过去的数据建立了模型,这个模型把这1000人分了类,现在你可以从你的千人名单中挑选出反应最积极的100人来,这10%的人的反应率(response rate)为60%。那么,对这100人的群体(我们称之为Top 10%),通过运用我们的模型,相对的提升(gain or lift value)就为60%/20%=3;换句话说,与不运用模型而随机选择相比,运用模型而挑选有3倍的好处;

  • 类似地,对占总样本的任何比例的人群,我们都可以计算出相应的提升指数,比如说我们可以计算Top 20%的群体的提升指数。

  2)一些计算指标:

建模知识3:lift图、Gini图_第3张图片

3)lift理解:提升指数越大,模型的运行效果越好。

  • 在不利用模型时,用"实际正样本比例"(Actual Positive/Total Samples)评估好坏

  • 而利用模型之后,不需要从整个样本中来挑选正例,而从预测为正样本(Predicted Positive)的子集中挑选正例,即"预测样本中的正样本比例(PV_plus)"来判断。

  • lift为两者的比较,显然,lift(提升指数)越大,模型的运行效果越好。

  • 如果lift=1,这个模型就没有任何"提升",做不做模型都一样

  • 这个概念在营销方面非常有用

4)计算案例

建模知识3:lift图、Gini图_第4张图片

  1. 如:百分位10%作为阈值,则6180个样本均会被预测成正样本,其中TRUE Positive=4879,而剩下的1301则为错判为正样本。即False Positive=1301。实际正样本比例=4879/61797=7.9%,预测正样本比例=6180/61797=10%。预测样本中的正样本比例=4879/6180=78.9%,lift=78.9%/7.9%=10

  2.  如:30%作为阈值,则6180*3=18540个样本会被预测成正样本,其中TRUE Positive为9848(4879+2804+2165),False Positive为8692(1301+3376+4015),实际正样本比例=9848/61797=15.94%,预测正样本比例=18540/61797=30%。预测样本中的正样本比例=9848/18540=53.1%,lift=53.1%/15.94%=3.3

5)lift图绘制(折线图)

横轴:预测正样本比例(Depth)

纵轴:lift值

建模知识3:lift图、Gini图_第5张图片

    当阈值设定得足够的小,那么几乎所有的观测值都会被归为正例(depth 几乎为 1),这时分类的效果就跟不做模型差不多了,相对应的 lift 值就接近于 1。

    在一些逻辑回归的应用中,会根据分类模型的结果,把样本分成 10 个数目相同的子集,每一个子集称为一个 decile,其中第一个 decile 拥有最多的正例特征,第二个 decile 次之,依次类推,以上 lift 和 depth 组合就可以改写成 lift 和 decile 的组合,也称作 lift 图,含义一样。刚才提到,“随着阈值的减小,更多的客户就会被归为正例,也就是 depth(预测成正例的比例)变大。当阈值设得够大,只有一小部分观测值会归为正例,但这一小部分(第一个 decile)一定是最具有正例特征的观测值集合。”

3、Gains (增益) 

        Gains(增益)类似于lift图,只是纵坐标不同。

横轴:预测正样本比例(Depth)

纵轴:预测样本中的正样本比例(PV_plus)

建模知识3:lift图、Gini图_第6张图片

    上图阈值的变化,含义与 lift 图一样。随着depth的增加,更多的客户就会被归为正例,pv_plus相应减小。当阈值设定得足够的小,那么几乎所有的观测值都会被归为正例(depth 几乎为 1),那么 PV + 就等于数据中正例的比例 pi1 了(这里是 0.365。在 Lift 那一节里,我们说此时分类的效果就跟 baseline model 差不多,相对应的 lift 值就接近于  1,而 PV+=lift*pi1。Lift 的 baseline model 是纵轴上恒等于 1 的水平线,而 Gains 的 baseline model 是纵轴上恒等于 pi1 的水平线)。显然,跟 lift 图类似,一个好的分类模型,在阈值变大时,相应的 PV + 就要变大,曲线足够陡峭。

参考文章地址:https://cosx.org/2009/02/measure-classification-model-performance-lift-gain

你可能感兴趣的:(建模知识3:lift图、Gini图)