逻辑回归模型小结--基于评分模型

逻辑回归模型

一、优点和不足

逻辑回归模型小结--基于评分模型_第1张图片

二、对变量的要求

当用逻辑回归模型来构建评分模型时,入模变量需要满足以下条件:

1、变量间不存在较强的线性相关性和多重共线性。可在单变量分析和多变量分析过程中予以解决,删除相关性较高的某些变量。

2、变量具有显著性。可从模型的返回参数中的P值进行检验,一般P值小于0.1即可。如果发现模型中某些变量不显著,则需要检验一下两种可能性:

1)该变量本身不显著。检验方法:将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情形下系数的P值仍然较高,即表明该变量本身的显著性较低。

2)该变量显著,但是由于有一定的线性相关性或多重共线性,导致该变量在多元回归中不显著。

先检验第一种可能性,如果排除,再检验第二种可能性,此时可再查看相关系数。

3、变量具有合理的业务含义,即变量对于风控业务是正确的。可从模型的返回参数中的系数进行检验,如在计算woe过程中用的是好坏比,则系数应为负,否则为正。

 

三、WOE(Weight of Evidence)和IV(Infomation Value)

1、逻辑回归是线性的统计模式,因此遇到非线性趋势的变量会造成无法建立有效的模型,因此需要将变量进行WOE化。

WOE的性质:

1)、WOE与风险正相关,WOE越大,风险越高,代表该层级的客户资质越差。如果WOE接近于0,表示接近平均水平。(正负相关视WOE的计算方式而定)

2)、进行WOE检定时,观察WOE的变动趋势是否符合单调性,即单调递增或单调递减,抑或是呈现u型和n型,这里视业务逻辑而定,是否是属于正常的。如果WOE趋势呈现不稳定的锯齿状波动如W型或M型,则必须通过调整分箱进行合并以解决,否则就得放弃该变量。

3)、WOE不会因为抽样误差造成数值大幅变化,即WOE的操作过程使模型排除了因数据的随机因素造成的波动,不会因为个别出现较大数据波动而影响模型性能,除非是政策、市场发生较大的变化,否则该模型应趋于稳定,并且经WOE制作的评分卡可解释性强,这也就是其经典所在的原因。

2、变量筛选,可根据每个变量的分箱结果计算IV值,一般挑选IV大于0.03的变量进入模型(如变量特征较多大于0.1,则可把阈值定为0.1),小于0.03的均不予考虑。

 

四、评分尺度化

得到符合要求的逻辑回归模型后,通常还需要将概率转化成分数。分数的单调性与概率相反,及分数越高表明违约的概率越低,信用资质越好。在评分卡模型中,上述过程称为尺度化,转换公式为:

score = Base Point + \frac{PDO}{ln(2)}(-y),其中,y = ln(\frac{p}{1-p}),PDO:point to double odds

1 - p:为现实数据违约的概率,则y可从现实数据计算可得

PDO的含义:当好坏比上升1倍时,分数上升PDO个单位

 

五、评估信用模型

KS检验:模型区分好坏客户的力度。KS>30%时,模型才能用。

ROC检验:模型判别真假的准确度。AUC>70%时,模型才能用。

模型的上线和部署,以上两个条件缺一不可。

 

 

 

 

你可能感兴趣的:(逻辑回归,机器学习)