评分卡模型-理论

评分卡模型流程

评分卡模型-理论_第1张图片
评分卡模型-理论_第2张图片


变量分群/分箱

通常是为了让变量的预测力最强


名义变量降低基数
评分卡模型-理论_第3张图片
评分卡模型-理论_第4张图片
类似决策树的一种算法
评分卡模型-理论_第5张图片
评分卡模型-理论_第6张图片


连续变量的分箱

在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。要将logistic模型转换为标准评分卡的形式,这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

其中等距分段(Equval length intervals)是指分段的区间是一致的,比如年龄以十年作为一个分段;等深分段(Equal frequency intervals)是先确定分段数量,然后令每个分段中数据数量大致相等;最优分段(Optimal Binning)又叫监督离散化(supervised discretizaion),使用递归划分(Recursive Partitioning)将连续变量分为分段,背后是一种基于条件推断查找较佳分组的算法(Conditional Inference Tree)。


抽样和权重计算

  1. 随机抽样

  2. 均衡抽样

    评分卡模型-理论_第7张图片
    评分卡模型-理论_第8张图片

评分卡模型-理论_第9张图片
评分卡模型-理论_第10张图片

  1. 分层抽样


logistic回归

  • 基本公式

评分卡模型-理论_第11张图片
评分卡模型-理论_第12张图片
将y=1的概率记为p
评分卡模型-理论_第13张图片

  • 似然方程拟合回归模型
    评分卡模型-理论_第14张图片
    评分卡模型-理论_第15张图片
    评分卡模型-理论_第16张图片
    评分卡模型-理论_第17张图片

信息矩阵
评分卡模型-理论_第18张图片
评分卡模型-理论_第19张图片
评分卡模型-理论_第20张图片

模型的方差和协方差
评分卡模型-理论_第21张图片
标准误
这里写图片描述
沃尔德卡方统计量:
评分卡模型-理论_第22张图片
置信区间
评分卡模型-理论_第23张图片


  • 模型拟合的统计量

  • 似然函数值的统计量,评估自变量引入模型的效应及aic,sc,r
    评分卡模型-理论_第24张图片
    评分卡模型-理论_第25张图片
    评分卡模型-理论_第26张图片
    评分卡模型-理论_第27张图片
    评分卡模型-理论_第28张图片

  • hosmer-lemeshow检验:
    评分卡模型-理论_第29张图片

  • 全局零假设检验

    1. 似然比统计量
      评分卡模型-理论_第30张图片

    2. 分数统计量
      评分卡模型-理论_第31张图片

    3. 沃尔德统计量能
      评分卡模型-理论_第32张图片

关于概率比解读
评分卡模型-理论_第33张图片
评分卡模型-理论_第34张图片



证据权重WOE

证据权重(Weight of Evidence,WOE)转换可以将Logistic回归模型转变为标准评分卡格式。引入WOE转换的目的并不是为了提高模型质量,只是一些变量不应该被纳入模型,这或者是因为它们不能增加模型值,或者是因为与其模型相关系数有关的误差较大,其实建立标准信用评分卡也可以不采用WOE转换。这种情况下,Logistic回归模型需要处理更大数量的自变量。尽管这样会增加建模程序的复杂性,但最终得到的评分卡都是一样的。

WOE()=ln[(违约/总违约)/(正常/总正常)]。
用WOE(x)替换变量x,

如果一个已经经过WOE转换的自变量对logistic回归模型进行拟合,则该变量对应的模型参数正好是1.0

证据权重和标准评分卡

名义变量:
评分卡模型-理论_第35张图片

连续变量的WOE:
将变量分箱
评分卡模型-理论_第36张图片

若WOE值和分段好的序量表之间的线性关系或者单调关系不存在,有两种可能的解释:
评分卡模型-理论_第37张图片



变量选择的方法

评分卡模型-理论_第38张图片

  1. 使用所有变量 selection=none 将所有变量啊如模型,常用与初始探索性模型拟合
  2. 正向选择 selection=forward 从几句相对模型拟合,从没有纳入模型的变量选择卡方统计量最大,符合条件的变量,进入的变量不会被移除
  3. 逆向选择 selection=backward 移除wa l d卡方统计量的p值最大的变量
  4. 逐步选择
    评分卡模型-理论_第39张图片
  5. 评分卡模型-理论_第40张图片

sas参数:
评分卡模型-理论_第41张图片

逐步变量选择
优点:
评分卡模型-理论_第42张图片

SLE = p-值 SLS= p-值
分别设定允许变量进入和保留在模型中的显著性水平

评分卡模型-理论_第43张图片

强制变量进入模型
这里写图片描述

控制变量的优先级顺序
评分卡模型-理论_第44张图片



模型评估

提升图和洛伦兹曲线
评分卡模型-理论_第45张图片
评分卡模型-理论_第46张图片
评分卡模型-理论_第47张图片

基尼系数
评分卡模型-理论_第48张图片
评分卡模型-理论_第49张图片

KS曲线
将总体10等分按违约概率降序排列,计算每一份违约与正常的百分比的累积分布,绘制两者的差异
评分卡模型-理论_第50张图片

ROC曲线
评分卡模型-理论_第51张图片
评分卡模型-理论_第52张图片
评分卡模型-理论_第53张图片
评分卡模型-理论_第54张图片

模型整体评估
评分卡模型-理论_第55张图片



评分卡刻度与实施

评分卡的刻度

估计违约的概率为p,估计得正常的概率即为1-p,这两个事件互斥且互为补集
违约与正常的比率:
odds=p1p o d d s = p 1 − p
则p为:
p=odds1+odds p = o d d s 1 + o d d s
评分卡设定的分值刻度可以通过将分值标示为比率对数的线性表达式来定义。:
score = A - Blog(odds)

logistic 计算比率如下:
log(odds)=β0+β1x1+...+βpxp l o g ( o d d s ) = β 0 + β 1 x 1 + . . . + β p x p

常数A和B需要两个假设:
- 在某个特定的比率设定特定的预期分值
- 制定比率翻番的分数(pdo)

设定比率为 θ0 θ 0 的特定嗲的分值为 p0 p 0 ,然后比率为 2θ0 2 θ 0 的点的分值为 p0+pdo p 0 + p d o ,则:
p0=ABlog(θ0) p 0 = A − B l o g ( θ 0 )
p0+pdo=ABlog(2θ)) p 0 + p d o = A − B l o g ( 2 θ ) )
解为:
B=pdolog(2) B = p d o l o g ( 2 )
A=p0+Blog(θ0) A = p 0 + B l o g ( θ 0 )
A通常为称为补偿,B刻度

实施
评分卡模型-理论_第56张图片

评分卡模型-理论_第57张图片

评分卡模型-理论_第58张图片

设定临界值水平
评分卡模型-理论_第59张图片
评分卡模型-理论_第60张图片
评分卡模型-理论_第61张图片



监测报告

稳定性报告

评分卡模型-理论_第62张图片
评分卡模型-理论_第63张图片
评分卡模型-理论_第64张图片

总体稳定性指数I:

I=i=110(AiEi)log(AiEi) I = ∑ i = 1 1 0 ( A i − E i ) l o g ( A i E i )

与信息值相同
评分卡模型-理论_第65张图片
评分卡模型-理论_第66张图片
评分卡模型-理论_第67张图片

评分卡要素分析
评估自变量分布的变化对最终评分结果的分析

评分卡模型-理论_第68张图片



拒绝演绎

仅用于申请评分卡
建立评分卡时对被拒绝账户的状态进行演绎并纳入评分卡开发数据集
评分卡模型-理论_第69张图片

方法

评分卡模型-理论_第70张图片

简单赋值法
- 忽略被拒绝申请
- 赋予所有被拒绝申请违约状态
- 比例赋值:随机赋予被拒绝账户和违约状态

强化法
- 简单强化:用数据中接受部分开发的模型对被拒绝账户进行评分,第分值的拒绝账户,低于预先约定的临界值,将被赋予违约状态,而剩余的被拒绝账户则被赋予正常状态

建议:选择的临界值应该使被拒绝账户的坏账率是接受账户的2-5倍

模糊强化

打包法

评分卡模型-理论_第71张图片


引用:
信用卡评分

手把手教你用R语言建立信用评分模型

你可能感兴趣的:(风控模型)