模型训练好后,我们需要把对每个变量的每个分箱(也就是数值段)转换成具体的分值。在讲计算过程前,先来讲点前置知识。评分卡中不直接用客户违约率 p p p,而是用违约概率与正常概率的比值,称为 o d d s odds odds,即:
O d d s = p 1 − p ⇒ p = o d d s 1 + o d d s ( 1 ) Odds = \frac{p}{1-p} \Rightarrow p = \frac{odds}{1+odds} ~~~~ (1) Odds=1−pp⇒p=1+oddsodds (1)
评分卡为什么会把 o d d s odds odds映射成分数,其原因是因为根据逻辑回归原理:
p = 1 1 + e − θ T x ⇒ l n ( p 1 − p ) = θ T x ( 2 ) p = \frac{1} {1+e^{-\theta ^T x}} \Rightarrow ln(\frac{p}{1-p}) = \theta ^T x ~~~~(2) p=1+e−θTx1⇒ln(1−pp)=θTx (2)
所以将 o d d s odds odds映射成分数,可以和逻辑回归无缝连接。
l n ( o d d s ) = θ T x ( 3 ) ln(odds) = \theta ^T x ~~~~ (3) ln(odds)=θTx (3)
评分卡的背后逻辑是 o d d s odds odds的变动与评分变动的映射(把 o d d s odds odds映射为评分),我们可以设计这个一个公式:
S c o r e = A − B ∗ l n ( o d d s ) ( 4 ) Score = A - B*ln(odds) ~~~~ (4) Score=A−B∗ln(odds) (4)
其中 A A A与 B B B是常数, B B B前面取负号的原因,是让违约概率越低,得分越高。因为实际业务里,分数也高风险越低,当然你也可以设计个风险越低分数越低的评分卡,但风控里还是默认高分高信用低风险。计算出 A A A、 B B B的方法如下,首先设定两个假设:
1.基准分。基准分为某个比率 θ 0 \theta _0 θ0时的得分 P 0 P_0 P0。业界某些风控策略基准分都设置为 500 / 600 / 650 500/600/650 500/600/650。基准分为 A − B ∗ θ 0 A - B*\theta _0 A−B∗θ0
2. P D O ( p o i n t o f d o u b l e ) PDO(point~of~double) PDO(point of double),比率翻番时分数的变动值。假设我们设置为当 o d d s odds odds翻倍时,分值减少30。
设置好 θ 0 、 P 0 、 P D O \theta _0、P_0 、PDO θ0、P0、PDO 后,就能算出 A A A和 B B B。怎么算?首先把 θ 0 、 P 0 \theta _0、P_0 θ0、P0 代入公式,有
P 0 = A − B ∗ l n ( θ 0 ) ( 5 ) P_0 = A - B*ln(\theta _0) ~~~~ (5) P0=A−B∗ln(θ0) (5)
根据 P D O PDO PDO的定义,我们有下面等式:
P 0 − P D O = A − B ∗ l n ( 2 θ 0 ) ( 6 ) P_0- PDO = A - B*ln(2\theta _0) ~~~~ (6) P0−PDO=A−B∗ln(2θ0) (6)
解上面两个式子,把公式 ( 5 ) (5) (5)的右边替换掉公式 ( 6 ) (6) (6)左边,可以算出 B B B,从而可以算得 A A A的解。最后 A 、 B A、B A、B的解分别为:
B = P D O l n 2 ( 7 ) B = \frac{PDO}{ln2} ~~~~ (7) B=ln2PDO (7)
A = P 0 + B ∗ l n ( θ 0 ) ( 8 ) A = P_0+ B*ln(\theta _0) ~~~~ (8) A=P0+B∗ln(θ0) (8)
记住这两个公式,这两个公式是把分箱映射为分数的关键,评分卡里每一个变量的每一个分箱有一个对应分值。前面的 θ T x \theta ^T x θTx 是一个矩阵计算,展开后我们有:
S c o r e = A − B ∗ ( θ T x ) = A − B ∗ ( θ 0 + θ 1 x 1 + ⋯ + θ n x n ) ( 9 ) Score = A - B*(\theta ^T x) = A - B*(\theta _0 + \theta _1 x_1 +\cdots + \theta _n x_n) ~~~~ (9) Score=A−B∗(θTx)=A−B∗(θ0+θ1x1+⋯+θnxn) (9)
其中变量 x 1 、 x 2 x_1、x_2 x1、x2等等是出现在最终模型的入模变量。由于所有的入模变量都进行了 W O E WOE WOE编码,可以将这些自变量中的每一个都写 ( θ i ω i j ) δ i j (\theta _i \omega_{ij})\delta _{ij} (θiωij)δij 的形式,其中 ω i j \omega_{ij} ωij 为第 i i i个特征的第 j j j 个分箱的WOE值, δ i j \delta _{ij} δij 是0,1逻辑变量,当 δ i j = 1 \delta _{ij} =1 δij=1 时,代表自特征 i i i 取第 j j j 个分箱,当 δ i j = 0 \delta _{ij} =0 δij=0 时代表特征 i i i不取第 j j j 个分箱。最终得到评分卡模型:
S c o r e = A − B ∗ ( θ 0 + ∑ j ( θ 1 ω 1 j δ 1 j ) + ⋯ + ∑ j ( θ n ω n j δ n j ) ) ( 10 ) Score = A - B*(\theta _0 + \sum_{j}(\theta _1 \omega_{1j}\delta _{1j}) +\cdots + \sum_{j}(\theta _n \omega_{nj}\delta _{nj})) ~~~~ (10) Score=A−B∗(θ0+j∑(θ1ω1jδ1j)+⋯+j∑(θnωnjδnj)) (10)
若用图片可以表示为:
我们定义 比率 θ 0 \theta _0 θ0 为1:1,基准分 P 0 P_0 P0 为650, P D O ( p o i n t o f d o u b l e ) PDO(point~of~double) PDO(point of double)为50,代入公式(7)和(8),有
B = 50 l n 2 = 72.13 ( 11 ) B = \frac{50}{ln2} = 72.13 ~~~~ (11) B=ln250=72.13 (11)
A = 650 + 72.13 ∗ l n ( 1 ) = 650 ( 12 ) A = 650 + 72.13*ln(1) = 650 ~~~~ (12) A=650+72.13∗ln(1)=650 (12)
参考文献: