信用评分模型详解(上)之 评分卡模型

介绍完分箱算法后,就不得不介绍一下评分卡模型了。评分卡模型由于在业务层面具有良好的解释性,在数据挖掘方面(如风控)仍深受欢迎。

前提假设

目前,主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为 p p p,则正常的概率为 1 − p 1-p 1p。由此可以得到违约几率:

O d d s = p 1 − p Odds = \frac{p} {1-p} Odds=1pp

此时,客户的违约概率 p p p可以表示为:

p = O d d s 1 + O d d s p = \frac{Odds}{1+Odds} p=1+OddsOdds

评分卡设定的分值刻度可以通过将分值表示为几率对数的线性表达式来定义,即:

S c o r e = A ± B ∗ l o g ( O d d s ) Score = A \pm B*log(Odds) Score=A±Blog(Odds)

其中,A和B都是常数且(a>=0, b>=0)。当希望违约几率越低,得分越高时,取负号。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。 所以,后面均讨论这种情况。

逻辑回归模型

对于逻辑回归模型,其目标函数为:

p = h θ ( x ) = g ( x ) = 1 1 + e ( − θ T X ) p = h_\theta(x) = g(x) = \frac{1}{1+e^{(-\theta^TX)}} p=hθ(x)=g(x)=1+e(θTX)1

则计算几率的表达式如下:

l n ( O d d s ) = l n ( p 1 − p ) = θ 0 + θ 1 ∗ x 1 + . . . + θ n ∗ x n ln(Odds) = ln(\frac{p}{1-p}) = \theta_0 + \theta_1*x_1 + ...+ \theta_n*x_n ln(Odds)=ln(1pp)=θ0+θ1x1+...+θnxn

其中,模型参数 θ 0 , θ 1 , . . . , θ n \theta_0, \theta_1, ..., \theta_n θ0,θ1,...,θn可以通过逻辑回归模型参数拟合模型得到。

评分卡构建

式中的常数A、B的值可以通过将两个已知或假设的分值计算得到。通常情况下,需要设定两个假设:
(1) 给定某个指定的几率 β 0 \beta_0 β0,其对应的分值为基础分值 P 0 P_0 P0
(2)确定几率翻倍分值 P D O PDO PDO。即当几率 β 0 \beta_0 β0翻倍时,其对应的预期分值为 P 0 + P D O P_0+PDO P0+PDO
根据上面的假设,可以将这两组点 ( β 0 , P 0 (\beta_0, P_0 (β0,P0), ( 2 β 0 , P 0 + P D O ) (2\beta_0, P_0+PDO) (2β0,P0+PDO)带入方程中,可以得到如下两个等式:

P 0 = A − B l n ( β 0 ) P_0 = A - Bln(\beta_0) P0=ABln(β0)
P 0 + P D O = A − B l n ( 2 ∗ β 0 ) P_0+PDO = A - Bln(2*\beta_0) P0+PDO=ABln(2β0)

解方程可得:

A = P 0 + B ∗ l n ( β 0 ) A = P_0 + B*ln(\beta_0) A=P0+Bln(β0)
B = − P D O / l n 2 B = -PDO/ln2 B=PDO/ln2

确定了评分卡刻度参数A和B以后,就可以计算比率和违约概率,以及对应的分值。
由上面的公式可知,评分卡的分值可表达为:

S c o r e = A − B ∗ ( θ 0 + θ 1 ∗ x 1 + . . . + θ n ∗ x n ) Score = A - B*(\theta_0 + \theta_1*x_1 + ...+ \theta_n*x_n) Score=AB(θ0+θ1x1+...+θnxn)

式中,变量 θ 0 . . . θ n \theta_0 ... \theta_n θ0...θn是出现在最终模型中的自变量,即为入模指标。

由于评分卡模型要求所有特征都经过WOE编码,所以,此时可以将自变量中的每一个值都写成如下形式:
S c o r e = ( A − B ∗ θ 0 ) − ( B ∗ θ 1 ∗ W O E 11 ) − . . . ( B ∗ θ 2 ∗ W O E 21 ) − . . . Score = (A-B*\theta_0) - (B*\theta_1*WOE_{11}) - ... (B*\theta_2*WOE_{21}) - ... Score=(ABθ0)(Bθ1WOE11)...(Bθ2WOE21)...

此式即为最终的评分卡公式。如果 x 1 . . . x n x_1 ... x_n x1...xn取不同的值并计算WOE值,式中表示的标准评分卡格式如下表所示:

变量 WOE值 分值
基础分值 . . . ... ... ( A − B ∗ θ 0 ) (A-B*\theta_0) (ABθ0)
x 1 x_1 x1 1 − ( B ∗ θ 1 ∗ W O E 11 ) -(B*\theta_1*WOE_{11}) (Bθ1WOE11)
x 1 x_1 x1 2 − ( B ∗ θ 1 ∗ W O E 12 ) -(B*\theta_1*WOE_{12}) (Bθ1WOE12)
x 1 x_1 x1 . . . ... ... . . . ... ...
x 1 x_1 x1 k 1 k_1 k1 − ( B ∗ θ 1 ∗ W O E 1 k 1 ) -(B*\theta_1*WOE_{1k_1}) (Bθ1WOE1k1)
x 2 x_2 x2 1 − ( B ∗ θ 2 ∗ W O E 21 ) -(B*\theta_2*WOE_{21}) (Bθ2WOE21)
x 2 x_2 x2 2 − ( B ∗ θ 2 ∗ W O E 22 ) -(B*\theta_2*WOE_{22}) (Bθ2WOE22)
x 2 x_2 x2 . . . ... ... . . . ... ...
x 2 x_2 x2 k 2 k_2 k2 − ( B ∗ θ 2 ∗ W O E 2 k 2 ) -(B*\theta_2*WOE_{2k_2}) (Bθ2WOE2k2)
. . . ... ... . . . ... ... . . . ... ...
x n x_n xn 1 − ( B ∗ θ n ∗ W O E n 1 ) -(B*\theta_n*WOE_{n1}) (BθnWOEn1)
x n x_n xn 2 − ( B ∗ θ n ∗ W O E n 2 ) -(B*\theta_n*WOE_{n2}) (BθnWOEn2)
x n x_n xn . . . ... ... . . . ... ...
x n x_n xn k n k_n kn − ( B ∗ θ n ∗ W O E n k n ) -(B*\theta_n*WOE_{nk_n}) (BθnWOEnkn)

由此构建的评分卡系统如下所示:
信用评分模型详解(上)之 评分卡模型_第1张图片

你可能感兴趣的:(算法)