logistic regression--sas逐步回归推导验证

逻辑回归定义事件发生的概率为:
这里写图片描述
其中:
这里写图片描述
因此对于输入x分类结果为类别1和类别0的概率分别为:
这里写图片描述

(1)式综合起来可以写成:
这里写图片描述
取似然函数为:
这里写图片描述
对数似然函数为:
这里写图片描述

实际求解中通常取 -2log L
求解变量系数就是使用梯度下降法求 -2log L 的最小值,sas logistic 采用牛顿法 和Fisher scoring法(默认)。

先说几个概念

1、似然方程

公式-2log L 对于模型参数直接微分,使这些导数等于0 ,得到p+1个等式:
这里写图片描述
这些函数可以写成扩展形式如下:
这里写图片描述
矢量形式如下:
这里写图片描述
上式中的矩阵X被称为数据矩阵或设计矩阵,其维度为 n x (p+1)。
这里写图片描述
这些函数的解是模型最大似然参数估计的向量β。由于这些函数是非线性的,求解它们需要使用迭代的方法。常用牛顿迭代法,如下:
这里写图片描述
I 是函数 -log L对于β的二阶导数的矩阵,即下面的hessian矩阵。

2、信息矩阵(hessian矩阵)

对 - log L 求二阶偏导数,即Hessian矩阵为
这里写图片描述
这里写图片描述
如果写成矩阵形式,以H表示Hessian矩阵,

这里写图片描述
H = X T V X H=X^TVX H=XTVX
下面以sas proc logistic的输出为例,计算下统计量指标。

只含截距项的参数统计量:

logistic regression--sas逐步回归推导验证_第1张图片

上图包括样本数量,从第0步输入截距开始满足收敛状态表示模型已经输出了变量系数,下面的都是进行模型变量的参数估计、拟合统计量等。

-2log L = -2 * [ n1ln(n1/n) + n0 ln(n0/n) ]= -2 [(886*ln(886/10615) + 9726 * ln(9726/10615))] =6096.319

截距项的系数来自于先验概率 log(p/1-p)= log (886/9726)=-2.3961

然后模型参数估计的部分任务是计算出标准误差,模型参数的方差和协方差由信息矩阵的逆给出 ∑ ( β ) = I − 1 \sum(\beta)=I^{-1} (β)=I1。估计的参数的标准误由对角线元素的平方根给出,即: S E ( β j ) = ( v a r ( β j ) ) 1 2 SE(\beta_j)=(var(\beta_j))^{\frac 12} SE(βj)=(var(βj))21
参照上式
这里写图片描述 这里写图片描述
这里写图片描述
logistic regression--sas逐步回归推导验证_第2张图片
沃尔德卡方统计量 W = [ β j ^ / S E ^ ( β j ^ ) ] 2 W=[\hat{\beta_j}/\hat{SE}(\hat{\beta_j})]^2 W=[βj^/SE^(βj^)]2=(-2.3961/0.0351)^2 = 4662.4021

logistic regression--sas逐步回归推导验证_第3张图片

logistic regression--sas逐步回归推导验证_第4张图片
筛选变量进入时用的是评分卡方,是否剔除变量时用的是wald卡方(等于极大似然估计时的wald统计量)??

logistic regression--sas逐步回归推导验证_第5张图片

模型拟合统计量:

logistic 模型评估分成几个阶段进行,首先考虑检查似然函数值得统计量。通过与仅含截距项的模型比较,这些统计量可以评估将自变量引入模型的效应。

模型拟合统计量中 -2 log L 就是上面似然函数的对数,分为只含截距项的和截距项加自变量的两个值, L 1 = ∏ i = 1 n [ π i y i ] [ ( 1 − π i ) 1 − y i ] L_1=\prod_{i=1}^n[\pi_i^{y^i}][(1-\pi_i)^{1-y^i}] L1=i=1n[πiyi][(1πi)1yi]
取对数形式并两边同时乘以-2,得到:
− 2 l o g L = − 2 [ y i l n ( π i ) + ( 1 − y i ) l n ( 1 − π i ) ] -2logL=-2[y_iln(\pi_i)+(1-y_i)ln(1-\pi_i)] 2logL=2[yiln(πi)+(1yi)ln(1πi)] ,除了用 -2 log L 评估模型中所有自变量对模型的贡献,在逐步建模的情况下,还可以用 -2 log L 判断每一个变量被纳入模型时的增加值(注意:-2 log L 是似然函数乘以-2,所以在似然函数越大越好的情况下,-2 logL 越小越好。因此,逐步回归中,模型拟合统计量含自变量的-2 log L最好是越来越小的)。

注意到模型的变量越多,包含和不包含该自变量的 -2 log L 差别越大,即使这些变量的中的某些系数已经接近0,为了惩罚包含大量自变量的模型,制定了以下两个标准:AIC(赤池信息准则)和SC(舒尔茨准则)。舒尔茨准则也被称为贝叶斯信息准则(BIC)。
AIC = -2 log L + 2 r

SC = -2 log L + r ln(n)

检验全局零假设:

零假设 β = 0 β=0 β0(表示自变量 X k X_k Xk对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可能性依赖于 X k X_k Xk的变化。通常,样本量越大,自变量和违约变量之间的关联性指标就越强,得到一个所有参数都是0的模型的可能性就越低。
用于检验零假设的统计量有三个:
1.似然比统计量
2.分数统计量
3.wald统计量

似然比统计量 G = − 2 l n ( 不 含 x i 似 然 含 有 x i 似 然 ) G=-2ln(\frac {不含x_i似然} {含有x_i似然}) G=2ln(xixi),结果就是上面拟合统计量 只含截距项的 -2 log L 减去 包含自变量的 -2 log L,等于6096.319-5911.975=184.3449

后面的wald统计量和分数统计量计算参见博文。

logistic regression--sas逐步回归推导验证_第6张图片

模型参数的解释:

逻辑回归发生比 o d d s = p 1 − p = e β 0 + β 1 x 1 + . . . β k x k + . . . + β p x p odds=\frac p {1-p}=e^{\beta_0+\beta_1 x_1+...\beta_k x_k+...+\beta_p x_p} odds=1pp=eβ0+β1x1+...βkxk+...+βpxp即事件发生的概率与不发生的概率之比。而发生比率(odds ration),即 O R = o d d s i o d d s j OR=\frac {odds_i} {odds_j} OR=oddsjoddsi

对于自变量 X k X_k Xk,每增加一个单位,odds ration为
这里写图片描述
因此,优比估计里面的变量name_6点估计实际上就是e^1.189=3.284。因为模型自变量的系数不等于0,所有概率比应该不等于1。如果模型自变量系数为负,概率比小于1。不论变量系数是大于0还是小于0,概率比的置信区间都不应该覆盖1。

参考:
1、logistic回归
2、逻辑回归
3、信用风险评分卡研究:基于SAS的开发与实施【Mamdouh Refaat】

你可能感兴趣的:(机器学习与数据挖掘,sas评分卡模型)