信用评分之三--逻辑回归中的统计方法

逻辑回归汇总的变量选择

1、 使用所有的变量:这是拟合模型的最简单的方法;
2、 正向选择:这种模型如要如下步骤。第一步,用截距对模型进行拟合,接下来,检验没有纳入模型的变量并选择卡方统计量最大、符合进入条件的变量,这个条件可以通选选项SLE确定。一旦这个变量被纳入模型就不会被移出,重复这个过程知道所有变量纳入。
3、 逆向选择:与正向相反,第一步,使用所有的变量进行拟合,然后,在每一步,移出Wald卡方统计量P值最大的变量,一旦移出,将不会纳入。
4、 stepwise选择:刚开始模型只有截距项,正向选择最优,逆向选择最差,通过SLE和SLS的值控制纳入和移出模型变量的p值。
5、 得分最有统计模型:最优得分法与stepwise方法相似,但是使用分支界定算法找出木偶性的分数统计量最高变量的子集,从而找出最优解。

相关方法

MLE极大似然估计

  极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数a相关,A发生的概率记为P(A,a),则a的估计应该使上述概率达到最大,这样的a顾名思义称为极大似然估计。
  极大似然估计是能沟通通过模型以最大概率在线样本观察数据,逻辑回归模型主要使用极大似然法来进行估计

SLE

  sas中在变量选举进入的参数,SLE(sets criterion for entry into model) 是变量进入模型的标准即统计意义水平值P<0.3,是定逻辑回归中变量纳入的主要条件。

SLS

  sas中在变量选举进入的参数,SLS(sets criterion for staying in model)是变量在模型中保留的标准即统计意义水平值P<0.3,是定逻辑回归中变量保留的主要条件。逻辑回归变量进入后,因为新的变量进入导致老的变量对整个模型的贡献不足,从中移出的阀值。

卡方校验

原理

  卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
  卡方检验的两个应用是拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。

应用场景

卡方校验的场景
1.应用实例——适合度检验
  实际执行多项式试验而得到的观察次数,与虚无假设的期望次数相比较,称为卡方适度检验,即在于检验二者接近的程度,利用样本数据以检验总体分布是否为某一特定分布的统计方法。
2.应用实例2——独立性检验
  卡方独立性检验是用来检验两个属性间是否独立。一个变量作为行,另一个变量作为列。
3.应用实例3——统一性检验
  检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近,一般称为卡方统一性检验或者卡方同质性检验。
具体参考例子
见文档:http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C
  

卡方分布与皮尔逊卡方检验的关系

摘录自知乎,总结的比较到位
  我们知道,从正态分布里随机抽取n个值的平方的和构成了自由度为n-1的卡方分布,在使用卡方分布表进行假设检验时,我们需要用样本方差除总体方差进行标准化。现在的问题是使用皮尔逊卡方检验的时候,为什么用的不是总体方差进行标准化,而是使用理论频数进行标准化?
  理论证明,实际观察次数(fo)与理论次数(fe),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布。所以用理论次数标准化

模型选择的几种方法:AIC,BIC,HQ准则

引用:http://blog.csdn.net/xianlingmao/article/details/7891277

  经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢?目前常用有如下方法:
AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字:贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
  其中L是在该模型下的最大似然,n是数据数量,k是模型的变量个数。
  注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失【因为不知道真正的模型是什么样子,所以训练得到的所有模型都只是真实模型的一个近似模型】,所以用这些规则不能说明某个模型的精确度,即三个模型A, B, C,在通过这些规则计算后,我们知道B模型是三个模型中最好的,但是不能保证B这个模型就能够很好地刻画数据,因为很有可能这三个模型都是非常糟糕的,B只是烂苹果中的相对好的苹果而已。
  这些规则理论上是比较漂亮的,但是实际在模型选择中应用起来还是有些困难的,例如上面我们说了5个变量就有32个变量组合,如果是10个变量呢?2的10次方,我们不可能对所有这些模型进行一一验证AIC, BIC,HQ规则来选择模型,工作量太大。

总结

逻辑回归比较复杂,推荐《Logistic回归模型——方法与应用》王济川郭志刚著,这本书不错。

你可能感兴趣的:(---信用评分,---互联网金融,架构,自然语言处理,金融风控,信用评分)