Logistic回归模型

一、Logistic回归模型

线性回归模型要求因变量是连续型正态变量。当因变量是分类变量时,Logistic回归模型是最好的回归模型。

由于y只能取两个值1或0,y的条件数学期望:

E(y|xi)=1*p(y=1|xi)+0*p(y=0|xi)=p(y=1|xi)

选择一个函数,p(y=1|x)=f(x)=Logistic函数,作为回归方程。即利用观测数据(xi,yi)拟合一个Logistic函数。

根据Logistic函数的定义

p=p(y=1|x)=exp(a+b*x)/(1+exp(a+b*x)),这里p/(1-p)=exp(a+b*x)。


二、参数估计

极大似然估计的基本思想:既然一次取样得到了样本,那么这个样本出现的可能性应该极大,最大化思然函数,求出未知参数。

似然函数L=πp(yi=m|x1i,x2i,...,xki)

对似然函数取对数求导,即可求得各系数。


三、回归系数意义

回归系数的估计值b反映了自变量x对因变量y的影响作用的大小。


四、拟合优度检验

ln(p/1-p)=a+b1*x1+b2*x2+...+bk*xk

皮尔逊x2检验法:通过比较模型预测的和观测的目标事件发生和不发生的频数来检验模型成立的原假设。

x2统计量的值要是很小,意味着预测值与观测值之间没有显著区别,拟合很好,接受原假设模型。反之拒绝。

如何确定x2?

1、设定一个“小概率”a(显著性水平),一般取0.10,0.05,0.01,0.001等。

2、查表得到阈值x2。

3、比较,小于阈值接受,大于阈值拒绝。


五、流行数据分析平台及数据挖掘工具介绍

SAS    SPSS    Weka    Matlab    Oracle    Hadoop    

你可能感兴趣的:(数据挖掘,大数据,数据挖掘)