logit模型的注解

@(jefeer 的笔记本)[logit模型的注解]

关于logit模型的注解

基本模型

基本线性概率模型LPM


假设毕业后只有两种选择:出国或者不出国,那么这样的实验类似于一个贝努里实验

成功的概率为p,失败的概率为1-p
这里模型存在异方差,具体我不证明了

可以考虑从潜变量的视角思考二值选择模型。如何理解潜变量呢?

考虑这样一个实例,我们考虑一个人是否考研的决策,那么当考研的收益的现值大于考研付出成本的现值时,这个人会表现出来去选择考研。我们观察到的只是他选择了考研这个事实,但实际上这个人做决策的时候是才选择的考研。也就是可以想象存在一个我们观测不到的潜变量,当潜变量大于0的时候,决策者会选择做这件事情。当潜变量小于等于零时,决策者选择做这件事情。



这里我们需要对扰动项的分布做一个假设

关于扰动项e的设定从而出现logit或probit模型

如果假设扰动项服从以下分布,那么模型为logit模型

那么pobit模型就是残差服从正态分布的累积密度函数(cdf)

其中,

如果我们希望得到某个自变量在模型中的边际效应,那么需要求偏导,


其中,g()是G()的概率密度函数,如果不理解可以看这里

上面公式的特点告诉我们任意两个自变量和的边际效应与x无关。他们边际效应之比为

如果我们考虑的自变量x是一个0和1类型的变量,那么当x从0变到1,对的边际影响是:

其中这个变量是个0和1变量,是其自变量的矩阵。


再比如,我们考虑如下形式的模型:

求的边际效应,,
再比如,我们考虑的边际效应:

那么增加1%,对应响应概率增加,
考虑到弹性计算公式:,那么我们可以得到对应自变量的弹性
比如{z_2}的弹性,

对probit和logit模型的估计

我们使用MLE
极大似然法

对二值响应模型的极大似然估计:

取对数,得到对数似然函数:

对所有观测值的似然函数求和,得到一个加总的似然函数

对上式求最大值,得到对应的系数的估计值。

对probit和logit模型的解释

如果是连续变量,那么有:

当时,有
和OLS模型相比,多了一部分,这部分称为scale factor比例因子。

因此在二值响应模型中,估计系数,并不能代表自变量x的边际效应,这点和OLS模型有重大的区别。

显然比例因子是和整个模型的相关联的,一种做法是将所有x的有意义的值带进去,比均值,或中位数。
比如我们选择使用样本中的x的均值来计算这个比例因子(),那么我们就可以得到在平均偏效应(partial effect at the average )
估计表达式的思想是,我们MLE估计出来的系数,那么我们把每个自变量的均值带入,就可以计算出这个比例因子,具体公式如下:

上面的公式就是PEA,在均值处的偏效应

另一种方法是用平均偏效应来替代比例因子

具体做法是不带入每个x的均值,而是对比例因子求均值。

那么比例因子就是:

线性概率模型(LPM)的拟合值

而logit和probit模型的拟合值

显然,我们知道了在估计probit或logit模型中,并非待估参数的边际效应,那么如何理解这个参数呢?
考虑如下公式:,那么,
考虑logit模型:


求比例:

取对数:

再求导:
是对数比例的边际变化,称为log-odds ratio,如等于0.1,可以看作是一个半弹性,那么当对应的自变量x增加一个单位时,y由0到1的比率(odds ratio)增加10%。
转换一下就可以考虑计算

这个比例就是对应x增加一个单位,对应的y由0变到1的比例的变化倍数,注意我这里用的是倍数,而不是百分百比了。

你可能感兴趣的:(logit模型的注解)