笔记:二元Probit与Logit模型

二元离散选择模型的建立

建立模型: Y i = X i β + μ i Y_i=X_i\beta+\mu_i Yi=Xiβ+μi
二元选择下, Y i = 0 , 1 Y_i=0,1 Yi=0,1 E ( μ i {\rm E}(\mu_i E(μi)=0,所以 E ( Y i {\rm E}(Y_i E(Yi)= X i β X_i \beta Xiβ
易知 E ( Y i ) = P ( Y i = 1 ) = X i β {\rm E}(Y_i)=P(Y_i=1)=X_i\beta E(Yi)=P(Yi=1)=Xiβ
P ( Y i = 1 ) P(Y_i=1) P(Yi=1)要求[0,1]范围,而 X i β X_i\beta Xiβ却没有这个限制,所以产生了矛盾。另外,
μ i = { 1 − X i β , 当 Y i = 1 , 其 概 率 为 X i β − X i β , 当 Y i = 0 , 其 概 率 为 1 − X i β \mu_i=\begin{cases} 1-X_i\beta, \quad {\rm当}Y_i=1,其概率为X_i\beta\\-X_i\beta,\qquad 当Y_i=0,其概率为1-X_i\beta \end{cases} μi={1Xiβ,Yi=1,XiβXiβ,Yi=0,1Xiβ
为了使模型可以估计,建立
Y i ∗ = X i β + μ i ∗ ( 1 ) Y_i^*=X_i\beta+\mu_i^*\quad(1) Yi=Xiβ+μi(1)
使得 P ( Y i = 1 ) = P ( Y i ∗ > 0 ) = P ( μ i ∗ > − X i β ) P(Y_i=1)=P(Y_i^*>0)=P(\mu_i^*>-X_i\beta) P(Yi=1)=P(Yi>0)=P(μi>Xiβ)(2)
μ i ∗ \mu^*_i μi选择的概率分布常用的是标准正态分布和逻辑分布,相应地形成了两种最常用的二元选择模型——Probit模型与Logit模型。
这两种分布都是对称的,所以
P ( Y i = 1 ) = P ( Y i ∗ > 0 ) = P ( μ i ∗ > − X i β ) = 1 − P ( μ i ∗ ≤ − X i β ) = 1 − F ( − X i β ) = F ( X i β ) P(Y_i=1)=P(Y_i^*>0)=P(\mu_i^*>-X_i\beta)\\ =1-P(\mu_i^* \leq-X_i\beta)\\ \qquad=1-F(-X_i\beta)=F(X_i\beta) P(Yi=1)=P(Yi>0)=P(μi>Xiβ)=1P(μiXiβ)=1F(Xiβ)=F(Xiβ)
模型(1)的似然函数:
P ( Y 1 , . . . , Y n ) = ∏ Y i = 0 [ 1 − F ( X i β ) ] ∏ Y i = 1 F ( X i β ) P(Y_1,...,Y_n)=\prod_{Y_i=0}[1-F(X_i\beta)]\prod _{Y_i=1}F(X_i\beta) P(Y1,...,Yn)=Yi=0[1F(Xiβ)]Yi=1F(Xiβ)

L = ∏ i = 1 n [ F ( X i β ) ] Y i [ 1 − F ( X i β ) ] 1 − Y i L=\prod_{i=1}^n [F(X_i\beta)]^{Y_i}[1-F(X_i\beta)]^{1-Y_i} L=i=1n[F(Xiβ)]Yi[1F(Xiβ)]1Yi
取对数:
l n L = ∑ { Y i l n F ( X i β ) + ( 1 − Y i ) l n [ 1 − F ( X i β ) ] } ln L =\sum \{Y_i ln F(X_i\beta)+(1-Y_i)ln[1-F(X_i\beta)]\} lnL={YilnF(Xiβ)+(1Yi)ln[1F(Xiβ)]}
一阶条件为
∂ l n L ∂ β = ∑ [ Y i f i F i + ( 1 − Y i ) − f i 1 − F i ] X i = 0 ( 3 ) \frac{\partial ln L}{\partial \beta}=\sum [\frac{Y_i f_i}{F_i}+(1-Y_i)\frac{-f_i}{1-F_i}]X_i=0 \quad (3) βlnL=[FiYifi+(1Yi)1Fifi]Xi=0(3)
求解该方程组,可以得到模型参数估计量。

二元Probit模型

Probit模型就是 μ i ∗ \mu_i^* μi取正态分布推导得出的。

  • 重复观测值不可得到时的情况
    这个情况是指对每个决策者只有一个观测值。
    在这种情况下我们将一阶条件(3)写为:
    ∂ l n L ∂ β = ∑ Y i = 0 − f i 1 − F i + ∑ y i = 1 f i F i X i = ∑ i = 1 n [ q i f ( q i X i β ) F ( q i X i β ) ] X i = ∑ i = 1 n λ i X i = 0 \frac{\partial ln L}{\partial \beta}=\sum_{Y_i=0}\frac{-f_i}{1-Fi}+\sum_{y_i=1}\frac {f_i}{F_i}X_i\\=\sum_{i=1}^n[\frac{q_if(q_iX_i\beta)}{F(q_iX_i\beta)}]X_i\\=\sum_{i=1}^n\lambda_iX_i=0 βlnL=Yi=01Fifi+yi=1FifiXi=i=1n[F(qiXiβ)qif(qiXiβ)]Xi=i=1nλiXi=0
    其中 q i = 2 Y i − 1 q_i=2Y_i-1 qi=2Yi1
    上式关于 β \beta β式非线性函数,不能直接求解,需采用完全信息最大似然法中所采用的迭代方法。
  • 重复观测可以得到时的情况
    由于外部条件不变很难实现,所以这个模型的应用价值受到限制。

二元Logit模型

就是方程(2)中的 μ i ∗ \mu_i^* μi的概率分布设为逻辑分布而推导得到的。
逻辑分布的分布函数:
F ( t ) = 1 1 + e − t F(t)=\frac{1}{1+e^{-t}} F(t)=1+et1
密度函数:
f ( t ) = e − t ( 1 + e − t ) 2 f(t)=\frac{e^{-t}}{(1+e^{-t})^2} f(t)=(1+et)2et
其中分布函数可改写为:
F ( t ) = e t 1 + e t = Λ ( t ) ( 4 ) F(t)=\frac{e^t}{1+e^t}=\Lambda(t)\quad (4) F(t)=1+etet=Λ(t)(4)
概率密度函数可改写为:
f ( t ) = e t ( 1 + e t ) 2 = Λ ( t ) [ 1 − Λ ( t ) ] ( 5 ) f(t)=\frac{e^t}{(1+e^t)^2}=\Lambda(t)[1-\Lambda(t)] \quad (5) f(t)=(1+et)2et=Λ(t)[1Λ(t)](5)

  • 重复观测值不可得到时的情况
    将(4)(5)代入一阶条件(3)中:
    ∂ l n L ∂ β = ∑ [ Y i f i F i + ( 1 − Y i ) − f i 1 − F i ] X i = ∑ i = 1 n [ Y i − Λ ( X i β ) ] X i = 0 \frac{\partial ln L}{\partial \beta}=\sum [\frac{Y_i f_i}{F_i}+(1-Y_i)\frac{-f_i}{1-F_i}]X_i=\\\sum_{i=1}^n[Y_i-\Lambda(X_i\beta)]X_i=0 βlnL=[FiYifi+(1Yi)1Fifi]Xi=i=1n[YiΛ(Xiβ)]Xi=0
    上式关于 β \beta β非线性,不能直接求解,需采用完全信息最大似然法中的迭代方法。
  • 重复观测值可以得到的情况
    同样可以采用广义最小二乘法估计二元Logit模型。

你可能感兴趣的:(机器学习)