高级计量经济学 15:多值选择模型(基础)

高级计量经济学 15:多值选择模型(基础)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括证明和正文)做了修改。

仅供学习参考,请勿转载,侵删!


目录

  • 12 多值选择模型
    • 12.1 二值选择模型的微观基础
      • 12.1.1 潜变量
      • 12.1.2 随机效用最大化模型
    • 12.2 多项 Logit 与 多项 Probit
    • 12.3 条件 Logit 模型
    • 12.4 混合 Logit 模型


12.1 二值选择模型的微观基础

为了将二值模型拓展到多值的情况,我们首先要理解二值选择模型的经济意义。

12.1.1 潜变量

在上一篇文章的 Probit 和 Logit 模型中似乎看不到扰动项的存在。为此,我们先考察二值选择模型的微观基础。对于二值选择模型,通常可以用一个潜变量(latent varibale)来概括该行为的净收益。如果净收益大于 0 则选择做;否则选择不做。假设净收益为:

其中,净收益 为潜变量,不可观测。上面的式子也称为指数函数( index function ),个体的选择规则为:

于是:
\mathrm{P}(y=1 | \boldsymbol{x})=\mathrm{P}\left(y^{*}>0 | \boldsymbol{x}\right)=\mathrm{P}\left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}+\varepsilon>0 | \boldsymbol{x}\right)=\mathrm{P}\left(\varepsilon>-\boldsymbol{x}^{\prime} \boldsymbol{\beta} | \boldsymbol{x}\right)
假设 或服从逻辑分布,那么:
\mathrm{P}(y=1 | \boldsymbol{x})=\mathrm{P}\left(\varepsilon>-\boldsymbol{x}^{\prime} \boldsymbol{\beta} | \boldsymbol{x}\right)=\mathrm{P}\left(\varepsilon<\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)=F_{\varepsilon}\left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)
其中, 为 的累积分布函数,上面的第二个等号用到了密度函数关于原点对称的性质。这个形式与高级计量14中的二值选择模型的形式相同,均为:

所以看似不存在的扰动项其实是被包含在分布函数里头了。

需要注意的是,对于常数 , 。如果扰动项的方差为 那么 ,于是我们发现 对模型的拟合与 完全一样。所以我们无法同时识别( identify ) 与 。为此,我们通常人为地令扰动项的方差 即 ;而对于 Logit 模型,则令扰动项的方差为

12.1.2 随机效用最大化模型

另外一种关键的微观基础为随机效用最大化模型( Random utility Maximization, RUM)。假设选择 则可以带来效用 ;选择 则可以带来效用 。如果满足 ,那么就选 ,记 ;如果 那么就选择 记为 。由于存在很多决定效用的未知因素以及未来的不确定性,效用方程中包含一个扰动项,故名随机效用。假设 , 那么:
\begin{aligned} \mathrm{P}(y=1 | \boldsymbol{x}) &=\mathrm{P}\left(U_{a}>U_{b} | \boldsymbol{x}\right) \\ &=\mathrm{P}\left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}_{a}+\boldsymbol\varepsilon_{a}>\boldsymbol{x}^{\prime} \boldsymbol{\beta}_{b}+\boldsymbol\varepsilon_{b} | \boldsymbol{x}\right) \\ &=\mathrm{P}\left[\boldsymbol{x}^{\prime}\left(\boldsymbol{\beta}_{a}-\boldsymbol{\beta}_{b}\right)+\left(\boldsymbol\varepsilon_{a}-\boldsymbol\varepsilon_{b}\right)>0 | \boldsymbol{x}\right] \end{aligned}
定义 以及 ,于是又会得到我们前面的表达式: ,说明潜变量随机效应最大化模型虽然尝试从不同的经济意义理解二值选择模型,但最终其表达式是一样的。

在随机效用最大化模型中:

  • 如果 和 服从正态且相互独立,则 也服从正态分布,此时只要将 标准化为 1,即得到 Probit 模型。
  • 如果 和 I型极值分布( Type I extreme value distribution )正态且相互独立,那么 也服从逻辑分布。

I型极值分布,即累积分布函数为

的分布。证明参见 Cameron & Trivedi (2005, p.486)

随机效用最大化模型的优点是比较容易推广到多值选择模型,我们下面马上讲解它的应用。


12.2 多项 Logit 与 多项 Probit

个体面临的选择有时候是多值的,而不仅仅是二值的。比如,交通工具的选择、职业的选择,等等。假设个体的候选方案为 ,其中 。如果 ,那么多值选择模型退化为二值选择。

使用随机效用法,假设个体 选择方案 所带来的效用为:

其中,解释变量 只随个体 而变,不随方案 而变。比如,个体的性别、年龄、收入等特征。这种解释变量被称为只随个体而变( case-specific )或不随方案而变( alternative-invariant )。系数 带下标,表明 对随机效用 的作用取决于方案 ,在概率表达式中,表现为对 的条件概率

显然,当且仅当方案 带来的效用高于所有的其他方案,个体 才会选择方案 。所以个体 选择 的概率可以写为:
\begin{aligned} \mathrm{P}\left(y_{i}=j | \boldsymbol{x}_{i}\right) &=\mathrm{P}\left(U_{i j} \geqslant U_{i k}, \forall k \neq j\right) \\ &=\mathrm{P}\left(U_{i k}-U_{i j} \leqslant 0, \forall k \neq j\right) \\ &=\mathrm{P}\left(\varepsilon_{i k}-\varepsilon_{i j} \leqslant \boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{j}-\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}, \forall k \neq j\right) \end{aligned} \quad (12.2)
假设 为 且服从 型极值分布,则可证明:

显然,各方案的概率之和为1。上面的方程是对二值选择 Logit 模型的自然推广。需要注意的是,我们无法同时识别所有的系数 , 这是因为如果将系数 变为 ,完全不会影响模型的拟合。 为此,通常让某个方案(比如方案1)的系数为 ,即让它成为参照方案( base category ),于是,个体 选择方案 的概率为:
\mathrm{P}\left(y_{i}=j | \boldsymbol{x}_{i}\right)=\left\{\begin{array}{ll} \frac{1}{1+\sum\limits_{k=2}^{J} \exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} & (j=1) \\ \frac{\exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{j}\right)}{1+\sum\limits_{k=2}^{J} \exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} & (j=2, \cdots, J) \end{array}\right.
其中, 所对应的方案为参照方案。此模型称为多项 Logit ( Multinomial Logit ),可以用 MLE 进行估计,个体 的似然函数为:

其中, 为示性函数( indicator function ),即如果括号中的表达式成立,则取值为1;反之取值为0。将所有个体的对数似然函数加总,即得到整个样本的对数似然函数,将其最大化就可以得到参数估计值 。

另外,如果在 中假设 服从 维正态分布,则可以得到多项 Probit( Multinomial Probit )模型,但该模型的选择概率设计高维积分,不好计算。

在多项 Logit 模型中,是有多个参数向量需要估计的。这一点与普通的线性回归不大一样�,因为线性模型的参数向量 只有一个。你可以简单地把多项 Logit 回归理解为:**个体选择方案 ** 的概率的回归,既然有 种方案,那自然要回归 次,也就有了 个 啦。然而,受制于识别问题,我们会选择一个参照方案,让它的 ,于是我们实际上要计算的参数向量其实只有 个

其实我们看看教材给的例子就看得懂了:

在下面的回归中,我们研究职业的选择。假设有四种工作,分别是:服务员、蓝领、工匠、白领;个体有3种“特征”:是否为白人、受教育水平、工龄。然后我们将这三种特征作为解释变量职业的类别进行回归:

在 Stata 中可以用 mlogit occ white ed exper 进行多项 Logit 回归,报表如下:

可以发现, 每一个工种 实际上都有自己的参数向量 。上面的报表的意义是,在给定的显著性水平上:

  • 白人(white)更不可能选择服务业或工匠,但是否白人对选择蓝领和白领没有显著影响
  • 受教育程度越高,越不可能选择专家(最后一行Prof)以外的职业
  • 工龄越长,越不可能选择服务业和蓝领;而且工龄对选择工匠和白领并无显著影响

注意上面解释回归结果时,我们都用了可能,这是从 Logit 模型的经济意义而来的


12.3 条件 Logit 模型

多项 Logit 模型仅考虑不随方案而变的解释变量(比如,肤色),但有些解释变量可能既随个体而变,也随方案而变,比如,考虑以下的一个情景:

在经济学研究中,我们的数据是这样的:个体A选择了火车,个体B选择了汽车,个体C也选择了火车;而且我们也知道不同个体的一些特征变量,比如,他们的年龄、性别、民族、收入等。

依据这些个体的特征变量作为控制变量,我们用核心解释变量(比如接受教育的程度)来预测个体的交通工具选择行为:

问题是我们并没有把各个不同方案本身的特征变量考虑进来:乘坐火车、飞机和汽车这三种交通工具本身有比如路途耗费时间、路途耗费精力、路途耗费的资金、路途的舒适程度等特征。这些来自于方案本身的特征因素很多时候可能比我们之前基于个体的特征因素对个体的出行交通工具选择的影响要大得多

基于这样的逻辑,我们可以完全不用考虑个体特征,反而是把这些方案本身的特征变量作为控制变量去预测个体的出行方案选择,这就是条件 Logit 模型的由来

我们把这种解释变量称为随方案而变( alternative-specific ),既包括随方案与个体而变的变量(选择加入不同俱乐部交的会费不同),也包括随方案而变但不随个体而变的变量(选择加入某个俱乐部后在这个俱乐部里每个人的会费相同)。于是,个体选择方案 所带来的效用是:

其中,解释变量 的下标为 表明,解释变量随个体 而变,也随方案 而变。系数 不带下标表明 对随机效用 的作用不依赖于方案 ,比如乘车时间依个体与方案的改变而改变,但乘车时间太长所带来的负效用是一致的。

根据多项 Logit 类似的推导可以计算,个体 选择方案 个概率为:

此模型称为条件 Logit( Conditional Logit, CL ),也称为 McFadden 选择模型 ( McFadden's Choice Model),来自于 McFaden 在 1974 年的文章。

条件 Logit 模型的估计方法与多项 Logiot 类似,都通过 MLE 估计以得到系数的估计值 ,不过在 CL 中,参数 不依赖于参照方案,所以也不需要把 的某个部分标准化为 0。


12.4 混合 Logit 模型

字面上理解,混合 Logit 模型就是糅合了 12.2 和 12.3 两种模型的特点而发展来的。很自然地,可以写出个体 选择方案 所能带来的随机效用:

其中,解释变量 既随个体 而变,也随方案 而变;而解释变量 仅随个体 而变。经过类似的推导,可以计算出个体 选择方案 的概率为:
P\left(y_{i}=j | \boldsymbol{x}_{i j}\right)=\frac{\exp \left(\boldsymbol{x}_{i j}^{\prime} \boldsymbol{\beta}+\boldsymbol{z}_{i}^{\prime} \boldsymbol{\beta}_{j}\right)}{\sum_{k=1}^{J} \exp \left(\boldsymbol{x}_{i k}^{\prime} \boldsymbol{\beta}+z_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} \quad(12.10)
此模型在文献中称为混合 Logit 模型( Mixed Logit ),但 Stata 仍称之为条件 Logit。为了识别模型,方程 中也需要选择一个参照方案,并令 。


12.5 关于三个模型的要点

对于以上三种模型,当方案本身的特质并不重要,或缺乏相关特征的数据时,常常使用多项 Logit 模型。如果需要考虑不同方案的特征,则应使用条件 Logit 模型混合 Logit 模型。另外,在这些多值选择模型中,由于被解释变量的分布必然为多项分布( multinomial distribution ),故一般不必考虑稳健标准误,使用普通标准误即可:这一点类似于二值选择模型。然而,如果数据时聚类样本,则仍需要使用稳健标准误。

需要注意的是,在多项 Logit 模型混合 Logit 模型中,对参数估计值 的解释是以参照方案( base category )为转移的(可以根据理论或方便来选择参照方案)。以多项 Logit 模型为例,假设“方案1”或“方案“其中一个必然发生,那么在此条件下,“方案”发生的概率为:
\mathrm{P}(y=j | y=1 \text { or } j)=\frac{\mathrm{P}(y=j)}{\mathrm{P}(y=1)+\mathrm{P}(y=j)}=\frac{\exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{j}\right)}{1+\exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{j}\right)}
上式与二值选择的 Logit 模型具有完全相同的形式。而几率比相对风险为:

从条件概率 可以看出,该条件概率并不依赖于其他任何方案——换言之,如果将多值选择模型的任何两个方案单独挑出来,都是二值 Logit 模型。此假定称为无关方案的独立性( Idependence of Irrelevant Alternatives, IIA)。根据类似的推导,条件 Logit 模型也服从 IIA 假定。然而,在实践中,如果两个不同的方案之间十分接近,那么 IIA 假设不一定成立,这是多项 Logit、条件 Logit 与混合 Logit 模型存在的通病

例如,假设共有 4 个备选的交通方式,自驾车、自行车、红色公交和蓝色公交。根据 IIA 假定,如果给定条件选择自驾或坐红色公交,那么在加上自行车、蓝色公交这两种方案以后,不应该对前面的条件概率造成很大的影响。

诚然,加入自行车并不会对自家车和乘坐红色公交造成很大的影响,加入蓝色公交这种方案以后也不会对自驾造成很大的影响;不过,加入蓝色公交车会使得乘坐红色公交的概率降低一半,这将会影响 IIA 假定。

如果还是不理解,那么我们可以尝试去理解检验 IIA 的方法:豪斯曼检验,的基本想法:

也就是说,如果 IIA 成立,那么去掉某个方案以后的系数估计 与全样本估计值 没有系统性差别,为此 Hausman & McFadden (1984) 提出了以下统计量:
\left(\hat{\boldsymbol{\beta}}_{R}-\hat{\boldsymbol{\beta}}_{F}\right)^{\prime}\left[\widehat{\operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{R}\right)}-\widehat{\operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{F}\right)}\right]^{-1}\left(\hat{\boldsymbol{\beta}}_{R}-\hat{\boldsymbol{\beta}}_{F}\right)^{\prime} \stackrel{d}{\longrightarrow} \chi^{2}(m)
其中, 等于 的维度。另外还有 Small & Hsiao (1985) 也提出了检验 IIA 的方法,不过这两个方法的小样本性质都不好,故结论只具有参考价值。

你可能感兴趣的:(高级计量经济学 15:多值选择模型(基础))