其实在统计学习世界里, GMM有高美美和广美美之分,Gaussian mixture model vs Generalized moment method. 当然不是每个美美都是我们谈论的话题。 这里我们讨论的是广美美,是一个诺贝尔经济学将的发明,是如何又广又美了的呢?
在等价のGLS, 2SLS, IV ?介绍了一定的等价性时候提到矩估计MME到广义矩估计GMM的泛化。 在最大似然估计的2种论证里面讨论了如何用MME来论证MLE。 对于广而言, 讲到三大估计MME,MLE,LSE, 他们的一次大统一就是GMM。
凭什么, GMM能够初步建立大一统的呢?
引言
华人的女婿发明了GMM
Lars Peter Hansen 汉森, 美国人, 博士毕业于明尼苏达大学University of Minnesota, 凭借发明了GMM获得了2013年诺贝尔经济学大奖。 他的老婆蒋人瑞是华人,岳父蒋硕杰是民国时期最杰出经济学家。
GMM发表在1982年,一共27页。 其中部分证明发表在2012年, 有16页的补充证明。 或许知道要获诺贝尔经济学大奖了, 顺势补全下下证明。
这篇论文里面,满满的全是数学证明, 有兴趣可以去读下下。 所以学好经济学本身, 对数学的掌握也是要认证对待的。
GMM的诞生
从引文窥探
那么, 汉森是如何发明广义矩估计的呢? 但是, 他在他的论文里面没有说起他思想的来源和发展。 因此这里我们按图索骥的推测。 首先, 从他引用论文开始, 我们发现他很认真的强调了2阶段最小二乘法2SLS和3阶段最小二乘法3SLS( 参考等价のGLS, 2SLS, IV ?)。 譬如在他的论文里面对1, 2, 5 和11 都特别强调了。 前面我们说过,Theil发明的2SLS可以看成是工具变量IV的泛化, 那么为什么这里要不停的强调3SLS?
汉森不停的在引用的论里面强调3SLS
那么, 我们大胆却又合理的假设,3SLS触发了汉森发明GMM的灵感, 那么如何来证实这个3SLS可以引出GMM呢? 在说明这个之前, 先要说明3SLS存在的意义。
为什么要有2SLS
在前面(等价のGLS, 2SLS, IV ?回归分析中的问题和修正的探讨(下篇))里面说了, 当存在测量误差的时候,E(X, U) = 0 就不满足了, 或者特殊的一阶自相关的时候, 2SLS就可以发挥神奇了, 并且对于E(X, U) ≠ 0 的情况下, 工具变量IV也是极好的处理办法。
我们稍微从另外一个角度回顾一下, 对于线性的估计来说, 最优估计要求E(X, U) = 0 。而经典的最小二乘法OLS就是直接求导这个最优的过程(参考 最小二乘法的由来一步一步走向锥规划 - 最小二乘法)。
既然2SLS有存在的必要的, 那么为什么要有3SLS呢?
为什么要有3SLS
当除了E(X, U) ≠ 0测量误差时候, 还有似不相关seemingly unrelated regressions (SUR)的情况的时候, 就需要3SLS了。
似不相关SUR也的确如它的名字一样, 有m个参数估计, 表面上看是m个独立的表达式, 完全可以使用m个2SLS去进行参数估计。
但是骨子里还是有相关的地方的, 就在于这些误差在同一时刻的时候相关的,而不同时刻的时候不想关。
那么, 对于利用矩阵统一后, SUR的m个回归的协方差矩阵就会不太一样了。
这里要特别注意的是, 这个矩阵和之前我们看到的一个表达式里面的协方差矩阵很不一样,为什么呢?因为上面这个矩阵的每个元素都是矩阵。 而经典的协方差矩阵每个元素都是标量。
但是为了达到同样的表达效果, 我们定义新的运算法则圈乘:
另外, 根据SUR特殊的同一时间的相关性, 我们知道只有对角线存在元素。 这种情况,我们可以使用广义最小二乘法GLS进行处理的。
但是因为这个圈乘的特殊性, 这里把这种GLS叫做Feasible GLS, FGLS。
其实, 某种意义上, 这种只有对角线存在元素的情况, 只要加权最小二乘法WLS进行处理就好了。
这样我们把3SLS的过程总结如下:
1)先用2SLS进行独立的参数估计
2)估算协方差矩阵
3)估计FGLS结果
这样, 当不存在SUR的情况的时候, 那么3SLS就是2SLS的独立解。 因为Σ是严格对角阵。
2SLS作为IV -> 3SLS作为广义IV
在等价のGLS, 2SLS, IV ?里面我们探讨了在矩阵满秩情况下, 2SLS和IV是严格等价的。现在3SLS情况下, 我们完全可以把2SLS退化成工具变量IV了, 由第三阶段FGLS进行泛化。 这种泛化的工具变量也是汉森当时考虑的热点。 几乎和GMM论文同时发表, 并且进行循环引用的另外一篇论文(Generalized Instrumental Variables Estimation of Nonlinear Rational Expectations Models)说明了汉森当时的这种考虑。
这种相互引用的论文发表过程, 说明了这种思考是几乎同时进行的。 因此,某种意义上GMM也是建立在建立一个广义的IV的基础上产生的。 而3SLS提供了这个基础。
几乎同时发表的文章, 循环引用
在这个理解的基础上, 那么广义IV距离GMM就一步距离了, 就是如何把IV看成矩估计。
IV作为矩估计MME
矩估计MME非常有用, 如果直接从IV思想出发, 假设工具变量就是自变量本身的话, 那么矩估计MME代入就是最小二乘法OLS。 在最大似然估计的2种论证里面我们说明了, 在一定的替换条件下, 最大似然估计可以看成矩估计。 这里我们简单说明了,最小二乘法也可以看成矩估计, 只要在IV思想下把自变量看成工具变量, 这也恰好是最小二乘法要满足的假设之一(参考最小二乘法的6个假设 (中篇))。
那么IV过程本身是如何看成MME的呢?
其实这个过程十分简单, 和上面非常相似, 也是直接从IV的思想出发。
这说明,IV思想和MME结合会发挥巨大的作用, 而这个替代和作用的过程, 用到一个工具:向量值函数Vector-valued function。 我们知道,在3SLS里面, 2SLS是一组值, 那么把这种一组值依然表示为向量。同时引入函数思想, 我们就得到了向量值函数。
广义IV作为GMM:MME + FGLS -> GMM
通过 3SLS 和 向量值 函数的思想的引入 :
3SLS (2SLS + FGLS) -> (IV + FGLS) -> (MME + FGLS) -> GMM
.^.
Vector-valued function .. |
我们就得到了形式完美的广义矩估计 GMM:
这样, GMM某种意义上含有3SLS同等强大的能力, 甚至更强。 下面举个简单的例子说明求解过程:
这样, 我们根据论文思想和合理假设, 推理了一下汉森发现GMM的整个思路。
小结:
这里说明了广美美GMM的诞生, 下期说明一下广美美的广和美。
关键词:
2SLS
3SLS
IV
SUR
FGLS
Generalized LV
GMM
Vector-valued function
相关话题:
等价のGLS, 2SLS, IV ?
最小二乘法的6个假设 (上篇)
最小二乘法的6个假设 (中篇)
一步一步走向锥规划 - 最小二乘法
最小二乘法的4种求解
回归分析中的问题和修正的探讨(上篇)
回归分析中的问题和修正的探讨(下篇)
评价参数估算的常用指标
最大似然估计的2种论证
Z-Test vs T-Test vs F-Test vs χ2-Test
特征选择, 经典三刀
数据变换
Lasso简史
信息熵的由来
“66天写的逻辑回归” 引
乔丹上海行
随机眼里的临界
参考:
https://www.ucy.ac.cy/econ/documents/working_papers/0109.pdf
http://teach.business.uq.edu.au/courses/FINM6905/files/module-1/readings/Hansen.pdf
http://home.uchicago.edu/~lhansen/Hansen16_Proofs.pdf