GMM的世界，你不懂？(上篇)

其实在统计学习世界里， GMM有高美美和广美美之分，Gaussian mixture model vs Generalized moment method. 当然不是每个美美都是我们谈论的话题。这里我们讨论的是广美美，是一个诺贝尔经济学将的发明，是如何又广又美了的呢？

在等价のGLS, 2SLS, IV ？介绍了一定的等价性时候提到矩估计MME到广义矩估计GMM的泛化。在最大似然估计的2种论证里面讨论了如何用MME来论证MLE。对于广而言，讲到三大估计MME，MLE，LSE，他们的一次大统一就是GMM。

凭什么， GMM能够初步建立大一统的呢？

引言

华人的女婿发明了GMM

Lars Peter Hansen 汉森，美国人，博士毕业于明尼苏达大学University of Minnesota，凭借发明了GMM获得了2013年诺贝尔经济学大奖。他的老婆蒋人瑞是华人，岳父蒋硕杰是民国时期最杰出经济学家。

GMM发表在1982年，一共27页。其中部分证明发表在2012年，有16页的补充证明。或许知道要获诺贝尔经济学大奖了，顺势补全下下证明。

这篇论文里面，满满的全是数学证明，有兴趣可以去读下下。所以学好经济学本身，对数学的掌握也是要认证对待的。

GMM的诞生

从引文窥探

那么，汉森是如何发明广义矩估计的呢？但是，他在他的论文里面没有说起他思想的来源和发展。因此这里我们按图索骥的推测。首先，从他引用论文开始，我们发现他很认真的强调了2阶段最小二乘法2SLS和3阶段最小二乘法3SLS（参考等价のGLS, 2SLS, IV ？）。譬如在他的论文里面对1， 2， 5 和11 都特别强调了。前面我们说过，Theil发明的2SLS可以看成是工具变量IV的泛化，那么为什么这里要不停的强调3SLS？

汉森不停的在引用的论里面强调3SLS

那么，我们大胆却又合理的假设，3SLS触发了汉森发明GMM的灵感，那么如何来证实这个3SLS可以引出GMM呢？在说明这个之前，先要说明3SLS存在的意义。

为什么要有2SLS

在前面（等价のGLS, 2SLS, IV ？回归分析中的问题和修正的探讨（下篇））里面说了，当存在测量误差的时候，E(X, U) = 0 就不满足了，或者特殊的一阶自相关的时候， 2SLS就可以发挥神奇了，并且对于E(X, U) ≠ 0 的情况下，工具变量IV也是极好的处理办法。

我们稍微从另外一个角度回顾一下，对于线性的估计来说，最优估计要求E(X, U) = 0 。而经典的最小二乘法OLS就是直接求导这个最优的过程（参考最小二乘法的由来一步一步走向锥规划 - 最小二乘法）。

既然2SLS有存在的必要的，那么为什么要有3SLS呢？

为什么要有3SLS

当除了E(X, U) ≠ 0测量误差时候，还有似不相关seemingly unrelated regressions (SUR)的情况的时候，就需要3SLS了。

似不相关SUR也的确如它的名字一样，有m个参数估计，表面上看是m个独立的表达式，完全可以使用m个2SLS去进行参数估计。

但是骨子里还是有相关的地方的，就在于这些误差在同一时刻的时候相关的，而不同时刻的时候不想关。

那么，对于利用矩阵统一后， SUR的m个回归的协方差矩阵就会不太一样了。

这里要特别注意的是，这个矩阵和之前我们看到的一个表达式里面的协方差矩阵很不一样，为什么呢？因为上面这个矩阵的每个元素都是矩阵。而经典的协方差矩阵每个元素都是标量。

但是为了达到同样的表达效果，我们定义新的运算法则圈乘：

另外，根据SUR特殊的同一时间的相关性，我们知道只有对角线存在元素。这种情况，我们可以使用广义最小二乘法GLS进行处理的。

但是因为这个圈乘的特殊性，这里把这种GLS叫做Feasible GLS, FGLS。

其实，某种意义上，这种只有对角线存在元素的情况，只要加权最小二乘法WLS进行处理就好了。

这样我们把3SLS的过程总结如下：

1）先用2SLS进行独立的参数估计

2）估算协方差矩阵

3）估计FGLS结果

这样，当不存在SUR的情况的时候，那么3SLS就是2SLS的独立解。因为Σ是严格对角阵。

2SLS作为IV -> 3SLS作为广义IV

在等价のGLS, 2SLS, IV ？里面我们探讨了在矩阵满秩情况下， 2SLS和IV是严格等价的。现在3SLS情况下，我们完全可以把2SLS退化成工具变量IV了，由第三阶段FGLS进行泛化。这种泛化的工具变量也是汉森当时考虑的热点。几乎和GMM论文同时发表，并且进行循环引用的另外一篇论文（Generalized Instrumental Variables Estimation of Nonlinear Rational Expectations Models）说明了汉森当时的这种考虑。

这种相互引用的论文发表过程，说明了这种思考是几乎同时进行的。因此，某种意义上GMM也是建立在建立一个广义的IV的基础上产生的。而3SLS提供了这个基础。

几乎同时发表的文章，循环引用

在这个理解的基础上，那么广义IV距离GMM就一步距离了，就是如何把IV看成矩估计。

IV作为矩估计MME

矩估计MME非常有用，如果直接从IV思想出发，假设工具变量就是自变量本身的话，那么矩估计MME代入就是最小二乘法OLS。在最大似然估计的2种论证里面我们说明了，在一定的替换条件下，最大似然估计可以看成矩估计。这里我们简单说明了，最小二乘法也可以看成矩估计，只要在IV思想下把自变量看成工具变量，这也恰好是最小二乘法要满足的假设之一（参考最小二乘法的6个假设 (中篇)）。