文章说明

本文是对参考原文链接这篇文章的翻译。如有疑问或译文有误，可留言修正。

写作目的

本文尝试这些基本概念1)似然比检验2)Wald检验3)分数检验。

一位研究员想要估计下面这个模型，该模型使用gender，read，math, science 四个预测变量预测学生在标准测试中的High vs low writing score。模型结果如图1.

图1

现在研究员想知道，图1中的模型(使用4个预测变量)会不会比只使用两个预测变量（gender,read)时的模型更显著。研究员将如何进行这种比较呢? 有三种常用检验可以用来检验这类问题，他们是似然比检验LR，Wald检验和拉格朗日乘子检验(有时也叫分数检验)。这些假设检验有时被描述成检验嵌套子模型区别的的检验，因为模型中的一个了可以理解成被内嵌在另一个模型中。就像两个预测变量的模型其实可理解成是四个预测变量的子模型，那么想要知道嵌套子模型与全变量模型的好坏区别就可以使用上述的三种检验去做评估。

似然性

上述三种检验都通过比较模型的似然值来评估他们的拟合度。似然是一个概率，表达的是已知某种结果对应某个参数估计值的概率(具体理解见图2)。模型的目标是找到一个参数值（系数）使得似然函数值最大，也就是说找到一组参数可以最大程度的近似数据集。很多应用程序使用对数似然函数，而不是似然函数，这是因为对数似然函数计算起来更方便。对数似然函数永远是负数，值越大（越接近于0）表明拟合模型更好。尽管上面图1中的模型是逻辑回归，但这些检验方法非常通用，可以应用于具有似然函数的任何模型。

图2，似然与概率在统计学上的区别

上面已经提到过，似然函数是参数与数据的函数。当数据集一旦确定就不再改变，可以改变系数估计值使得似然函数达到最大值。不同的参数值，或者估计值的集合将对应不同的似然概率。如图3所示，图中曲线体现出对数似然值随着参数a的变化而变化的趋势。X轴是参数a的值，Y轴是参数a取某值时对应的似然函数值。大多数模型都多个参数但如果模型中的其他参数固定不变，改变其中一个参数如a时就会呈现出图3中的相似的曲线。垂直的这条线标记出最大似然值对应的a的取值。

图3

似然比检验(Likelihood Ratio Tests/LR)

似然比检验（以后简写为LR)被用来评估两个模型并且比较两个模型的拟合效果。从一个模型中删除掉几个预测变量往往会使模型拟合效果变差（比如，会得到一个更小的对数似然概率），但这对于检验所观察的模型拟合度是否具有统计显著性来说是必要的。LR通过这种方式来比较两个模型的对数似然值来检验两个模型，如果此差异（两个模型的对数似然值差异）是统计显著的，那么限制性更小的模型（参数更多的模型）相对限制性更大的模型对数据的拟合更好。如果你已经有了一个模型的对数似然值，那么LR检验值就很容易计算了。LR检验统计值计算公式如下：

其中指对应模型的似然函数值，表示模型的自然对数似然函数值。指系数少的模型，表示系数更多的模型。

检验统计结果服从卡方分布，自由度等于受约束的参数个数，比如这里相对全变量模型，只有2个参数的模型少了两个变量，所以自由度为2，所以检验统计结果服从自由度为2的卡方分布。

使用上面的两个模型，使用LR检验他们的差异。模型1是只使用两个gender和read两个变量的模型（没有math和science,我们将它们的系数限制为0），图4是模型1的结果，结果中标记出了对数似然函数值（我们不对模型结果进行解释，这不是文章的目的）。

图4

现在再运行模型2，模型2中使用4个预测变量，图5是模型结果。同样我们仅标记出模型2的对数似然值，并不对模型的做过多的解释。

图5

既然有了两个模型的对数似然值，我们可以计算LR。代入公式我们有

即我们的似然比是36.05（服从自由度为2的卡方分布）。我们现在可使用一张表或者其它手段得知36.05对应的, 这表示全变量模型相对两个变量的子模型拟合数据更显著。值得注意的是，很多统计工具包会都会计算两个模型的LR检验去比较两个模型，我们现在手动做是因为它计算简单且可以更好的帮助理解似然比检验的工作原理。

Wald检验

Wald与LR相似，但比LR要简单，因为它只需要评估一个模型。Wald通过检验的工作原理是检验一组参数等于某个值的零假设。对被检测的模型来说，零假设是指感兴趣的两个系数是否同时为零。如果检验结果无法拒绝零假设，表明移除这两个变量将不会严重影响模型对数据的拟合效果，因为相对系数标准差很小的系数通常对因变量的预测没有太大帮助。Wald的计算公式相对LR来说有点繁琐所以这里不会列出，可参考（Fox, 1997, p569）。为了让大家直观的感受Wald如何工作，它会测试标准误差下估计参数距离0有多远（或者是零假设下的其他值），wald的结果和其他回归结果的假设检验很类似。只不过wald可以同时检验多个参数，而经典的做法是在回归结果中一次只检验一个参数。图6显示了四个变量的模型，也不是模型2的结果。

图6

图7中第一部分列出了wald检验的零假设，即math和science对应的系数同时为0。第二部分列出了模型2执行wald检验后的卡方分布值为27.53，其对应的自由度为2的卡方分布的p_value=0.0000，即p值掉入拒绝域，我们可以拒绝两个参数同时为0的假设。因为包括具有统计意义的预测变量应该会导致更好的预测（即更好的模型拟合），所以我们可以得出结论，包括math和science变量会使模型拟合的统计得到显著改善。

图7

拉格朗日乘子或者分数检验

与Wald检验一样，Lagrange乘数检验仅需要估计一个模型。区别在于，使用拉格朗日乘数检验时，估计的模型不包含感兴趣的参数。这意味着，在我们的示例中，我们可以使用拉格朗日乘数检验来测试在仅使用gender并将其作为预测变量运行的模型之后，向模型中添加science和math是否会导致模型拟合度显著改善。基于在模型中变量（female和read）的观察值处的似然函数的斜率来计算测试统计量。该估计的斜率或“分数”是拉格朗日乘数测试有时称为得分测试的原因。如果在模型中包括其他变量，则将分数用于估计模型拟合的改进。如果将变量或变量集添加到模型，则测试统计量是模型卡方统计量的预期变化。因为如果将当前遗漏的变量添加到模型中，它会测试模型拟合的改进，所以拉格朗日乘数检验有时也称为遗漏变量的检验。它们有时也称为修改索引，尤其是在结构方程建模文献中。图8是使用变量female和作为hiwrite的预测变量读取的逻辑回归模型的输出（与LR测试的模型1相同）。

图8

运行上述模型后，我们可以查看拉格朗日乘数测试的结果。与前两个测试不同，前两个测试主要用于在向模型中添加多个变量时评估模型拟合的变化，而拉格朗日乘数测试可以用于测试模型拟合的预期变化（如果一个或多个参数为当前受限的被允许自由估计。在我们的示例中，这意味着测试向模型添加math和science是否会显着改善模型拟合。图10是分数测试的输出。表中的前两行提供了将单个变量添加到模型的测试统计信息（或分数）。为了继续我们的示例，我们将重点关注第三行中标记为“同时测试”的结果，该结果显示了在模型中同时添加数学和科学的测试统计量。将数学和科学都添加到模型的测试统计量为35.51，它是卡方分布的，自由度等于要添加到模型中的变量的数量，因此在我们的示例中为2。p值低于典型的截止值0.05，表明在模型中包含数学和科学变量将在模型拟合方面产生统计学上的显着改善。该结论与LR和Wald检验的结果一致。

图10

三种检验的比较

如上所述，这三个测试都解决了相同的基本问题，即是否将参数约束为零（即忽略这些预测变量）会降低模型的拟合度？它们的区别在于他们如何回答该问题。如您所见，为了执行似然比检验，必须估计一个人希望比较的两个模型。 Wald和Lagrange乘数（或分数）检验的优势在于，它们近似于LR检验，但只需要估计一个模型即可。 Wald和Lagrange乘数检验在渐近上都等同于LR检验，也就是说，随着样本量变得无限大，Wald和Lagrange乘数检验统计的值将越来越接近LR检验的检验统计量。在有限的样本中，这三个样本往往会产生不同的检验统计量，但通常得出相同的结论。三种检验之间的有趣关系是，当模型为线性时，三种检验统计量具有以下关系Wald≥LR≥评分（Johnston和DiNardo 1997，第150页）。也就是说，Wald检验统计量将始终大于LR检验统计量，而LR检验统计量将始终大于分数测试中的检验统计量。当计算能力受到更大限制，并且许多模型需要很长时间才能运行时，能够使用单个模型来近似LR测试是一个相当大的优势。如今，对于大多数研究人员可能想要比较的模型而言，计算时间已不再是问题，我们通常建议在大多数情况下运行似然比检验。这并不是说永远不要使用Wald或成绩测试。例如，Wald检验通常用于对用于建模回归中的预测变量的虚拟变量集执行多自由度测试（有关更多信息，请参阅我们的《关于Stata，SPSS和SAS回归的网络手册》，特别是第3章–使用分类预测变量进行回归。）分数测试的优势在于，当候选变量数量很大时，它可用于搜索省略的变量。

图11

更好地了解这三个测试之间如何关联以及它们如何不同的一种方法是查看它们所测试内容的图形表示。上图说明了这三个测试的每一个。沿x轴（标记为“ a”）是参数a的可能值（在我们的示例中，这是数学或科学的回归系数）。沿y轴是与a的那些值相对应的对数似然值。 LR测试将模型的对数似然率与参数a的值（被限制为某个值（在我们的示例中为零））与自由估计a的模型进行比较。它通过比较两个模型的可能性高度来查看差异是否在统计上显着（请记住，可能性值越高表示拟合越好）。在上图中，这对应于两条虚线之间的垂直距离。相反，Wald测试将参数估计值a-hat与a_0进行比较； a_0是零假设下a的值，通常假设a =0。如果a-hat与a_0明显不同，则表明自由估计a（使用a-hat）可显着改善模型拟合。在图中，这表示为x轴上a_0和a-hat之间的距离（由实线突出显示）。最后，当a受到约束（在我们的示例中为零）时，得分测试着眼于对数似然率的斜率。也就是说，它查看了在（零）假设的a值处改变可能性的速度。在上图中，这显示为a_0处的切线。

Likelihood Ratio, Wald和Lagrange Multiplier(Score)检验的区别与相似点