伪相关、伪关系与中介变量——统计名词中的迷思

伪相关、伪关系与中介变量——统计名词中的迷思
转载 2016-11-02 19:00:53
标签:杂谈
这篇文章造福那些记不清统计基础概念的人。如果对标题中的三个名词有所疑惑,那么这篇文章可能会对你有所帮助。内容多数搬运自英文维基,具体出处不再标注,可以进入文末reference部分自行查看。

伪相关
又称虚假相关。许多人对这一概念的认识可能与某度百科中的解释相同​:

“在自然界中存在两种相关现象, 除了真正的相关外, 还有一种相关叫伪相关。如太阳落山和月亮升起并没有什么因果关系, 它只是地球自转的反映, 但这两种现象确实是相关的, 太阳落山的时候月亮正好升起,这就叫做伪相关。”总结某度的观点,由同一原因的引起的两种不相关现象间的关系即为伪相关(图1)。这页百科言简意赅,一如既往地没有任何出处。
伪相关、伪关系与中介变量——统计名词中的迷思_第1张图片

图1
然而遗憾的是,这种对虚假相关的定义虽然符合常识,但并非正规的统计定义。伪相关(Spurious correlation)​的定义最早由Karl Spearman提出,用以描述两组由绝对测量值转换而来的比例数据之间的相关,如百分比、千分比等。Spearman举了一个简单的例子:x, y, z为三组彼此间不相关的数据,但将前两组数据与z相比后,将得出x/z与y/z中存在显著相关(如图2)。在另一张图(图3)中,我们以蓝色和红色分布标示较大或较小的分母z,会发现z较大的情况下,x/z与y/z较小,分布于左下,而较小的z对应着数值更大的x/z与y/z,可以说作为分母的z本身的影响,造成了x/z与y/z之间的线性分布,即使这三组数据间不存在任何关系。

​在此我们了解到伪相关是指一种狭义的相关现象,而汉语民间语境中的伪相关,更多指的是另一统计术语“伪关系”。
伪相关、伪关系与中介变量——统计名词中的迷思_第2张图片

图2
伪相关、伪关系与中介变量——统计名词中的迷思_第3张图片
图3

伪关系
伪关系(spurious relationship),又称虚假关系,顾名思义是虚假的“关系”,但此处的关系指的是因果,而非相关,即两因素间本不存在因果关系,却被误认为存在。这种错误出现的原因包括忽略了第三方潜在因素的影响,如前文介绍伪相关的例子,地球自转对太阳落山与月亮上山的影响。严格意义上说,因为伪关系描述的是因果,如两事物间的本身不被认为有因果关系,那也不会是伪关系。根据一些学者的说法,伪关系是相关向因果迈进的必经阶段,排除了伪关系因素的相关研究才可能进一步探索因果关系。

对于伪关系的剔除目前主要有两种方法:实验与纯统计检验。前者通过尽可能控制其它潜在影响因素,操纵其中某一变量并观测另一变量的变化来明确两者间的关系;后者则更多应用于一些无法付诸实验而采用观测数据的学科,如经济学。

在这些无法通过实验操纵变量的学科​中,研究者们常常使用观测数据来建立因果模型,并利用统计方法排除伪相关的可能。例如,多元线性回归中,伪关系的排除是通过囊括各种可能的相关因子来实现的。在y=a0+a1x1+a2x2+…+akxk+e中,k为自变量数目,e为误差项。在假设x不受y的影响的前提下,可建立回归系数a不为零的零假设。如在假设检验中,零假设被推翻,备择假设成立,则表明x能影响y,两者间存在因果关系;相反,如零假设成立,则表明x并不能对y产生影响。此处的因果是一种间接因果关系( contributory causality),即a不为零时,x的变化必然导致y的变化,除非其它回归效应或误差项恰好抵消了它的变化,为此x的变化并非y变化的充分条件。同样,x的变化也并非y变化的必要条件,其它回归项或误差项的变化同样可能造成y值的改变。为了排除伪关系,即一个隐藏的第三方同时对自变量与因变量造成影响的情况,多元线性回归可以将其它相关的变量作为回归因子与解释性变量(regressors /explanatory variables)囊括到模型中,因为它对因变量的影响会被直接归入回归方程中,为此不会被误认为是自变量的作用(图4)。

伪相关、伪关系与中介变量——统计名词中的迷思_第4张图片
图4

中介变量
之所以把中介变量和以上两个名词一起讨论,是因为它们在形式与内容上存在着诸多相似之处(图5)。

伪相关、伪关系与中介变量——统计名词中的迷思_第5张图片
图5
如上图所示,左右两张图分别为伪关系与中介变量关系:前者是某一变量同时对两个本不相干的变量施加影响,造成后两个变量间相关的假象;后者则是自变量通过中介变量而对因变量施加影响的过程。但两者的共同点在于​都涉及了三个变量,并以三角形的方式呈现。此外两者均描述了因果关系。但除了伪关系在汉语语境中常与伪相关混淆外,中介关系同样也容易被误认为相关,原因在于:

a. 中介关系的研究常常是非实验研究,这就意味着获取的数据事实上并非操作的结果,而是相关​数据。但尽管如此,中介关系的研究就是建立在假定两变量存在因果关系的前提下,从结果上,描述的也是非对称的函数关系;

b. 路径分析是描述中间关系最常用的方式,其中不同变量间的路径系数,即标准回归系数,等于两变量间的相关系数。也容易让人产生其描述相关关系的错觉。​

最后,需要提醒的是,相关关系是对称而无方向的,A与B的相关与B与A的相关完全一致。与此相对,因果关系则是单向的,不对称的。这是两者间的根本区别。

总结
在本文的结尾,请再一起来回顾一下本篇中的三个名词:

伪相关:​两组比例数据间出现的虚假高相关;

伪关系:​两变量共同受第三因素影响而呈现虚假相关性,从而被推断存在因果关系的现象;

中介变量关系:研究自变量,因变量及中介变量间因果关系的情形,在形式和数据处理上和相关研究​有相似之处。

你可能感兴趣的:(统计)