混合模型是一个统计模型,包含fixed effects和random effects两种效应的混合。
当重复衡量(1)相同的统计单元,或(2)聚类,或(3)相关的统计单元时,混合模型尤其有效。
Ronald Fisher研究亲属间性状值的相关性时,引入random effects modes。1950年代,Charles Roy Henderson提出
(1)fixed effects的BLUE(best linear unbiased estimates)和
(2)random effects的BLUP(best linear unbiased predictions)。
随后,混合模型在统计研究中成为主流,包括计算maximum likelihood estimates,non-linear mixed effect modes,missing data in mixed effects modes,以及Bayesian estimation of mixed effects models等。
Fixed effects model
固定效应模型
应用前提是假定全部研究结果的方向与效应大小基本相同,即各独立研究的结果趋于一致,一致性检验差异无显著性。
因此,固定效应模型用于各独立研究间无差异,或差异较小的研究。
异质性小:固定,随机
异质性大:随机
p值
p>0.05或p>0.1:固定
p<=0.05或p<=0.1:随机
方差分析的三种模型:固定效应模型、随机效应模型、混合效应模型
固定效应模型指实验结果只想比较每一自变量项之特定类目或类别的差异及其与其他自变项之特定类目或类别间交互效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。
Random effects models
是经典的线性模型的一种推广,就是把原来固定的回归系数看作是随机变量,一般都是假设来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型。
随机效应有压缩的功能,而且可以使模型的自由度df变小。这个简单的结果,对现在的高维数据分析的发展起到了至关重要的作用。
事实上,随机效应模型就是一个带惩罚项penalty的一个线性模型,引入正态随机效应就等价于增加一个二次惩罚。有趣的是,著名的岭回归ridge regression就是一个二次惩罚,它的提出解决了当设计矩阵不满秩时最小二乘估计LSE无法计算的问题,并提高了预测能力。
因此,引入随机效应或者二次惩罚就可以处理当参数个数p大于观测个数n的情形,这是在分析高维数据时必须面对的问题。当然,二次惩罚还有一些特点,如:计算简便,能选择相关的predictor,对前面的几个主成分压缩程度较小等。
随机效应和固定效应模型的区别在于:
随机效应模型认为误差项和解释变量不相关,而固定效应模型认为误差项和解释变量相关。
混合模型被定义为:
y_(i,t)=α+X_(i,t)β+ε_(i,t)
i=1,2,...,N
t=1,2,...,T
其中:
y_(i,t)为北回归变量(标量)
α为截距
X_(i,t)为k*1阶回归变量列向量(包括k个回归量)
β为k*1阶回归系数列向量
ε_(i,t)为误差项(标量)
混合模型的特点是:无论对任何个体和界面,回归系数α和β都相同。如果模型是正确假定的,解释变量与误差项不相关,即cov(X_(i,t),ε_(i,t))=0,那么无论是N趋于无穷还是T趋于无穷,模型参数的混合最小二乘估计量pooled OLS都是一致估计量。
个体固定效应模型:
y_(i,t)=α_i+X_(i,t)β+ε_(i,t)
其中,α_i是随机变量,表示对于i个个体有i个不同的截距项,且其变化与X_(i,t)有关系。
随机效应模型:
y_(i,t)=α_(i,t)+X_(i,t)β+ε_i
如果α_(i,t)是随机变量,其分布于X_(i,t)无关。