线性混合模型LMM&BLUP

线性混合模型基础

线性混合模型(LMM)是遗传评估中必用的统计模型,用以将群体中每个个体的观测值按照潜在影响因素进行分解。决定观测值的大小和幅度受2个参数(均值和方差)控制,反过来说也可以。一般我们更关注方差,围绕方差的运算与处理也更为复杂,所以能够将LMM中涉及的方差们的关系搞明白,就大体能理解这些没什么亲和力的模型们了。通常在介绍这一部分内容时,很容易让人发蒙,因为太抽象了,全是符号,所以前提是必须对数学这门外语有一定了解,就是一门外语啊。比如告诉我一个矩阵的维度是4×5,我头脑里有概念,这是小学的数学知识学得好,但你告诉我它的维度是n×p,我的CPU和GPU就不太够用了,所以得像学习英语一样,方法+重复才是硬道理。

如果知道了这些方差们的具体数值,求算各个因素的系数(我们最终要的是这个)就相对容易多了。但这些方差是怎么计算的?一般会告诉采用了什么方法(REML用的多),但这又是什么我想很多人想知道但没人教,所以一直糊涂着,只停留在会用的地步,当然会处理数据也够用。我很有兴趣,但到今天我也不全会,也没有能力在R中实现,原因是没那个功底,不会矩阵求导,盼望有一天谁来引领一下,但这不是刚需,因此参数求解就停在这里了。下面就我了解的知识对LMM做2部分的介绍,主要目的是自我梳理,学识有限,错误难免。

1. LMM的形式

这是基本形式,更复杂的都是在其基础上演变出来的。

式子里一共有6个字母,4个小写,2个大写。小写是向量(1维矩阵),大写是矩阵。这几个字母的意思分别是:

字母 名称 维度
y 观测值 n×1
固定效应(p个水平) p×1
a 随机效应(q个水平) q×1
e 随机残差 n×1
X 固定效应设计矩阵 n×p
Z 随机效应设计矩阵 n×q

有几个假设

意思是和这2个向量的参数(均值和方差),均值都是0,方差分别是G和R,协方差是0(彼此独立,没有线性关系)。G和R具体又是什么?,。是随机效应中q个水平之间的关系矩阵(分子关系矩阵),如果水平间不相关(独立),那么就等同于单位矩阵。这里只假设是1个效应,也可以是含有多个效应的列向量;同样,在某些情况下,也可以继续分解R(如AR模型)。此外,观测值的期望是,方差(marginal)。期望比较容易理解,方差为何是这个形式?G左右为何乘以Z?很多材料没有给详细的推导式子。Mrode(2014,p35[1])中:

总之,一个普通LMM中的元素就这么多,了解了这些内容,才有可能看懂后续的似然函数以及参数具体的ML或REML过程。

2. BLUP最佳线性无偏预测

BLUP是预测随机效应的方法,对应的固定效应值的方法是BLUE【统计上,拟合模型阶段叫估计,预测阶段称预测;在LMM中,则分别指固定和随机参数的计算,目的是一样的——求解方程组】。
BLUP是上世纪50年代由Henderson提出,按照最佳线性无偏的原则求解混合模型方程组中固定和随机效应。混合模型方程组的形式如下:
\left[ \begin{array}{c} X'R^{-1}X & X'R^{-1}Z\\ Z'R^{-1}X & Z'R^{-1}Z+G^{-1} \end{array} \right] \left[ \begin{array}{c} \hat{b}\\ \hat{a} \end{array} \right] = \left[ \begin{array}{c} X'R^{-1}y\\ Z'R^{-1}y \end{array} \right]
如果我们假设残差方差是IID(对于所有观测值是相同和独立的,独立同分布),则可以将R矩阵作为因子。 在大多数应用中用下面的方程式会更方便:

于是:

其中,。
用REML等方法估计出方差,代入上面的方程组即可。


  1. Mrode RA (2014) Linear models for the prediction of animal breeding values. CABI ↩

你可能感兴趣的:(线性混合模型LMM&BLUP)