线性混合模型LMM&BLUP

线性混合模型基础

线性混合模型（LMM）是遗传评估中必用的统计模型，用以将群体中每个个体的观测值按照潜在影响因素进行分解。决定观测值的大小和幅度受2个参数（均值和方差）控制，反过来说也可以。一般我们更关注方差，围绕方差的运算与处理也更为复杂，所以能够将LMM中涉及的方差们的关系搞明白，就大体能理解这些没什么亲和力的模型们了。通常在介绍这一部分内容时，很容易让人发蒙，因为太抽象了，全是符号，所以前提是必须对数学这门外语有一定了解，就是一门外语啊。比如告诉我一个矩阵的维度是4×5，我头脑里有概念，这是小学的数学知识学得好，但你告诉我它的维度是n×p，我的CPU和GPU就不太够用了，所以得像学习英语一样，方法+重复才是硬道理。

如果知道了这些方差们的具体数值，求算各个因素的系数（我们最终要的是这个）就相对容易多了。但这些方差是怎么计算的？一般会告诉采用了什么方法（REML用的多），但这又是什么我想很多人想知道但没人教，所以一直糊涂着，只停留在会用的地步，当然会处理数据也够用。我很有兴趣，但到今天我也不全会，也没有能力在R中实现，原因是没那个功底，不会矩阵求导，盼望有一天谁来引领一下，但这不是刚需，因此参数求解就停在这里了。下面就我了解的知识对LMM做2部分的介绍，主要目的是自我梳理，学识有限，错误难免。

1. LMM的形式

这是基本形式，更复杂的都是在其基础上演变出来的。

式子里一共有6个字母，4个小写，2个大写。小写是向量（1维矩阵），大写是矩阵。这几个字母的意思分别是：

字母	名称	维度
y	观测值	n×1
	固定效应（p个水平）	p×1
a	随机效应（q个水平）	q×1
e	随机残差	n×1
X	固定效应设计矩阵	n×p
Z	随机效应设计矩阵	n×q

有几个假设

意思是和这2个向量的参数（均值和方差），均值都是0，方差分别是G和R，协方差是0（彼此独立，没有线性关系）。G和R具体又是什么？，。是随机效应中q个水平之间的关系矩阵（分子关系矩阵），如果水平间不相关（独立），那么就等同于单位矩阵。这里只假设是1个效应，也可以是含有多个效应的列向量；同样，在某些情况下，也可以继续分解R（如AR模型）。此外，观测值的期望是，方差（marginal）。期望比较容易理解，方差为何是这个形式？G左右为何乘以Z？很多材料没有给详细的推导式子。Mrode（2014，p35^[1]）中：

总之，一个普通LMM中的元素就这么多，了解了这些内容，才有可能看懂后续的似然函数以及参数具体的ML或REML过程。

2. BLUP最佳线性无偏预测

BLUP是预测随机效应的方法，对应的固定效应值的方法是BLUE【统计上，拟合模型阶段叫估计，预测阶段称预测；在LMM中，则分别指固定和随机参数的计算，目的是一样的——求解方程组】。
BLUP是上世纪50年代由Henderson提出，按照最佳线性无偏的原则求解混合模型方程组中固定和随机效应。混合模型方程组的形式如下：
$\left[ \begin{array}{c} X'R^{-1}X & X'R^{-1}Z\\ Z'R^{-1}X & Z'R^{-1}Z+G^{-1} \end{array} \right] \left[ \begin{array}{c} \hat{b}\\ \hat{a} \end{array} \right] = \left[ \begin{array}{c} X'R^{-1}y\\ Z'R^{-1}y \end{array} \right]$
如果我们假设残差方差是IID（对于所有观测值是相同和独立的，独立同分布），则可以将R矩阵作为因子。在大多数应用中用下面的方程式会更方便：

于是：

其中，。
用REML等方法估计出方差，代入上面的方程组即可。

Mrode RA (2014) Linear models for the prediction of animal breeding values. CABI ↩

线性混合模型LMM&BLUP

线性混合模型基础

1. LMM的形式

2. BLUP最佳线性无偏预测

你可能感兴趣的:(线性混合模型LMM&BLUP)