10X单细胞(10X空间转录组)TCR(BCR)数据分析之混合效应模型(lme4)

hello,大家好,在上一篇分享的文献10X单细胞(10X空间转录组)TCR数据分析之TCR 内在调控潜力系统(TiRP)中,有很多无法理解的地方,需要我们一一攻克,今天我们来攻克第一个问题,混合效应模型,也是文献中主要运用的数据模型。

先来看看研究背景

线性模型需要满足正态性、独立性、线性和同方差性等假设,其中独立性是线性模型最重要的假设之一,独立性要求每一个数据点必须来自于不同的总体。但由于重复测量数据、区组数据以及空间相关数据不能满足独立性假设,因此常常利用线性混合效应模型对上述数据进行分析。

混合效应模型(mixed effect model),简称“模型Ⅲ”。实验设计模型之一。其中部分因素的效应是随机的,部分因素的效应是固定的(根据实验的实际情况确定)。在平方和的分解方面,其计算与固定效应模型(模型Ⅰ)和随机效应模型(模型Ⅱ)完全一样,但在 F 检验时构造检验统计量所用的方法不同。

看来补充的知识很多啊,我们一一来看一下

  • 即固定效应回归模型,简称FEM,是一种面板数据分析方法。它是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。固定效应回归是一种空间面板数据中随个体变化但不随时间变化的一类变量方法。

  • 面板数据,即Panel Data,也叫“平行数据“,是截面数据与时间序列综合起来的一种数据资源。 在分析时,多用PanelData模型,故也被称为面板数据模型. 它可以用于分析各样本在时间序列上组成的数据的特征,它能够综合利用样本信息,通过模型中的参数,既可以分析个体之间的差异情况,又可以描述个体的动态变化特征。(有时候不明白,非要整的这么玄乎么??)

  • 横截面数据是指在某一时点收集的不同对象的数据。它对应同一时点上不同空间(对象)所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出空间(对象)的差异。横截面数据的突出特点就是离散性高。横截面数据体现的是个体的个性,突出个体的差异,通常横截面数据表现的是无规律的而非真正的随机变化。即计量经济学中所谓的“无法观测的异质性”。

  • 时间序列数据是指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在时间顺序上的变化,寻找空间(对象)历时发展的规律。利用时间序列作样本时,要注意几个问题:一是所选择的样本区间内经济行为的一致性问题;二是样本数据在不同样本点之间不可比,需要对原始数据进行调整,消除其不可比因素;三是样本观测值过于集中,因而时间序列数据不适宜于对模型中反映长期变化关系的结构参数的估计;四是模型随机误差的序列相关问题。

  • 随机效应模型(random effects models),简称REM,是经典的线性模型的一种推广,就是把原来(固定效应模型)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixed models)。(真的多,懂数学的人有没有女生,我炸锅卖铁也要娶她~~~)

我们举一个例子来理解一下混合效应模型

假设现在有来自100所学校的5000名学生的数据,该分数据包括以下变量:


图片.png
现在假设分析的目的是想以入学成绩为自变量建立针对中考成绩的回归方程,则按照方差分析模型的标准思路:入学成绩(定距数据)为协变量。学校(100所学校)、学校类别(男校、女校和军事化管理学校)、性别(男和女)为因素,这些因素有的是固定因素,有的是随机因素。关于方差分析模型其实是数学的基础,大家可以参考文章数模系列(6):方差分析(ANOVA)。
如果我们只考虑学校因素(school)和入学成绩(Rscores),建立中考成绩的回归模型。如果将学校看成是固定因素(100所学校),则建立的模型如下:
v2-695819cf32cc0ddfe454e7bc7dae1ed8_720w.jpg
将上式改写成回归模型的形式如下:
v2-d28d3d93eb4cd7367c94305dc4781c37_720w.jpg
上面的回归方程看起来没什么问题,但若换个角度思考,就会发现它忽略了许多深层次的信息。可以看下面的两幅图:
v2-d330d5202e21d9e726da68939e29df3e_720w.jpg
左边的散点图是只有1所学校数据的散点图,右边的散点图包括了4所学校的数据。从两幅图的趋势线可以发现,由学校因素引起的学生中考成绩(因变量)的差异既包括了截距的差异,也包括了斜率的差异。
如果只考虑一所学校的差异引起的学生中考成绩的不同,那么方差回归模型可以表示为:
图片.png
其中下标i代表第i个学生。在单独考虑这一所学校时,上面的模型是非常完善的,但同时考虑多所学校时问题就出现了。从上图(右)可以发现,各个学校的教学水平是有差异的,也就是说同一所学校学生的成绩之间实际并不独立,好学校的学生成绩会普遍好一些,差学校学生的成绩会普遍差一些。
上图(右)是包含四所学校的数据,可以发现四条回归线的截距不同,这种差异实际上反映了学校间教学水平的差异,即入学成绩相同的学生,在不同学校中学习后,最后的中考成绩的平均估计值可能是不同的。若考虑到截距的变异,则刚才的模型应扩展为:
v2-c7c07a527afa500ca36eef48f68b17f2_720w.jpg
从上图(右)可以看出除了截距以外,各回归线的斜率也不相同。即成绩在学校间的聚集性除了表现为成绩的平均水平不同外,还表现在不同学校中成绩的离散度,即对中考层级的影响程度上。斜率高的学校对中考成绩影响程度较高,斜率低的则影响程度较低。根据以上推断,模型需要继续扩展:
图片.png
对上面的式子进行整理,整理成下面的形式:
图片.png
上式由两部分组成,分别被称为固定部分和随机部分,可见和普通线型模型相比,混合线性模型主要是对原先的随机误差进行了更加精细的分解。

R语言实现,以一个数据为例

library(MASS)

data(oats)

names(oats) = c('block', 'variety', 'nitrogen', 'yield')

oatsmainplot=oats

variety

oatssubplot=oats

nitrogen

library(lme4)

m1.lme4 = lmer(yield ~ variety*nitrogen + (1|block/mainplot),

                      data = oats)

summary(m1.lme4)

anova(m1.lme4)

Analysis of Variance Table

                Df  Sum Sq Mean Sq F value

variety           2   526.1   263.0  1.4853

nitrogen          3 20020.5  6673.5 37.6856

variety:nitrogen  6   321.7    53.6  0.3028

那么文献中用这个模型做了什么呢??

在文献中的结果Regulatory T cells use specific amino acids within the CDR3β middle region部分,发现了氨基酸在Treg和Tconv的差异很一致,理化性质显示疏水氨基酸富集于Treg,而带负电的氨基酸富集于Tconv,为了检验这个结果,作者采用了嵌套条件混合效应逻辑回归模型,以此来解释个体间的差异. We observed that 15 amino acids had an independent effect on Treg fate。为了确认这种结果对每个个体进行估计,发现具有共性,然后作者ran a separate mixed effects model for each CDR3βmr position (IMGT p108 -112), testing whether the amino acid at the given position explained variance in T cell fate beyond that accounted for by the CDR3βmr amino acid percentages,发现每个位置确实传达了关于 Treg 命运可能性的额外信息,但这些位置特异性影响并不能解释与 CDR3βmr 的一般氨基酸组成一样多的差异 。

在方法部分,固定效应设定如下,T cells were sampled from four tissues: peripheral blood (PBMC), spleen, pancreatic lymph node (pLN), and inguinal/irrelevant lymph node (iLN). We reasoned that there were three sensible ways to model tissue as a source of CDR3β variation: (1) as a fixed effect(固定效应):

图片.png
where p is the probability that the CD4+ sorted CDR3β sequence belongs to a Treg, β0 is an intercept(截距), X1 is an indicator variable(指示变量) set to 1 if the sequence is from a PBMC sample, X2 is an indicator variable for spleen origin, X3 is an indicator variable for iLN origin (pLN as reference),and b1i is a modification to the intercept fit to each individual i, normally and identically distributed (NID) with mean 0 and variance σ02.

第二部分,as a random intercept effect independent from the random intercept effect per individual,wherein matched tissues across donors have the same (zero-centered) intercept effect:

图片.png
where b1j is a modification to the intercept fit to each tissue j, NID with mean 0 and variance σ12,and all other variables maintain previous definitions.
and/or (3) as a nested random intercept effect, wherein each tissue-donor pair is modeled as a unique batch of correlated observations within the individual-level and tissue-level variances:
图片.png
图片.png

数学真的非常难,尤其对于我这样的外行人来说,这才是开始,有机会我们要深入了解一下混合效应回归模型

生活很好,有你更好

你可能感兴趣的:(10X单细胞(10X空间转录组)TCR(BCR)数据分析之混合效应模型(lme4))