上篇文章有写多水平模型,这篇文章接着写,肯定好多人没搞懂,因为我自己也迷迷糊糊的,哈哈,很尴尬。
传统的回归需要满足的假设之一就是测量之间是相互独立的,然而有一种实验设计叫做重复测量设计,或者叫做被试内设计within-subjects design,这么一种设计方法中一个受试对象会被测量多次,因为很多的测量都是来自同一个人所以这些测量我们有理由相信他们之间是不独立的。
那么就不能使用传统的回归,而混合效应就可以将不同水平(测量水平和个体水平)的变异都系统地分离开。
什么时候使用混合效应模型呢?------Studies that obtain multiple measurements over time (longitudinal, time-series) or multiple trials per participant (within subjects) lend themselves well to mixed model analyses.
实例描述
写个例子给大家一个更加直观的感觉,比如我们想知道披萨的消费量和心情有没有关系(是不是有关系,关系是不是稳定),我们招募一群受试者,让他们报告他们的披萨消费量和他们的心情,报告15个时间点。
Hypothetical sample size, n = 30
DV: Mood rating (scale)
IV1: Pizza consumption
IV2: Time points (Weeks, 1-10)
此例就是一个被试内设计,一个人测了15次,可怕。
接下来我们对这个例子进行分析:
随机效应与固定效应
Fixed effects are, essentially, your predictor variables. This is the effect you are interested in after accounting for random variability (hence, fixed).
固定效应就是你感兴趣的预测变量,在我举得这个例子中就是披萨消费量和时间,因为我们感兴趣
披萨消费量对心情的影响和影响随时间的变化情况。
Random effects are best defined as noise in your data. These are effects that arise from uncontrollable variability within the sample. Subject level variability is often a random effect.
随机效应就是噪声,通常我们研究低水平的变量,高水平统统为噪声,此例中,我们研究消费量和心情,可以把这两个变量看作是嵌套在人的水平上的,那么人与人之间的差异就是随机效应。
截距与斜率
Intercepts: The baseline relationship between IV & DV. Fixed effects are plotted as intercepts to reflect the baseline level of your DV.
截距就是基线时自变量和因变量的关系。此例中随机截距就是披萨消费量基线时人与人之间不同,而固定截距就是基线时所以人的披萨消费量相同。
Slope: The strength of the relationship between IV & DV (controlling for randomness), which represent random effects. You should expect to see differences in the slopes of your random factors.
斜率就是自变量和因变量的关系强度。此例中,随机斜率就是人与人之间披萨消费量和心情的关系不一样,而固定斜率就是人与人之间披萨消费量和心情的关系一样。
特别注意,截距和斜率有可能有相关性。就是不同基线的个体披萨消费量和心情的关系不一样。
随机效应结构
(1 + IV | unit level)
(1 + IV.1*IV.2 | unit level)
#or
(0 + IV | unit level)
(0 + IV.1*IV.2 | unit level)
通常我们在模型中建立,对于随机效应的表述语法如上,1代表随机斜率,0代表固定斜率
(1| subject) =每个个体都是随机截距和随机斜率
(1 + pizza |subject) =不同个体间披萨消费量的影响不同,披萨消费量有随机截距,个体间披萨消费量的影响不同。
(1 + pizza | subject) + (0 + time| subject)=个体在被披萨消费量影响时有随机截距和随机斜率。时间的斜率也是随机的,但是披萨消费量和时间是独立的。
(1 + pizza + time | subject) =和上面一样,但是披萨消费量和时间是有共变的
(1 + pizza * time | subject) =在时间和披萨消费量上每一个个体都有他们的截距和随机斜率,以及披萨消费量和时间的交互,且所以的截距和斜率都有相关。
寻找最好的随机效应结构
从上面的结构中我们可以知道,其实随机效应有很多,我们到底选择哪种随机效应最好呢?
这就需要我们进行模型比较了:
nullmodel1 <- lmer( mood ~ 1 + (1|subject), data = pizzadata, REML=FALSE)
nullmodel2 <- lmer( mood ~ 1 + (1 + pizza |subject), data = pizzadata, REML=FALSE)
nullmodel3 <- lmer( mood ~ 1 + (1 + pizza * time |subject), data = pizzadata, REML=FALSE)
anova (nullmodel1, nullmodel2, nullmodel3)
我们可以通过模型的AIC,BIC和卡方来进行模型的比较,上图的结果中我们可以看到模型二相对模型三并没有提高拟合,所以模型二就是最佳模型,(1 + pizza +time|subject)就是最佳随机效应结构,意思就是不同的个体他们的极限披萨消费量是不同的,而且在披萨消费量影响心情时的斜率也是不同的。
加入固定效应
上一部分我们找到了模型最好的随机效应结构,接下来我们就给模型加入固定效应:
m1=lmer(mood ~ pizza + (1 + pizza + time |subject), data=pizzadata, REML = FALSE)
summary(m1)
m2= lmer(mood ~ pizza + time + (1 + pizza + time |subject), data=pizzadata, REML = FALSE)
summary(m2)
m3 = lmer(mood ~ pizza*time + (1 + pizza + time |subject), data=pizzadata, REML = FALSE)
summary(m3)
跑3个模型,分别加入固定效应和固定效应的交互之后我们开始检验到底哪一个模型好:
anova (m1, m2, m3)
通过p值我们发现模型二其实是最好的模型,所以我们可以得到结论:控制随机效应后披萨的消费量越高,心情越好,但时间会减弱这种效应。时间和披萨的消费量之间并没有交互作用。
小结
如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。
如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
(站外链接发不了,请关注后私信回复“数据链接”获取本号所有使用数据)
往期内容:
从“我丑到我自己了”说起——混合效应模型续
重复测量数据分析系列:混合效应模型基础
R数据分析:多水平模型详细说明