结构方程模型(SEM)的原理来自验证性因子分析和路径分析统计思想的结合。其中,验证性因子分析可视为探索性因子分析的扩展,而路径分析则为多重回归的扩展。根据研究者的先验知识预先设定理论模型,而后通过估计、检验、比较和修缮(重设)得到最佳模型是SEM操作的基本步骤。SEM不仅可以处理测量变量,也可执行潜变量的分析,因而是一种高效的多元数据统计方法。
早期的SEM可追溯到Wright 在上世纪20年代初有关路径分析的工作。通过路径分析获得路径图和路径系数, 研究者可以对系统内各因子的关系进行分解并揭示这些关系背后的潜在机理, 确定不同因子对同一过程的直接和间接作用, 并判别它们的相对重要性等。传统的生物统计学、计量经济学、心理测验学和社会计量学等均对当今SEM的发展起到推动作用。
仪器设备:普通Windows系统个人电脑,内存8G,需求硬盘空间(含软件)2G以上。
软件:IBM SPSS Statistics Version 20,IBM SPSS Amos 21.0.0 (Build 1178), Excel 2016, PowerPoint 2016。
1.实验数据与理论模型
本文的数据来源先前对青藏高原高寒草地土壤真菌多样性分布规律的研究(Yang et al.,2017),涉及60个100 x 100 m样地的地上植物多样性、土壤真菌多样性(以丰富度代表)、地上植物生产力(以生长季NDVI平均值代表)、土壤属性和气候因子。首先,根据前人研究和先验知识构建SEM理论模型(图1)。其中每条路径均可标注对应的参考文献以及假设的正负影响,此处省略;需要的小伙伴可参考Lange等2015的文章。具体的数据操作中,我们以年降雨(MAP)代表气候,以土壤总氮(TN)代表土壤养分,以土壤碳氮比(C:N ratio)代表土壤化学计量,以生长季NDVI的均值(NDVI mean)代表地上植物生产力,以真菌和植物的丰富度指数(F.richness和P.richness)分别代表土壤真菌和地上植物的多样性。数据表以excel形式保存(图2)。
注:相关数据可下载链接http://210.75.224.110/github/MicrobiomeProtocol/04Review/210126/2003678HaiyanChu952651/SEM60.xlsx
图1. SEM的理论模型
图2. 原始数据表格(SEM60.xlsx)
2.SPSS操作—数据导入和转换
打开SPSS 20软件,点击“文件(F)-打开(O)-数据(A)”,进入“打开数据”对话框,将“文件类型”调为“Excel (*xls, *xlsx, *xlsm)”,导航到相应的目标路径下,点击“打开”按钮导入图2 Excel表格。
点击“文件(F)-另存为(A)”,进入“将数据保存为”对话框,将“保存类型”调为“SPSS Statistics (*.sav)”,点击“保存”为SEM60.sav,以备Amos 21.0.0使用。
3.Amos操作—数据导入
打开Amos 21软件,如图3,第一步点击左侧“Select data file(s)”图标弹出“Data Files”对话框,第二步点击“File Name”找到SEM60.sav文件,点击打开,这时可见该文件名称出现在对话框中,点击“OK”即可。此时,点击左侧“List variables in data set”图标,可见各变量名称均出现在“Variables in Dataset”的数据框内
图3. 向Amos中导入数据
4.Amos操作—路径建构
根据图1 SEM理论模型构建路径。使用左侧“Draw observed variables”图标构建1个变量方格,使用“Duplicate objects”复制出另外5个,使用“Move objects”对以上6个变量方格在右侧画板上进行合理的布局调整。然后点击“List variables in data set”,将“Variables in Dataset”数据框内相应数据名称拖入对应的变量方格中
图4. 变量的添加和布局
此时,使用左侧“Draw paths (single headed arrows)”图标,并根据图1构建变量之间的路径(图5)。
图5. 路径的添加
5.Amos操作—残差项的添加
使用左侧“Add a unique variable to an existing variable”图标对TN,CN.ratio,NDVI.mean,P.richness和F.richness设置残差项。点击上层菜单“Plugins-Name Unobserved Variables”完成对残差项的命名(图6)。
图6. 残差项的添加
6.Amos操作—数据运算
点击左侧“Analysis properties”图标,打开“Analysis properties”对话框,在“Estimation”选项卡中可见默认方法“Maximum likelihood”(图7)。这里不改变任何默认选项,直接跳转到“Output”选项卡中,将所有可选标签勾上即可(图8)。
注:“Maximum likelihood”法需要变量服从多变量正态分布,数据类型为区间或定量数据,也是最常使用的模型评估方法之一;“Unweighted least squares”对变量分布无具体要求,但对测量数据的单位较为敏感。
图7. 打开“Analysis properties”对话框
图8. 勾选所有统计输出项
最后,关闭“Analysis properties”对话框,点击右侧“Calculate estimates”(位于“Analysis properties”图标的正右侧),开始模型的统计运算。
7.Amos操作—运算结果查看和重要参数解读
点击“View the output path diagram”图标,选择“Standardized estimates”选项后可见SEM的基本路径图结果(图9)。该图中,路径上的系数为保留两位小数的标准化路径系数,反应了因果关系(路径)的强度,内因变量(TN,C:N ratio,NDVI.mean,P.richness和F.richness)框格边的数字则表示该变量在模型中的被解释率,即R2。
具体结果的查询,点击左侧“View Text”图标,弹出“Amos Output”对话框。所有的可用参数都在此对话框中找到。下面将对几个重要参数进行解读,它们将是我们评判模型是否合理有效的重要依据。
7.1卡方检验(Chi-square,Degrees of freedom和P值),这些参数可在“Notes for Model”标签下查阅。P值必须大于0.05,否则模型拟合无效。
7.2近似误差均方根(root-mean-square error of approximation, RMSEA)可在“Model Fit”标签下查阅。通常其值接近或小于0.05被认为模型合理。
7.3CFI,TLI和GFI分别对应了比较拟合指数(Comparative fit index),Tucker-Lewis指数(Tucker-Lewis coefficient)和拟合优度指数(Goodness-of-fit index),它们均可在“Model Fit”标签下查阅。通常对于好的拟合模型,CFI应接近或大于0.95,TLI和GFI应大于0.90。
7.4AIC和BIC分别为赤池信息准则指数(Akaike information criterion)和贝叶斯信息准则指数(Bayesian information criterion),它们也都在“Model Fit”标签下显示。该类型指数是一种相对测量值,在模型的比较和最佳模型的确定中有重要作用,其应用可参考文章(Lange et al., 2015)。
图9. 运算结果的查看
8.模型调整与最佳模型的呈现
在实际操作中,我们往往不可能一步就得到最佳的SEM模型,我们的理论模型也并非天生就与测量模型(即真实数据)完全契合。这时就需要操作者做出调整。Amos对模型的调整,给出了简单且专业的指导,只需在“Amos Output”下的“Modification Indices”标签下查看即可,如果你的测量模型缺少关键的路径,这里就会显示。如果有一个以上的路径缺失,建议逐条添加路径,再查看“Modification Indices”。那么,除了缺失路径外,不合理的多余路径也是SEM分析中常常遇到的问题。不显著路径是保留(Jing et al., 2015; Delgado-Baquerizo et al., 2016),还是去除(Delgado-Baquerizo et al., 2013; Lange et al., 2015),不同文章给出不同的操作。对此,我们不给建议,只是告知读者,可在“Amos Output”下的“Estimates”标签下可查看所有的路径系数以及对应的P值。
出于个人习惯,我们将P值不显著的路径删除(本测量模型中无缺失路径添加),重新调整后再计算,根据Amos中的模型结果在PowerPoint中作图,最终效果见图13a。此外根据路径系数的加乘运算,我们也将影响土壤真菌多样性分布的因素的总的、直接和间接作用进行小结(图10)。
注:各因素对土壤真菌多样性的总的、直接和间接作用可直接查看“Amos Output”下的“Estimates”标签下的“Standardized Total Effects”,“Standardized Direct Effects”和“Standardized Indirect Effects”三个表格获取。
图10. SEM路径图 (a)各因子对土壤真菌多样性的直接和间接作用(b)。(a)路径旁边的数字为标准化的路径系数,括号内为对应P值。绿色为负效应,红色为正效应,只有显著的路径被保留。(b)所有系数为标准化后的系数。
文章转载自公众号宏基因组MPB:中科院南土所褚海燕组-结构方程模型在土壤微生态中的应用
https://mp.weixin.qq.com/s/nOlb9rhRy7K0VOYfH3xmDw