写在前面:知识真是越看越多,聪明的人类总能想出各种办法来寻找这世界万物中的各种联系。文献中读到Mendelian randomization method and a Mendelian randomization-Egger sensitivity analysis,真是焦头烂额,查了查资料来做笔记了。这篇笔记的基础来自一篇中文文献,《孟德尔随机化法在因果推断中的应用》。
英文来源:http://www.mendelianrandomization.com/index.php
孟德尔随机化(Mendelian Randomization,MR)研究设计,遵循“亲代等位基因随机分配给子代”的孟德尔遗传规律,如果基因型决定表型,基因型通过表型而与疾病发生关联,因此可以使用基因型作为工具变量来推断表型与疾病之间的关联。关联zy=关联zx×关联xy,见图。
Greenland对工具变量在流行病学混杂因素控制方面的应用做了详细阐述:
①工具变量z与混杂因素u无关联;
②工具变量z与暴露因素x有关联;
③工具变量z与结局变量Y无关联,z只能通过变量X与Y发生关联。
上述方程的使用必须满足条件:
①变量x与Y之间的关联一定会受到潜在混杂因素U的影响,但工具变量z与变量x以及z与变量Y之间无潜在混杂因素影响;
②变量x与结局Y之间的关联无法直接观察获得,因为无法直接测量变量X,但是z是可测量的,并且z与x直接的关联是已知的或者可测量的,并独立于其他因素而存在。
这些对于工具变量的限制条件也使得正确选择合适的工具变量成为关联研究的难点。
MR设计策略
①一阶段MR(One stage MR):
②独立样本MR(One-sample MR):该方法利用单一研究样本,通过使用2阶段最小二乘法回归模型(2-stage least—squares regression,2SLS),定量估计暴露因素x与Y之间的关联效应大小。第一步:建立G—X回归模型,获得暴露因素预测值(predicted value,P);第二步:构建P—Y的回归模型,即获得暴露因素预测值P和结局变量Y之间的回归方程。
由于该方法局限于单个样本,把握度较小,工具变量的选择也比较局限,容易受到潜在混杂因素的影响。2SLS的分析方法在Stata软件中可以使用“ivregress”(StataCorp)、在R软件中使用“ivpack”(R Foundation)来实现。
③两样本MR(Two-sample MR):两样本MR的设计策略是建立在G—X和G—Y的关联研究人群来自相同人群的两个独立样本(如GWAS与暴露,GWAS与结局的关联数据n9。),要求两样本具有相似的年龄、性别和种族分布特征,因为样本量较大,该方法可以获得更大的把握度。目前,两样本MR因为全球大量GWAS合作组的公共数据而被广泛使用。
④双向MR(Bidirectional MR):又称为互为MR(Reciprocal MR)
此方法在解决因果网络方向的问题上将会有很大用途,但是在分析未知生物学效应的两个变量时,要防止被双向MR的结果误导。
⑤两阶段MR(Two-step MR):与两样本MR不同的是,两阶段MR需要使用遗传工具变量来评价因果关联的可能中间变量M(Mediation),来探讨环境暴露因素(E)是否通过表观遗传指标(M)而导致疾病(O)改变,见图
第一阶段,遗传工具变量G1独立于混杂因素,指代暴露因素E与结局O之问的关联,并且必须经过中间变量M才能实现;
第二阶段,另一独立遗传工具变量G2作为中间变量M的指代工具,分析中间变量M与结局0之间的关联
比如BMI通过血压来间接影响冠心病的发生。目前此方法已被应用于表观遗传流行病学(Epigenetic Epidemiology)研究,Binder和Michels使用母亲MTHFR C677T,A1298C两位点作为工具变量,发现7个CpG位置参与了红细胞叶酸与甲基化改变之间的关联。Dekkers等陋63使用全基因组甲基化数据发现,免疫细胞差异甲基化结果是由个体内部血脂水平(TG,LDL-C,HDL-C)变化所导致,反之则不亦然。此方法必须满足E—M和E—O之间的关联呈线性以及同质性的假设前提,并且已被延伸成为分析复杂因果网络关系的基础,如网络MR设计(Network MR)。
⑥基因一暴露交互作用MR(Gene-exposure interactions)interactions):MR研究设计还可以用于探讨基因一暴露因素在疾病发生中的交互作用现象,同时要求基因与结局的关联必须取决于暴露因素的状态。这种方法可以区分基因直接作用于结局,还是基因通过暴露因素而作用于结局。
MR研究可靠性评价
1.敏感度分析(sensitivity analysis)
2.MR-Egger回归分析:以使用MR—Egger回归分析的方法来评价基因多效性带来的偏倚,MR-Egger回归直线的斜率可以估计定向多效性(directional pleiotropy)的大小。
Beavis效应:基于GWAS数据的MR研究可能会高估了遗传和暴露之间的关联,亦被称之为“胜利者的诅咒(the winner’s curse)
https://mp.weixin.qq.com/s/OkuUFZWGbkDj2yify5ULQA
这篇有例子有实战,不错:https://www.jianshu.com/p/253309a571aa
Technical Report | 29 October 2018
Distinguishing genetic correlation from causation across 52 diseases and complex traits
This study presents a new latent causal variable (LCV) model that distinguishes between genetic correlation and…show more
Luke J. O’Connor & Alkes L. Price
号称比孟德尔随机化还好的model,避免了假阳性,可以看看
附上软件网址:https://github.com/lukejoconnor/LCV