JAMA Psychiatry: Genetically Informed Methods

JAMA Psychiatry: Genetically Informed Methods_第1张图片

JAMA Psychiatry 11月4号发表的VIEWPOINT文章,讨论了如何厘清Cannabis use(CA)和Schizophrenia(SCZ)的因果关系。这篇文章的重点是如何使用genetically informed methods寻找因果关系,内容偏genetics/bioinformatics,不到两页的文章充斥着各种不为Neuroimager熟知的内容,仅有的一张table让人仿佛看到了汪洋大海。文章虽然讲的是Cannabis use和Schizophrenia的关系,但是提及研究思路和方法同样适用于其他的领域。

问题

大样本的研究和meta-analysis都表明吸麻,无论程度轻重都和精神分裂的发病有着很高的相关性,但是如何证明吸麻会导致了精分,而不是因为它们有共同的风险基因?这样的问题在流行病学的研究中屡见不鲜,比如如何证明是抽烟导致的肺癌而不是肺癌的某个基因位点导致某个人爱抽烟。

为什么因果关系重要?人们曾经认为某种胆固醇能够有效预防心脏病发作,因为研究发现血液中的这种胆固醇浓度越高,心脏病发作的风险越低。但是按照这个思路研发的药物全部都失败了,直到2012年的一个研究使用孟德尔随机化的方法证明它们之间并不存在因果关系!

假设

这里考虑三种假设

1) Entirely Causal 完全因果关系

2) Partly Causal and confounded部分因果关系,有混淆变量,这里主要指的是两者有共同的genetic risks,增加了它们发生的概率。

3) Entirely noncausal 无因果关系

几个关键的缩写

CA-Cannabis use-大麻使用

SCZ-Schizophrenia-精神分裂

MZ-Monozygotic twins-同卵双胞胎

OR-Odd rate-优势比

MR-Mendelian Randomization -孟德尔随机化

LD-Linkage Disequilibrium连锁不平衡

GWAS-Genome-wide association study-全基因关联分析

PGRS-Polygenic risk score-多基因风险分数

在开始阅读下文之前,可以先将这部分内容暂存到你1/7 blocks的工作记忆中,防止迷路。

方法

作者提及了4种常用的方法。自然实验法(Natural experiments)顾名思义不能有实验室对小白鼠那样的manipulation,包括了Discordant relative designsMendelian Randomization(孟德尔随机化)。此外基因相关性的分析包括连锁不平衡回归分析(LDSR)和多基因风险评分(PGRS)。

JAMA Psychiatry: Genetically Informed Methods_第2张图片

1

DR designs

Discordant指的是phenotypically discordant on serval traits and diseases。这个设计,初看以为就是双生子设计,其实研究对象还包括了cousins, siblings等。比较好的翻译可能是:家系研究

这种方法,研究对象可以是同卵双胞胎(monozygotic twins, MZ) ,他/她们有一套一样的常染色体DNA,几乎一样的成长环境(一般指15岁以前),其次是异卵双胞 (dizygotic twins, DZ)和siblings,他/她们大概只共享了50%相同基因,,同父异母(paternal half siblings)或者同母异父(maternal half siblings)的兄妹共享25%相同基因,堂兄妹表兄妹(full cousins)只共享12.5%相同基因。

JAMA Psychiatry: Genetically Informed Methods_第3张图片

不同假设下应该观测到如下的OR值

An odds ratio (OR) is a statistic that quantifies the strength of the association between two events, A and B.

OR值(odds ratio)又称比值比、优势比,主要指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值,是流行病学研究中病例对照研究中的一个常用指标。

JAMA Psychiatry: Genetically Informed Methods_第4张图片

1)如果CA-SCZ的OR值在相关和不相关的样本中都一样,则表明因果关系,并没有混淆基因或者环境因素。

2)如果随着样本相关性的增加,OR值降低,则表明基因或者环境的因素对CA-SCZ的关系有影响,支持第二种假设。

3)如果观测到的OR值随相关性快速下降,并且在MZ样本中不显著(=1)则表明,CA-SCZ的关系由基因或者环境因素决定, CA并不导致SCZ,支持第三种假设。

之前的一个研究发现在general population中CA-SCZ的OR值为10.44,而在MZ样本中下降了66%到3.52,表明拥有共同的风险基因或者环境因素减小了CA-SCZ之间的相关,支持了第二种假设。

2

MR

JAMA Psychiatry: Genetically Informed Methods_第5张图片

JAMA Psychiatry: Genetically Informed Methods_第6张图片

(Budu-Aggrey,2019)

孟德尔随机化分析(Mendelian Randomization, MR)是一种使用基因作为工具变量的分析方法。简单的说,假设我们想研究一个可能的风险因子(X)是不是会产生某种结果(Y)。如果我们知道一个和X关联的遗传位点(Z,工具变量),就可以想象把所有人根据Z的基因型随机分成两组一组人里X的水平比另外一组高。如果这两组人里面Y的发病率不一样,我们大致可以确定这两组的差别是由于X的差别引起的。这个办法可以简单的推广到有多个能影响X的遗传位点的情形。我们可以利用每一个位点对Y的效应β_yz,和对X的效应β_xz:对两者做回归分析就可以估计X是否对Y有影响,以及影响的大小β_yx=β_yz/β_xz。

随着全基因组关联分析(GWAS)的普及,我们很容易得到很多风险因子的遗传位点,MR成为了越来越常用的分析手段,在高分杂志频繁出镜。

比如,今年(2020)的这篇Science的文章中的一个分析便是使用了MR证明surface area和认知能力存在因果关系。

JAMA Psychiatry: Genetically Informed Methods_第7张图片

本月(2020/11)的这篇JMMA Psychiatry使用MR的方法发现prescription opioid use增加了MDD的风险。

JAMA Psychiatry: Genetically Informed Methods_第8张图片

2019年Lancet的文章使用MR的方法发现饮酒增加血压和中风风险,传统观点认为的适量饮酒可以降低中风风险其实并不存在因果关系

JAMA Psychiatry: Genetically Informed Methods_第9张图片

书归CA-SCZ,在不同的假设下得到的β值应该如下:

JAMA Psychiatry: Genetically Informed Methods_第10张图片

1)如果使用CA基因作为工具变量,MR分析得出和SCZ的相关系数β>0, 可想象为使用CA的风险基因+exposure对被试做分组,结果发现高风险组的得SCZ的人多(β>0);而使用SCZ基因作为工具变量时,MR分析得出和CA的相关系数为β=0,相当于使用SCZ基因+exposure对被试做分组,结果发现高风险组和低风险组之间并没有CA上的差异,表明SCZ相关的高风险因素并不导致CA。这种情况下,支持第一种假设。

2)使用CA基因作为工具变量使用SCZ基因作为工具变量时β>0,则说明它们存在共同的风险基因,因此支持第二种假设,部分因果。

3)使用CA基因作为工具变量时β=0,使用SCZ基因作为工具变量时β>0此时说明CA➡SCZ无因果关系。换言之如果出现这种情况则支持SCZ➡CA完全因果。

之前的研究发现

genetic liability to lifetime cannabis use was associated with a significant increase in the risk of schizophrenia by 37%

而有的研究则表明

stronger evidence that genetic liability to schizophrenia was associated with an increase in the risk of lifetime cannabis use

所以已有的结果支持第二个假设。

Note: 这里的reverse causality也只能算是partly casual

MR是在流行病学领域广泛使用的方法,相关内容/教程一搜一大把,这里只做了简介。可以先混个脸熟,用到了再学。推荐阅读2018年BMJ的这篇文章入门,英国布里斯托大学的流行病学家George Davey Smith是做MR的专家之一。

JAMA Psychiatry: Genetically Informed Methods_第11张图片

3

LDSR

通过全基因关联分析(GWAS),我们能够识别和某种表型相关的SNP位点,但是这个结果可能同时受到polygenic effectsconfounding factors的影响。即使增加协变量也无法完全消除混淆因素的影响(比如样本间隐藏的亲缘关系)。只有当混淆因素的影响占比足够低的时候,我们才认为GWAS的分析结果是可靠的。

连锁不平衡分数回归(Linkage disequilibrium score regression; LDSR)是2015年才提出的一种方法,用于量化GWAS分析中多基因遗传和混淆变量(比如人群分层、隐形相关等)对结果的独立贡献

JAMA Psychiatry: Genetically Informed Methods_第12张图片

LDSR详情参见

JAMA Psychiatry: Genetically Informed Methods_第13张图片

单个表型的GWAS分析LDSR可以鉴定是否存在混淆因素,估计遗传力的大小。对于一个多基因的特质,有较高LD的SNPs有更高的卡方统计值。多表型的GWAS分析,LDSR可以根据对应的卡方统计量,计算表型间的遗传相似度。所以这种分析可以排除共同风险基因的影响(r=0),支持假设1,或者得出r>0,支持假设2或者3。

已有的两个LDSR的研究报告了CA和SCZ显著的全基因组遗传相关,支持假设2或者3.

JAMA Psychiatry: Genetically Informed Methods_第14张图片

4

PGRS

表型(某种疾病)一般受到多个基因位点影响,单个或是少数几个基因位点的效应较弱,无法有效预测表征,因此需要综合多个基因位点的信息。多基因风险评分(polygenic risk score,PGRS)是目前的常用策略,旨在量化多个基因或位点的累积效应,将数十、数百、数千甚至更多的基因组变异信息加权为个体疾病易感性的分值。当然这个方法不仅限于疾病,对于非疾病的表型(比如BMI,人格特质,智力水平等)也可以运用,称为polygenic score (这里就不说risk了)。

PGRS结合脑科学,目前还不需要什么复杂的分析就可以发不错的杂志。一种常见的思路就是做mediation,看brain的数据是否可以调节(mediate) PGRS和行为之间的关系。

2019年发在CC的这篇文章使用IMGANE的数据研究了PGS-Intelligence和General intelligence之间的关系是否可以被cortical thickness和surface area调节

btw,这个文章用的是作者自己写的一个meidation的python工具包,有vertex-wise的TFCE correction,作为vertex/voxel-wise的分析来说效率不错,只不过报告结果的时候就有点tricky了a8c91fcd8b720bf0066043a907a05f7d.png。如果编程OK的话还是推荐自己用R写code做。

JAMA Psychiatry: Genetically Informed Methods_第15张图片

JAMA Psychiatry: Genetically Informed Methods_第16张图片

JAMA Psychiatry: Genetically Informed Methods_第17张图片

2018年发在Molecular Psychiatry的这篇文章考察了ADHD的PGRS和hyperactivity/impulsivity之间的关系是否可以被white matter microstructure, cortical thickness和surface area调节。

JAMA Psychiatry: Genetically Informed Methods_第18张图片

JAMA Psychiatry: Genetically Informed Methods_第19张图片

同样的思路可以运用到其他的领域,比如可以看某个脑区的皮层厚度是否调节了酒精依赖的PGRS和酒精依赖诊断或者饮酒量的关系。

JAMA Psychiatry: Genetically Informed Methods_第20张图片

如何计算PGRS,软件和教程也是一搜一大把,推荐参考这篇2020年发在Nature Protocols的文章。

JAMA Psychiatry: Genetically Informed Methods_第21张图片

书归CA-SCZ,使用SCZ的PGRS预测CA,如果不显著β=0,则可认为没有共同的风险基因,可支持假设1。如果β>0则说明它们有共同的风险基因,支持假设2或者3。研究表明SCZ的PGRS可以预测CA的多种表型,支持假设2和3。

JAMA Psychiatry: Genetically Informed Methods_第22张图片

结语

随着基因测序的技术进步,成本不断降低,将生信的研究方法融入到Neuroiamging研究的设计和分析中不再遥不可及。在Neuroimaging的研究中,得出来的结论大部分都是associaiton。通过本文介绍的几个方法,我们了解到基因得天独厚的优势(与生俱来,不随环境、经济文化等因素改变)可助力因果推断,使用这些genetically informed methods将是未来的趋势。

Reference

Budu-Aggrey, A., & Paternoster, L. (2019). Research Techniques Made Simple: Using Genetic Variants for Randomization. Journal of Investigative Dermatology, 139(7), 1416-1421.

Gillespie, N. A., & Kendler, K. S. (2020). Use of Genetically Informed Methods to Clarify the Nature of the Association Between Cannabis Use and Risk for Schizophrenia. JAMA psychiatry.

3a2088761e35c607a754813096c5c574.png

—END—

JAMA Psychiatry: Genetically Informed Methods_第23张图片

你可能感兴趣的:(大数据,机器学习,人工智能,python,java)