GWAS(genome-wide association study)主要用于研究相关性状的主要效应。其思想是利用覆盖全基因组的高度密度SNP标记,通过对每个SNP标记或SNP单倍型与性状的关联分析,直接找到影响性状的QTN或与数量性状核苷酸(quantitative trait nucleotide,QTN)处于高度连锁不平衡的SNP。
通过一定算法关联SNP与性状的关系,这需要对结果进行度量,其有多种算法。
对于SNP的从编码也有多种,主要的是加性编码,其中SNP的基因型用0、1或2表示,以指示非参考等位基因的数量。其他可能的编码是显性编码,其中纯合指代基因型编码为0,其他基因型编码为1,而隐性编码,其中纯合替代基因型编码为1,其他基因型编码为0
1 单SNP分析
1 分析模型
1.1 数量性状通常使用广义线性模型(GLM)方法进行分析,最常见的是方差分析(ANOVA),它类似于带有分类预测变量的线性回归,在这种情况下是基因型类别。使用单个SNP进行ANOVA的假设是,任何基因型组的特征均值之间没有差异。GLM和ANOVA的假设是:1)性状是正态分布的;2)每组内的特征差异相同(各组是同方差的);3)组是独立的。
1.2 通常使用列联表法或逻辑回归分析二分病例/对照特征。列联表检验检查并测量在表型和基因型类别之间没有关联的零假设下预期的独立性偏差。该测试最普遍的形式是流行的卡方检验(以及相关的费舍尔精确检验)。
Logistic回归是线性回归的扩展,其中线性模型的结果使用逻辑函数进行转换,该逻辑函数可根据基因型类别预测案例状态的可能性。Logistic回归通常是首选方法,因为它允许对临床协变量(和其他因素)进行调整,并且可以提供调整后的比值比来。
NP的基因型也可以分为基因型类别或模型,例如显性,隐性,乘性或加性模型。编码的不同,会给研究带来不同的结果。
2 协变量调整和群体分层
协变量调整可减少由于研究伪影或研究设计中的偏差而造成的虚假关联,但是调整是以使用可能影响统计功效的额外自由度为代价的。
当用作协变量时,这些得分会针对数据中的微小祖先效应进行调整。
对于不同遗传背景的群体混合在一起是影响WAS分析结果可靠性的主要因素之一。
一般对所有数据进行PCA分析,查看前两个PCs的图。
如果分层,需要校正,目前主要的方法有:基因组控制法(genomic control, GC), 结构关联法(structured assocaiation, SA)和主成分分析法(principal componets).
Q-Q图: 以每个SNP的检验统计量的观察值和在原假设(SNP与性状无关)下的期望值为数据对。
P 值的曼哈顿图都是以-lg(P)表示Y值。
3 多次测试的校正(p值校正)
对于每个统计检验,都会生成一个p值,即看到一个检验统计量等于或大于观察到的检验统计量(如果原假设为真)的概率。这实际上意味着较低的p值表示如果没有关联,则看到此结果的机会非常小。
多重检验可导致I型错误扩大和假阳性关联,因而需要对多重检测校正。
那如何对多重检验进行校正是GWA研究所面临的重要问题之一。 目前常用的方法有:Bonferroni校正,递减调整法(step-down adjustment),数据重排法(data permutaton),Benjamini-Hochberg, 和控制错误发现率法(false discovery rate, FDR)等. Bonferroni校正是最保守和严格的一种,但是应用较为普遍,公式:
Ps = γ / N, Ps是每次检测欲达到的显著要求的P值的阈值,γ 是所要求的总的范I性错误的概率, N是实际分析中使用的SNP数
统计检验通常被称为有效检验,如果p值低于预定义的alpha值(几乎始终设置为0.05),则无效假设会被拒绝。这意味着在5%的情况下,原假设实际上是真的,而我们检测到假阳性,则原假设被拒绝。该概率是相对于单个统计检验而言的;就GWAS而言,进行了数十万至数百万次测试,每个测试都有其自己的假阳性概率。因此,在整个GWAS分析中发现一个或多个误报的累积可能性要高得多
修正多重测试的最简单方法之一是Bonferroni修正。Bonferroni校正将alpha值从α= 0.05调整为α=(0.05 / k),其中k是进行的统计检验的次数。对于使用500,000个SNP的典型GWAS,SNP关联的统计显着性应设置为1e-7。此校正是最保守的,因为它假定500,000的每个关联测试均独立于所有其他测试-由于GWAS标记之间的连锁不平衡,这一假设通常是不正确的。
调整误报率(alpha)的另一种方法是确定误发现率(FDR)。错误发现率是对重要结果(通常为alpha = 0.05)中误报所占比例的估计。在GWAS数据集中没有真实关联的零假设下,关联测试的p值将遵循均匀分布(从0到1均匀分布)。FDR程序最初由Benjamini和Hochberg开发,从本质上纠正了预期的错误发现数量,从而提供了对那些被称为“重大发现”的真实结果的估计[[33]]。这些技术已广泛应用于GWAS,并以多种方式扩展[[34]]。
置换测试是在GWAS中建立重要性的另一种方法。尽管计算量大,但置换测试是在原假设为真时为给定数据集生成测试统计量的经验分布的直接方法。这是通过将每个个体的表型随机重新分配给数据集中的另一个个体来实现的,从而有效地打破了数据集的基因型与表型之间的关系。数据的每次随机重分配代表在原假设下对个体的一个可能采样,并且此过程重复了预定的次数N以生成分辨率为N的经验分布,因此N为1000的置换过程给出了经验p 1/1000内-VALUE日小数点后一位。已经开发了几种软件包来执行GWAS研究的置换测试,包括流行的PLINK软件[[35]],PRESTO [[36]]和PERMORY [[37]]
2 多SNP分析
全基因组关联研究为检查整个基因组的遗传变异之间的相互作用提供了巨大的机会。然而,多场所分析并不像进行单场所测试那样简单,并且提出了许多计算,统计和后勤方面的挑。
因为大多数GWAS基因型介于500,000个和一百万个SNP之间,所以即使对于高效算法,检查SNP的所有成对组合也是一种计算上棘手的方法。解决此问题的一种方法是减少或过滤基因型SNP的集合,从而消除冗余信息。过滤SNP的一种简单而通用的方法是,根据任意重要性阈值从单SNP分析中选择一组结果,并详尽地评估该子集中的相互作用。但是,这可能很危险,因为基于主要效应选择要分析的SNP将阻止检测到某些多位点模型-所谓的“纯上位”模型,其边际效应在统计上是不可检测的。使用这些模型,遗传力的很大一部分都集中在交互而不是主要效果上。换句话说,标记物的特定组合(仅标记物的组合)引起疾病风险的显着变化。这种分析的好处在于,它对所选SNP集合内的相互作用进行了无偏性分析。与分析所有可能的标记组合相比,它在计算和统计上也更容易处理。
另一种策略是将SNP组合的检查限制为属于已建立的生物学环境(例如生化途径或蛋白质家族)中的那些组合。由于这些技术依赖于结构化生物医学知识的电子存储库,因此它们通常将生成SNP-SNP组合的生物信息引擎与评估GWAS数据集中组合的统计方法结合使用。例如,生物过滤器方法使用了各种公共数据源,以及逻辑回归和多因素降维方法[[40]],[41]。同样,INTERSNP使用逻辑回归,对数线性和列联表方法评估SNP-SNP相互作用模型[42]。
3 重复和荟萃分析
简而言之,复制研究的一般策略是尽可能重复进行GWAS的确定和设计,但仅检查在GWAS中发现的显着遗传效应。两项研究中一致的效应可以标记为重复效应。
荟萃分析的基本原理是,所有纳入的研究都检验了相同的假设。因此,每个纳入研究的总体设计应相似,并且研究水平的SNP分析应在所有研究中遵循几乎相同的程序(参见Zeggini和Ioannidis [47]以获得出色的评价)。确定每个站点包含哪些SNP的质量控制程序以及所有协变量调整均应标准化,并且多个站点之间临床协变量和表型的测量应保持一致。所有研究的样本集都应该是独立的–由于研究人员经常将相同的样本贡献给多个研究,因此应该经常检查这一假设。同样,一个极其重要且有点麻烦的后勤问题是要确保所有研究报告相对于常见基因组构建和参考等位基因的结果。如果一项研究报告了其相对于等位基因的结果,此SNP的荟萃分析结果可能并不重要,因为两项研究的效果相互抵消。
考虑到所有这些因素,很少能找到在所有条件下都完全匹配的多项研究。因此,经常在荟萃分析中对研究异质性进行统计量化,以确定研究之间的差异程度。研究异质性最流行的度量是I2指数I2指数在最近的研究中更受青睐。由荟萃分析得出的系数具有可变性(或误差),并且I指数表示该可变性的近似比例,这可以归因于研究之间的异质性。I2值分为低(<25),中(> 25和<75)和高(> 75)异质性,并且已被提议作为一种识别可能应该从荟萃分析中删除的研究的方法。重要的是要注意,这些统计数据应被用作识别可能与荟萃分析中其他假设不同的基础假设的研究的指导,就像离群分析被用来识别影响力过大的观点一样。但是,与异常值一样,仅在有明显理由基于研究参数进行研究时才应将其排除在外–不仅仅是因为统计数据表明该研究会增加异质性。否则,旨在减少荟萃分析异质性的不可知统计程序将增加错误的发现
google翻译文章:Bush WS, Moore JH. Chapter 11: Genome-wide association studies. PLoS Comput Biol. 2012;8(12):e1002822. doi: 10.1371/journal.pcbi.1002822. Epub 2012 Dec 27. PMID: 23300413; PMCID: PMC3531285.
“Exploration of a diversity of computational and statistical measures of association for genome-wide genetic studies” (https://doi.org/10.1186/s13040-019-0201-4)