2021-11-19

Nature Genetics | 200万人超大规模GWAS数据分析

原创 风不止步 图灵基因 今天

收录于话题#前沿生物大数据分析

撰文:风不止步

IF=38.333

推荐度:⭐⭐⭐⭐⭐

亮点:

研究利用高效的基于稀疏矩阵的算法开发一种基于GLMM的GWA工具fastGWA-GLMM,它比最先进的工具快几倍到几个数量级(UKB) ,可扩展到数百万人的队列。常见和稀有变体的fastGWA-GLMM测试统计数据在零值下得到较好的校准,即使对于具有极端病例控制比的性状也是一样。证明使用在大型队列中估算基因型数据,可发现二元复杂性状的罕见变异。


2021年11月04日,西湖大学终身教授杨剑博士等人在《Nature Genetics》上发表了一篇“A generalized linear mixed model association tool for biobank-scale data”的文章。

生物样本库数据的规模给GWA分析方法带来了巨大的计算挑战。为生物样本库规模的数据积极开发了新的方法和工具,包括基于线性回归的工具,如 PLINK2和 BGENIE,以及基于线性混合模型(LMM)的工具,如DISSECT、BOLT-LMM和fastGWA。基于LMM的方法通常优于基于线性回归的方法,主要是因为它们可以解释相关性,而无需移除相关个体。与基于LMM的方法相比,基于GLMM的方法更适合二元特征。不幸的是,大多数基于GLMM的GWA方法无法扩展到大型生物库数据。


研究开发一种计算效率高的关联方法fastGWA-GLMM,用于对UKB等大型队列中的二元表型进行GWA分析。在包含400,000个个体和11,842,647个变体的数据集中进行测试时,fastGWA-GLMM 的效率比现有方法高几倍甚至几个数量级,具体取决于样本大小、分析的特征数量以及用于每个分析工作的CPU数量,展示fastGWA-GLMM对200万个人的GWAS数据的可扩展性。GLMM框架的实施允许用户在存在相关性的情况下在GWA分析中保留最大数量的个体,并且SPA校正的结合可以正确校准具有极端病例控制比的特征的测试统计数据。fastGWA-GLMM在UKB中的2,989个二元特征的应用进一步证明了其实用性和效率。


fastGWA-GLMM相对于LR-unRel的主要优势在于它不需要从研究中删除相关个体,因为相关性可以通过谱系相关性矩阵或稀疏GRM很好地解释。fastGWA-GLMM相对于LR-unRel的另一个优势是它的效率。与许多其他基于GLMM的方法一样,fastGWA-GLMM使用分数统计进行关联测试,计算相对容易。相比之下,LR-unRel使用基于迭代重新加权最小二乘法的 Wald测试,需要对每个变体重复求解完整模型,因此比分数测试慢得多,尤其是对于用协变量分析。

(图1:根据空变体计算的 FPR。)

当应用于二元特征时,fastGWA-GLMM 相对于基于 LMM 的方法的优势可以概括为两个方面。首先是效果大小的更好的可解释性,因为可以直接使用自然对数将来自fastGWA-GLMM的ˆβs转换为优势比。然而,基于 LMM 的方法中的这种转换是间接的,需要复杂的近似值。第二个方面是通过 SPA 校正更好地控制 fastGWA-GLMM 的FPR。由于在将基于LMM的方法应用于二元性状时SPA校正不适用,因此常见的策略是排除具有低病例对照比的性状(例如,≤1:99)和具有低MAF的变异(例如,<0.01 ),导致有价值信息的大量丢失。另一种策略是对控制进行下采样,这对于常见的变体表现相当不错。然而,对于罕见的变体,虽然这种策略可以减少 LMM 测试统计中的膨胀,但剩余的膨胀足够大以产生假阳性关联。相比之下,通过使用fastGWA-GLMM获得所有 3,821,959 个稀有变异的经过良好校准的汇总统计数据,其中在非常严格的显着性水平上确定了数百个与特征相关的变异,包括已知的关联。

(图 2:fastGWA-GLMM 和 SAIGE 的运行时和内存使用比较。)

SAIGE是一种使用密集GRM的基于GLMM的方法。除了GRM设置之外,fastGWA-GLMM 和SAIGE之间还有其他三个主要区别。首先,fastGWA-GLMM使用了一种基于网格搜索的算法fastGWA-B-REML估计方差分量(Methods),它比SAIGE中使用的平均信息REML算法更高效。其次,由于使用密集的GRM,SAIGE可能会受到近端污染。第三,fastGWA-GLMM不是使用协变量调整的基因型数据来计算每个变体的评分测试统计量,而是首先使用未调整(但以均值为中心)的基因型数据来计算近似评分测试统计量,然后重新计算精确测试使用协变量调整的基因型数据对 χ2 检验统计量≥4 的变体进行统计。这种策略允许fastGWA-GLMM省略协变量矩阵和约95%的基因型向量之间的矩阵乘法计算。已经确认近似协变量调整方法和精确方法之间的检验统计差异可以忽略不计。只有χ2检验统计量<4的变体可能会遭受轻微的紧缩,这确实会影响在全基因组显着性水平上检测关联的能力。当协变量的数量很大时,此策略特别有用。

(图 3:fastGWA-GLMM 在 200 万个人的伪队列中的运行时间和内存使用情况。)

fastGWA-GLMM是一种高效的基于GLMM的方法,适用于生物库规模数据中许多二元表型的GWA分析。不同参数设置下的广泛模拟和近3,000个UKB性状的真实数据分析证明了其统计鲁棒性和计算效率。相信fastGWA-GLMM是当前和即将到来的大规模数据的非常有用的工具,本研究发布的汇总统计数据将有助于未来深入了解许多健康相关结果的遗传基础。


教授介绍

杨剑博士  西湖大学终身教授

杨剑教授主要致力于统计遗传学、基因组学研究,以及人类复杂性状和疾病(如:身高、肥胖、精神分裂和癌症)的大数据分析。他和同事提出的一系列统计遗传学分析方法已经成为全基因组关联研究(Genome-WideAssociation Study)领域的主流方法;他们在2010和2011年提出的利用全基因组单核苷酸多态数据在自然群体中估计遗传率的方法(即GCTA-GREML方法),找到解决“遗传率丢失”(missingheritability)问题的理论突破口。截止2020年7月,杨剑总共发表160多篇学术论文,其中35篇ESI高被引论文;所发表的论文共被引用27,000多次(数据来自Web of Science)。

西湖大学统计遗传学实验室主要致力于研究人类基因组在群体内和群体间的变异,并研究这些变异与健康的关联。目前主要的研究方向包括(但不限于)如下几个方面:

1. 基因组变异和健康

2. 整合多组学数据研究疾病的遗传机制

3. 疾病的遗传风险评估

4. 癌症基因组学

5. 高性能计算生物学分析方法和工具的开发

参考文献

Longda Jiang, Zhili Zheng et al.A generalizedlinear mixed model association tool for biobank-scale data.(2021)

你可能感兴趣的:(2021-11-19)