2022-06-21

Nat Genet | 组合S2G策略预测5095个高可信度因果SNP-基因-疾病关联

原创 huacishu 图灵基因 2022-06-21 09:18 发表于江苏

收录于合集#前沿分子生物学技术

撰文:huacishu

IF=38.33

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者开发了一个基于遗传的框架,用于评估和组合不同的S2G策略,以优化常见疾病风险的信息量;

2、作者提出的最佳组合S2G策略(cS2G)包括七个组成S2G策略,精确度为策略预测5095个因果SNP-基因-疾病关联的可信度很高,远远高于任何其他S2G策略。


之前的工作提出了一个“全基因模型”,其中疾病关键细胞类型中表达的所有基因都会影响核心疾病基因的功能,从而影响疾病SNP的遗传力。这项工作引起了人们对估计每个基因贡献的疾病SNP遗传力组成部分的浓厚兴趣,但由于SNP与基因之间的联系存在挑战,这一点尚待实证评估。利用作者的cS2G策略来估计SNP遗传力,SNP是由与49种英国生物库疾病/性状的每个基因相关的SNP因果解释的,这些疾病/性状的全基因组功能性精细定位结果可用于所有单核苷酸多态性。作者还估计了每个性状的因果基因(Ge)的有效数量。前200个基因解释了52%±6%的疾病SNP遗传力,该遗传力与使用cS2G策略的基因相关(图5a)。有趣的是,使用最接近的TSS S2G策略重复分析显示了一种更为多基因水平的结构,需要前1000个基因来解释48%±2%的h2基因(图5a);这些结果表明,使用更精确的S2G策略可以更准确地推断基因水平结构。但是,使用cS2G的初步分析可能仍然略微高估了基因水平的多基因性,因为即使是cS2G策略也不完全精确。作者估计了每个性状的致病基因(Ge)的有效数量。Ge的估计值差异很大,从3289(神经质)到1375(身高)到80(总胆固醇),中位数为540(跨越16个独立性状),并且与独立相关SNP的有效数量的估计值密切相关,这是一种基于SNP的疾病/性状多基因性度量(图5b)。通过将因果SNP解释的每个基因h2限制在与每个基因相关的普通SNP解释的SNP遗传力范围内,进一步估计了Ge。对于普通SNP和低频SNP,基因水平结构更为多基因性,在16个独立性状中,Ge中位数为427,Ge中位数为427,低频率为157(中位数比率为2.8)(图5c),这与普通SNP和低频SNP的多基因SNP结构相一致。令人惊讶的是,普通SNP和低频SNP的基因水平结构之间的一致性很低。然而,观察到h2基因、常见基因和两种疾病特异性基因集的前200个基因之间存在一致的过度重叠,这表明常见和低频变异基因水平结构是由与类似生物过程相关的不同基因驱动的。总之,作者的cS2G策略提供了对“全基因模型”的定量评估,这意味着与最接近的TSS S2G策略相比,多基因水平的架构要少得多。作者推断,与低频变异相比,常见变异的多基因基因水平结构更为复杂,尽管存在共同的生物过程,但这些基因水平结构下的基因之间几乎没有重叠。

作者开发了一个多基因框架来评估和结合S2G策略;特别是,该框架在使用疾病相关SNP基因对的精心编制的列表来评估S2G策略方面,比以前的方法有了实质性的进步。应用这个框架构建了一个cS2G,其精确度为0.75,召回率为0.33,是任何单个策略的精确度或召回率的两倍多。将cS2G应用于49种英国生物库疾病/性状的精细定位结果,以高置信度预测5095个因果SNP-基因-疾病三联体,包括2163个涉及远端调控精细定位SNP的三联体,这些SNP不在目标基因的基因体(或启动子)中;值得注意的例子包括2型糖尿病中的CDKN1C、哮喘中的BCL6、湿疹中的PDCD1和高密度脂蛋白中的LAMP1,所有这些都得到了多种S2G策略的支持。进一步应用cS2G对“全基因假说”进行了定量评估,得出结论,排名前200位(1%)的基因解释了与所有基因相关的SNP遗传力的大约一半;这意味着基因水平结构在很大程度上是由数量相对较少的基因驱动的。作者的发现有如下几点启示。首先,建议GWAS精细定位研究使用cS2G将精细定位的SNP与其目标基因有效链接;作者注意到,与之前的S2G方法一样,cS2G可以与利用相关基因全基因组模式的基于相似性的方法相结合。其次,作者的框架可用于优化(并结合)未来可能制定的S2G策略;新的S2G策略的开发仍然是一个关键的优先事项,因为作者的cS2G策略尽管比其他S2G策略有了很大的改进,但仍获得了33%的适度召回率,这意味着只有1/3的疾病SNP遗传率可以由与其正确目标基因相关联的因果疾病SNP来解释。第三,作者的结果突出了增强基因连接策略的优势,包括针对多种细胞类型的成本效益高的实验,以及将罕见变异与基因联系起来的高潜力。第四,作者的研究结果支持罕见变异关联研究将提供与GWAS互补的生物学见解的假设,这既是因为观察到普通变异和低频变异基因水平结构下的基因之间几乎没有重叠,也是因为确定低频变异基因水平结构不太多基因;作者预计,对于罕见的变体体系结构,这些差异将更加明显。最后,cS2G可以提高对疾病SNP遗传力丰富的基因集的识别,在S-LDSC分析富集基因集时使用的模型中加入适当的SNP注释对于避免有偏差的富集估计非常重要。研究不同组合S2G策略在分析富含疾病SNP遗传力的基因集方面的相对表现是未来研究的一个方向。本研究也有一些局限性。作者将所有可用的组织和细胞类型纳入cS2G的成分S2G策略中,虽然观察到了更高的精确度,但可能是因为生物样本的大小有限。然而,涉及疾病关键组织/细胞类型的S2G链接对于理解生物学机制至关重要(图4)。随着更大的数据集的应用,定义疾病特异性的组合S2G策略可能变得切实可行,该策略仅限于疾病关键组织和细胞类型,从而进一步明确SNP–基因–疾病三联体作用的因果细胞类型。尽管存在这些局限性,作者的结果证明了使用多基因框架评估和组合S2G策略的优势,以及使用cS2G策略精确定位疾病基因的有效性。

教授介绍

Steven Gazal是南加州大学人口和公共卫生科学系遗传流行病学中心的助理教授。他的研究重点是开发和应用统计方法,以了解人类疾病的遗传基础,并结合群体遗传学、遗传流行病学和功能基因组学方法。在担任遗传流行病学中心的职位之前,Steven Gazal是哈佛大学公共卫生学院的博士后和研究助理。Steven Gazal的实验室开发并应用统计方法来了解人类疾病的遗传基础,并拥有将群体遗传学、遗传流行病学和功能基因组学方法相结合的专业知识。Steven Gazal目前感兴趣的领域包括:了解选择对疾病结构的影响;优化将疾病变体与其目标基因联系起来的功能数据集的使用;了解环境对分子表型和疾病的影响。Steven Gazal旨在将这些研究方向应用于炎症疾病和免疫细胞的数据分析。

参考文献

Gazal S, Weissbrod O, Hormozdiari F, et al. Combining SNP-to-gene linking strategies to identify disease genes and assess disease omnigenicity. Nat Genet. 2022;10.1038/s41588-022-01087-y. doi:10.1038/s41588-022-01087-y

你可能感兴趣的:(2022-06-21)