大家好,本周给大家分享的是12月9日发表在Nature上与脂质遗传多样性相关的一篇文章。
文章题目:The power of genetic diversity in genome-wide association studies of lipids(脂质全基因组关联的遗传多样性研究)
期刊: Nature
影响因子: 2020_IF = 49.962; 中科大类: 综合性期刊 1区; 中科小类: 综合性期刊 1区; JCR分区: Q1
发文单位:美国密歇根大学、斯坦福大学医学院等多家单位。
文章作者:美国密歇根大学Sarah E. Graham为第一作者,Cristen J. Willer为通讯作者。
摘要:血脂水平升高是导致心血管疾病的遗传风险因素,尽管在预防和治疗方面取得了进展,心脏病仍然是全世界死亡的主要原因。关于血脂水平的全基因组关联研究(GWAS)已经为心血管疾病带来了重要的生物学和临床见解,以及新的药物靶点。然而,以前的大多数GWAS都是在欧洲祖先群体中进行的,可能遗漏了导致其他祖先群体中脂质水平变化的遗传变异。本研究中作者对大约165万个体(包括35万非欧洲血统)的脂质水平进行了一项多祖先、全基因组的荟萃分析。作者发现,增加多样性而不是研究更多欧洲血统的个体,可以显著提高精细定位功能变异和多基因预测的便携性。在发现的基因座和祖先特异性变异的数量上也取得了一定进展。随着GWAS将重点从基因识别和基础生物学扩展到使用遗传变异进行预防和精确医学,作者预计参与者的多样性增加将导致在临床实践中更准确、更公平地应用多基因评分。
主要结果:
1、祖先特异性和多祖先遗传发现
作者发现了773个脂质相关的基因组区域,其中包含1765个不同的指数变异位点,至少在1个祖先群体和脂质性状中达到了达到全基因组显著性阈值之上。在这些区域中,有237个被认为是新发现的,因为每个区域中最显著的指数变异距离先前被报道的变异位点大于500 kb,这些变异位点为与五种脂质性状(低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、甘油三酯(TGs)、总胆固醇(TC)、非高密度脂蛋白胆固醇(nonHDL-C)中的任何一种相关。在这些基因座中,76%仅在欧洲祖先特异性分析中被确定(N=约130万, 约占样本的80%)。在非欧洲血统中,非洲祖先 GWAS(N=~99000,主要是非洲裔美国人)比任何其他非欧洲祖先群体(东亚特有的6个基因座,西班牙裔特有的6个基因座,南亚特有的1个基因座)识别出更多的祖先特异性基因座(15个为混合非洲人或非洲人群体所特有)。这种差异可能是由于非洲和欧洲祖先群体之间的等位基因频率表现出最大的变异(图1a-d),并且因为非洲群体比其他群体具有更大的遗传多样性所导致。
另外作者使用MR-MEGA中的元回归方法进行了多祖先荟萃分析,以解释祖先组之间脂质的变异位点效应大小的异质性。在923个位点(±500kb区域)共有1750个指数变异位点至少对1个脂质性状具有全基因组显著性。鉴定了168个未通过特定祖先分析确定的区域, 其中120个(71%)是新的。总之,作者鉴定了941个脂质相关位点,包括355个来自单祖先或多祖先分析的新位点。接下来,作者比较了每个祖先群体和组合数据集中每100000名参与者识别的基因座数量(图1e)。混合非洲和西班牙裔血统特异性分析确定的每个基因型个体的基因座最多,这可能是由于非洲血统和/或遗传多样性增加。另外作者通过假设其他祖先的同等发现样本量、固定效应大小和观察到的其他祖先的等位基因频率来估计每个变异位点的发现能力(图1f)。
图1. 不同祖先群体间已鉴定基因座的比较。a,b、非非洲祖先群体中混合非洲(ADM-AFR)祖先指数变异的等位基因频率分布(a)和效应大小(b), 东亚(EAS)、欧洲(EUR)、西班牙裔(HIS)和南亚(SAS)。c,d、非欧洲祖先群体中欧洲祖先指数变异位点的等位基因频率分布(c)和效应大小(d)。混合非洲血统分析中确定的指数变量的平均效应大小大于欧洲血统分析,这反映了由于样本量差异超过10倍,检测各组内关联的能力不同。e、在每个祖先群体中确定的基因座数量标准化为100000个个体的恒定样本量,并在脂质性状上取平均值。f、从每个祖先特异性meta分析中确定的指数变异的比例,该比例能够很好地检测出具有相同效应大小但与其他祖先群体中的祖先特异性频率的关联。深蓝色区域表示可能仅在原始祖先组(即特定祖先)中以同等样本量检测到的变异。
2、不同祖先间效应比较和多祖先分析有助于精细定位
尽管样本大小相似,由于等位基因频率和/或效应大小的差异都可能会造成不同祖先之间的关联信号的差异。在对五种脂类性状进行的多祖先荟萃分析中,2286个指数变异位点达到全基因组显著性,其中159个(7%)因血统而表现出显著的效应大小异质性。接下来,作者评估了多祖先精细定位是否缩小了每个独立多祖先关联信号。在多祖先荟萃分析中,407个变量的后验概率>90%,其中56个(14%)为错义变量,7个(2%)为剪接区变异,4个(1%)为终止增益变异(CD36、HBB、ANGPTL8和PDE3B)。来自欧洲祖先分析的99%可信数据集中的变异中位数为13,但在多祖先分析中这一数字减少到了8。这表明不同祖先间LD模式和效应大小的差异可能有助于精细定位。例如,rs900776是DMTN区域的一种内含子变异位点,具有许多高LD变异位点,在欧洲祖先群体中因果的后验概率为0.51,在非洲祖先衍生群体中增加到后验概率为0.86,在多祖先分析中>0.99(图2)。
图2. 多个祖先的加入有助于精细定位。a,b、在混合非洲、欧洲或多祖先荟萃分析(a)或DMTN表达数量性状位点(b)中,DMTN内含子变异位点rs900776与LDL-C的关联。LDL-C关联信号与肝脏中DMTN的GTEx联合表达数量性状位点信号显著共定位。c、在千人基因组中,非洲(AFR)和欧洲祖先个体之间,欧洲祖先99%可信集合中变异位点的LD模式差异很大。
3、预测多祖先多基因风险评分
作者评估了多基因风险评分(PRS;也称为多基因评分(PGS))在不同祖先群体中预测LDL-C水平升高的可能性,LDL-C水平升高是冠心病的主要原因风险因素。多祖先荟萃分析中得出的PRS始终显示在每个受试组中表现最佳或接近最佳,与祖先匹配分数相关的预测得到改善或可比得上的(图3)。作者通过使用约100000人的样本量和固定方法生成GWAS,重复了多祖先与单祖先PRS的评估,结果与完整数据集的结果一致(图3b)。在已经包括了大量欧洲祖先个体情况下,所有祖先LDL-C的多基因预测通过添加不同祖先的样本结果最好。表明多祖先群体分析有助于预测多基因风险评分。
图3. 多祖先LDL-C PRS在不同祖先群体中表现相似。a、与祖先特定的PRS相比,多祖先PRS在大多数祖先群体中表现出同等或更好的表现,而欧洲祖先特定的分数表现出更少的可转移性。b、在MGI数据集中,来自各祖先组相同比例的多祖先得分预测混合非洲裔美国人(AFRAMR)的低密度脂蛋白胆固醇(LDL-C)比恒定样本量下的主要欧洲祖先得分更好。AADM,非洲-美洲糖尿病;ASN,亚裔美国人;AWI-Gen,非洲Wits-INDEPTH基因组研究伙伴;ELGH,东伦敦基因与健康学院;KoGES, 韩国基因组和流行病学研究;PMBB,宾夕法尼亚州立大学医学生物库;ToMMo, Tohoku Medical Megabank 社区队列研究。
总之使用多祖先荟萃分析可以鉴定一些之前没有鉴定到的与脂质相关的区域或位点,同时有助于候选基因的精细定位。
文中所有图片均来自The power of genetic diversity in genome-wide association studies of lipids
文中有表述不当的地方,是我的问题,请在后台与小编联系修改,也可以自行阅读原文,谢谢理解与支持。如有团体或个人认为本文侵犯您的权利,请及时联系小编删除。
文章链接地址:https://www.nature.com/articles/s41586-021-04064-3
参考文献:
Graham, S.E., Clarke, S.L., Wu, KH.H. et al. The power of genetic diversity in genome-wide association studies of lipids. Nature (2021). https://doi.org/10.1038/s41586-021-04064-3