Science|人类疾病蛋白质-基因组融合关联分析发现不同疾病内在联系
原创 huacishu 图灵基因 今天
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=47.723
推荐度:⭐⭐⭐⭐⭐
亮点:
1、研究基于不同人类疾病在人类基因组中的共同起源,发现了这些疾病之间的数百种联系,从而挑战了依照器官、症状或临床特点进行的疾病分类;
2、研究了人类血液中数千种蛋白的数据,并将这些数据与遗传数据相结合,构建出显示影响这些蛋白的遗传差异如何将看似不同的疾病以及相关的疾病联系起来的图谱。
近日剑桥大学Claudia Langenberg教授团队在国际知名期刊Science在线发表题为“Mapping the proteo-genomic convergence of human diseases”的研究论文。蛋白质遗传调控的特征对于理解疾病的病因和发病机制至关重要。作者确定了3892个血浆蛋白的10674个基因关联,从而创建了基因-蛋白质-疾病图谱。该蛋白质基因组图谱提供了一个框架,1)连接病因相关疾病,2)提供新的或正在出现的疾病的生物学背景,3)整合不同的生物学领域以建立已知基因-疾病联系的机制。该研究结果确定了疾病内部和疾病之间的蛋白质基因组联系,并确定了顺式蛋白变体在GWAS位点注释可能的致病基因方面的价值,解决了将基础科学转化为临床可操作见解的一个重要瓶颈。
通过测试10708名芬兰研究参与者中针对4775种不同蛋白质的1020万个基因型或插补常染色体和X染色体遗传变异,进行了基因组-蛋白质组关联分析。确定了2584个基因组区域与3892个蛋白质靶点中至少有一个相关。其中1097个区域包括迄今为止尚未报道与血浆蛋白相关的变异体,其中64%(1356个PQTL中的867个)可用。此外,61%(797人中的488人)的PQTL顺式变异的复制比例(81.2%)高于反式(44.2%)。大多数区域(79.3%,n=2050)与单一蛋白质靶点相关,但观察到多效性(≥2个蛋白质靶标),包括与多达五个(16.1%,n=418),(3.4%,n=88)或21-50(0.7%,n=19)相关蛋白质靶标的关联,以及与59-1539个蛋白质靶标相关的八个区域(CFH、ARF4-ARHGEF3、C4A-CFB、BCHE、VTN、CFD、ABO、GCKR)的大量多效性(图1)。含有顺式pQTL的194个多效性区域确定了血浆蛋白质组的主要调节因子,包括糖基转移酶,如组织血型ABO系统转移酶(ABO),关键代谢酶,如葡萄糖激酶调节蛋白(GCKR),或脂质介质,如载脂蛋白E,建立循环蛋白质组的网络状结构。在3892个蛋白质靶点中,26.8%(n=1046)的PQTL同时存在于顺式和反式中,13.4%(n=523)的PQTL仅存在于顺式中,并且在总共8328个变异蛋白关联中,反式为59.6%(n=2323)(图1)。使用适应性逐步条件分析在这些位点上鉴定了另外2346个次级PQTL,表明顺式(68.8%)和反式(31.2%)中存在广泛的等位基因异质性。5442个不同变体中的大多数位于内含子(~44%)中,具有错义变体(~21%),在顺式和反式PQTL中具有相似的分布。研究观察到663个顺式PQTL对蛋白质靶标结构有直接影响,包括重要的亚结构,如二硫键(4.2%)、α-螺旋(3.1%)和β-链(2.6%)。据预测,这些变体会影响蛋白质目标的正确折叠,包括血液中的分泌减少或半衰期缩短,而不是蛋白质编码基因的表达。例如,观察到活性分泌蛋白中PAV的富集,这可能表明常见的翻译后修饰(如糖基化)的调节。
将数据驱动的蛋白质网络与本体映射(图2A和B)相结合,以区分通路特异性PQTL与对多个不相关靶点产生影响的PQTL。基于网络和本体映射的融合证据,成功地将5442个基因变体中的40.8%指定为蛋白质特异性,5.9%(顺式中n=236,反式中n=86)指定为路径特异性,另外16.5%(顺式中n=498,反式中n=402)根据任一来源可能指定为路径特异性。总共,1802个蛋白质靶点在顺式(n=1385)或反式(n=417)中至少有一个(可能)特异性pQTL。通过数据驱动网络方法,将648个本体映射可能遗漏的变体分类为蛋白质特异性。一个例子是rs738408(PNPLA3),一种非酒精性脂肪肝变体,与来自同一蛋白质群体的70个适体中的22个相关(图2C)。PNPLA3编码含蛋白3的类帕他汀磷脂酶结构域(PNPLA3),rs738408标记错义变体rs738409(I148M),使PNPLA3抵抗泛素化介导的降解,并导致随后积聚在肝脂滴上,导致脂肪肝疾病。相关蛋白靶点包括肝脏中高度表达的多种代谢和解毒酶,如酒精脱氢酶、精氨琥珀酸裂解酶、胆盐硫转移酶或氨基酰化酶-1。与目前临床上用于鉴别脂肪肝疾病或肝损伤的组织非特异性蛋白质相比,PNPLA3反式pQTL上的肝损伤特异性效应使这些蛋白质靶点成为潜在的生物标记候选物。
使用统计共定位将血浆pQTL结果与GTEx中的基因表达和剪接QTL数据(分别为eQTL和sQTL)结合起来,对所有1584个至少有一个顺式pQTL的蛋白质靶点进行分析。结果表明,其中一半(50.1%)在至少一个组织中具有与基因表达相同的信号,中位数为4.5(IQR:2-12;图3A),极大地扩展了先前关于基因表达在组织中作用的认识。大多数顺式PQTL(n=584,73.4%)在所有组织中显示出相同方向的血浆蛋白和基因表达效应(图3A),但26.6%(n=212)显示出至少一对具有相反效应的顺式PQTL,其中蛋白质效应与在所有组织中观察到的基因表达方向相反,有证据表明存在共定位。例如,免疫球蛋白超家族成员8(IGSF8)的顺式pQTL rs2295621的A等位基因与蛋白质靶点的血浆丰度呈负相关,但与33个组织中相应mRNA的表达呈正相关。即使在同一细胞内,基因和蛋白质表达的解偶联也是一种经常被描述的现象,可能的机制包括差异翻译、蛋白质降解或蛋白质水平缓冲。对于145个蛋白质靶点,研究确定了基于单个组织的组织特异性对血浆丰度的贡献明显超过所有其他组织的有力证据(图3A)。这些包括已知的组织特异性例子,如肝组织中的维生素K依赖性蛋白C,但也有不太明显的例子,如甲型肝炎病毒细胞受体1(或TIM-1)。为了发挥最大功效,研究整合了eQTLGen的基因表达数据,该联合会确认了140个顺式eQTL/pQTL对,并显示了GTEx资源中未发现的另外38个顺式eQTL/pQTL对,包括炎症反应的免疫细胞特异性介质,如白细胞免疫球蛋白样受体亚家族成员3。为了获得超越所有转录物物种平均读数的见解,作者研究了选择性剪接作为蛋白质靶点变异的来源。五分之一(20.1%)的顺式信号与至少一个组织中的顺式sQTL共享(图3B),其中84个没有通过eQTL数据看到,这表明与pQTL相关的转录亚型被从大量分析转录本中屏蔽。与eQTL共定位相比,研究没有观察到对齐效应方向的总体模式(图3B)。后者可能解释了90个蛋白质靶标实例,其中共定位顺式sQTL解释了超过10%的血浆浓度变化,并强调了剪接QTL确定蛋白质靶标血浆丰度变化潜在来源的能力。
研究观察到多个例子,其中顺式pQTL定位确定了生物学上可能的候选基因,这些基因与顺式eQTL定位无关(图4)。例如,在eQTL支持的CDCA8位点将RSPO1指定为子宫内膜癌的候选致病基因。基因间变异rs113998067是子宫内膜癌的先导信号,是R-spondin-1的次级顺式pQTL,由RSPO1编码。统计共定位证实了一个极有可能的共享信号。因此,作者估计子宫内膜癌风险增加91%,血浆R-spondin-1丰度增加。R-spondin-1是一种分泌型激活蛋白,作为典型Wnt信号通路的激动剂,作为成人干细胞生长因子发挥调节作用。然而,在小鼠模型中的研究表明,R-spondin-1上调雌激素受体α而不依赖于Wnt/β-catenin信号,因此可能增加雌激素介导的子宫内膜癌风险。作者注意到,rs113998067的效应估计没有性别差异,雄性和雌性小鼠的基因敲除模型分别显示睾丸和卵巢发育异常,可能表明对生殖组织疾病有更广泛的影响。
将GWAS汇总统计数据整合到该研究中,以确定与新冠病毒相关的四种不同的结果定义,范围从对新冠病毒的易感性到需要住院治疗的严重病例。这些GWA在纳入病例数量上存在显著差异(5101-38984)。作者复制了先前报道的候选基因ABO和OAS1,这两个基因在这些不同的结果定义中显示了一致的证据。对于ABO,顺式pQTL也与肺栓塞共定位(图5),肺栓塞是严重新冠病毒的常见并发症,可能归因于参与凝血级联反应的蛋白质丰度改变。进一步观察到NSF(针对新冠病毒住院风险)和BCAT2(针对严重新冠病毒)的提示性证据,其中每一种都与这四种结果中的一种结果共享一个遗传信号,因此需要外部验证其在新冠病毒-或相关病理学中的可能作用。
在已知的胆结石位点SULT2A1发现了一个信号,该信号在胆盐硫转移酶(SULT2A1)和胆结石以及胆囊切除术风险之间共享。Multitrait共定位进一步证实,该信号还与肝脏中SULT2A1的mRNA表达、多种硫酸化类固醇的血浆浓度(包括雄激素和孕烯醇酮代谢物的硫酸盐结合物)以及胆汁酸共享。与次级胆汁酸甘胆酸盐血浆浓度降低同时出现的反向关联表明石胆酸的形成减少,石胆酸是溶解脂肪(包括胆固醇)的基本清洁剂。对各种生物学实体的纵向整合表明,促进胆固醇结晶和胆结石形成的过饱和胆汁是一种因果机制。FBLN3(由EFEMP1编码的细胞外基质糖蛋白)是一个与大量(n=37)疾病和其他表型相关的蛋白质靶点,它显示了多种结缔组织疾病的基因-蛋白质融合以及皮下脂肪组织中EFEMP1的基因表达(图6B)。rs3791679的异常与血浆FBLN3丰度降低和结缔组织或软组织异常风险增加有关,包括疝气、静脉曲张等,其中一些以前曾在个体GWA中报道过,但尚未联系到一起。这一系列人类临床特征表明,较低的血浆A等位基因携带者水平导致弹性纤维形态改变或含量降低,这与Efemp1基因敲除小鼠的结果一致,该小鼠表现出异常的弹性纤维形态,出现不同类型的疝气和骨盆器官脱垂。FBLN3是细胞外基质的一部分,广泛表达,但其功能尚不完全清楚。研究提供了关于其在大量结缔组织疾病病因中的作用的见解。EFEMP1突变导致一种罕见的眼部疾病,称为Doyne蜂窝状视网膜营养不良(DHRD),其特征是由于细胞内FBLN3的积累而导致视觉障碍。研究观察到该蛋白位点的信号与视觉相关表型的共享性,包括使用隐形眼镜(近视)和视盘面积减小,这是开角型青光眼的一个危险因素,低蛋白浓度与更高的风险相关,DHRD患者也观察到了这一点。
蛋白质组学技术及其与基因组数据整合的前景在于其在罕见和常见人类疾病中的应用。虽然以前的研究开始利用PQTL的表型结果,但它们主要集中于识别和描述通过特定平台测量的蛋白质的遗传结构。该研究对物候组进行了系统整合,并创建了人类健康的蛋白质基因组图谱,该图谱识别了许多潜在的致病基因,并强调了不同人类条件下的基因驱动联系。传统的疾病分类依赖于共同出现的症状的集合,很少基于共同的病因。该研究为确定针对潜在遗传原因的治疗策略提供了机制上的理解。
教授介绍
Claudia Langenberg教授是剑桥大学MRC流行病中心的负责人,主要关注分子流行病学。她的工作整合了大规模基因组和代谢组学数据,以发现、优先排序和表征代谢途径,并测试其在一系列疾病中的因果相关性和特异性,重点关注2型糖尿病。并且Claudia Langenberg教授以通讯作者在国际权威期刊Nat Genet.、PLoS Med、JAMA上发表论文多篇。
参考文献
Pietzner M, Wheeler E, Carrasco-Zanini J, et al. Mapping the proteo-genomicconvergence of human diseases. Science. 2021;eabj1541.doi:10.1126/science.abj1541