本周最新文献速递20211114
一、精细解读文献 一
文献题目: Mapping the proteo-genomic convergence of human diseases
不想看英文题目: 绘制人类疾病蛋白质基因组图谱
杂志和影响因子:
研究意义: 研究蛋白质的遗传结构及其与人类健康的相关性
结论:
- 总共纳入了 10,708 名欧洲血统个体(平均年龄 48.6 岁,53.3% 女性)、4775 个蛋白质靶标、 1020 万个基因分型进行全基因组蛋白质组关联分析;
- 鉴定了 2584 个(蛋白质编码基因的 ±500 kb 内, cis-pQTL)与 3892 个蛋白质靶标相关联的基因组区域(P < 1.004 × 10-11)。79.3%的基因组区域(n = 2050)与单个蛋白质靶标相关, 64%(867/1356)的 cis-pQTL 在复制队列中方向一致(P<0.05);
蛋白质靶标: 指的是与变异相关的蛋白质
- 通过检测 cis-pQTL 所调控的蛋白质是否为某个 通路或蛋白质所特异的,作者把 cis-pQTL 分为分为蛋白质特异性和通路特异性 cis-pQTL,40.8% 为蛋白质特异性,5.9% 为通路特异性,648 个 cis-pQTL 为蛋白质网络所特异的;
- 使用共定位 [后验概率 (PP) > 80%] 将 pQTL 与 GTEx 的 eQTL (基因表达相关位点) 和 sQTL (可变剪切相关位点)位点进行整合,发现大多数 cis-pQTLs (n = 584, 73.4%) 在所有组织中与基因表达方向相同, 26.6% ( n = 212)方向相反,比如免疫球蛋白超家族成员 8 ( IGSF8 )的 cis-pQTL rs2295621-A 在血浆中与蛋白质靶标呈负相关(β = –0.19,P < 1.65 × 10-32) ,但在另外 33 种组织中呈正相关,可能与蛋白质降解、背景混杂因素(如时间和发育状态)等有关;
- 使用 cis-pQTL 识别 GWAS 表型/疾病潜在的因果基因,发现了较多之前 eQTL 未发现的因果基因,比如 R-spondin-1 上的 pQTL rs113998067 为子宫内膜癌相关变异位点,R-spondin-1 可分泌一种激活蛋白,该蛋白可介导雌激素受体-α 的表达,增加子宫内膜癌风险;
- 通过 cis-pQTL 进行全表型共定位分析,构建了基因-蛋白质-疾病网络,总共鉴定了 1859 个基因-蛋白质-性状网络(又名蛋白质基因组图谱, www.omicscience.org ),包括 412 个蛋白质靶标和 506 个表型。以其中一个网络为例,该网络上的多个疾病(冠状动脉疾病、高脂血症、溃疡性结肠炎、阿尔茨海默病 和 2 型糖尿病等)存在多个共享的 pQTL,另一个例子是 ABO 上的 cis-pQTL(rs576125,MAF = 33.5%)也与肺栓塞相关,这可以解释为什么肺栓塞是 COVID-19 的常见并发症;
- 利用蛋白质基因组图谱还可以发现潜在的疾病机制,比如 cis-pQTL 高度连锁的位点 rs212100 (r2 = 0.90), 其C基因型可提高胆盐磺基转移酶 (SULT2A1)活性以及胆结石风险,且随着 r2 降低,效应值也会变低,这表明 rs212100 可能通过影响 SULT2A1 活性进而提高胆结石的风险;
(这图真好看)
- 对年龄或性别进行划分,评估不同性别和年龄的 cis-pQTLs 的效应值差异,总共发现了 14 个蛋白质靶标在性别(N = 10)或年龄(N = 8)上显著差异,四个蛋白质靶标重合;
- 利用 Open Targets 发现了 31 个潜在的药物靶标,可用于 1 到 8 种疾病的治疗;
亮点: 填补了 pQTL 对疾病贡献这一领域的空缺(之前也有 pQTL 研究,但样本量不多)
局限: 无法解析所有同工蛋白质的遗传结构
文章链接:
10.1126/science.abj1541
公开的资料:
www.omicscience.org
二、精细解读文献 二
文献题目: Discordant associations of educational attainment with ASD and ADHD implicate a polygenic form of pleiotropy
不想看英文题目: 教育程度与 ASD 和 ADHD 的不一致关联揭示基因多效性
杂志和影响因子: Nat Commun (IF: 14.92; Q1)
研究意义: 注意力缺陷/多动障碍 (ADHD)和自闭症(ASD)的遗传结构高度相似,大约 15-25% 的 ADHD 表现出自闭症(ASD)症状, 40-70% 的 ASD 患者同时有 ADHD 。然而,也存在不一致的地方,比如 ASD 与教育程度(EA)遗传正相关,但 ADHD 与 EA遗传负相关。与 EA 不一致的多基因关联模式潜在的遗传机制尚不清楚;
结论:
- 由于不同的机制,可能会出现与教育程度不一致的关联,下图列出了几种可能的机制(a~i)。a) 相同基因,且具有基因多效性,效应方向相同,但是彼此间的连锁程度低;b) 不同基因,无多效性;c)虚假的基因多效性,可能是由于其他混淆因素引起(比如经济状况);d)相同的基因,且同一效应位点,但效应方向相反;e)相同的基因,基因多效性且共定位,但效应方向相反;f)不同的基因,连锁程度高,但效应方向相反;g)相同的基因,基因多效性且共定位,效应方向相同;h)不同的基因,连锁程度高,效应方向相同;i)相同的基因,具有多效性且方向相同;
- 为了探究不一致关联潜在的机制,作者基于 GWAS summary 数据评估了 ASD 和 ADHD 对 EA 的影响,模型和公式如下图所示,该模型考虑了其他潜在因素对变量的影响,可有效评估 ASD 或者 ADHD 对 EA 的独立效应;
- 利用上述模型,作者设置了 6 个不同的阈值 (0.0015 ≤ Pthr < 0.5) 评估模型的有效性,结果发现 P 值越小,ASD 与 EA 的正相关越明显,ADHD 与 EA 的负相关越明显,说明该模型可有效校正混淆因素,评估表型之间的基因多效性;
- 为了证明该模型可广泛应用在其他表型上,作者使用智力(CTG)表型数据取代 EA 对 ASD 和 ADHD 进行评估, CTG 同样证实了 ASD 和 ADHD 风险的不一致关联;
亮点: 我们经常讲基因多效性,但很少有公式或者工具衡量基因多效性中是否有混淆因素。以 ASD 为例,美国的研究中发现 ASD 的父母社会经济地位比较高,但是在瑞典的人群队列中,却观察到较低的经济社会地位与高 ASD 风险相关,说明社会经济地位是一种混淆因素,在某种程度上会影响基因多效性的观察。本文使用多变量分析方法可有效校正混淆因素对基因多效性进行评估。
文章链接:
https://pubmed.ncbi.nlm.nih.gov/34764245/
公开的资料:
三、其他文献推荐
下面的文献也挺精彩的,但由于下不到原文,或博主时间有限,没法精细解读,故列出来供各位参阅;
当然,你们有精彩的文献想让我解读的(前提是一周内刚出炉的文献),可给我发pdf(然而可能种种原因,我不一定有时间解读,不要对我抱太高期待);
文献题目: A chickpea genetic variation map based on the sequencing of 3,366 genomes
不想看英文题目: 基于 3,366 个基因组测序的鹰嘴豆遗传变异图谱
杂志和影响因子: Nature (IF: 42.778; Q1)
文章链接:
https://www.nature.com/articles/s41586-021-04066-1
文献题目: Estimating disease prevalence in large datasets using genetic risk scores
不想看英文题目: 使用遗传风险评分评估大型数据集中的疾病流行率
杂志和影响因子: Nat Commun (IF: 14.92; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-26501-7
文献题目: Structural variants in the Chinese population and their impact on phenotypes, diseases and population adaptation
不想看英文题目: 中国人群的结构变异及其对表型、疾病和人群适应的影响
杂志和影响因子: Nat Commun (IF: 14.92; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-26856-x
文献题目: Deciphering cell lineage specification of human lung adenocarcinoma with single-cell RNA sequencing
不想看英文题目: 用单细胞 RNA 测序破译人肺腺癌的细胞谱系特征
杂志和影响因子: Nat Commun (IF: 14.92; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-26770-2
文献题目: Co-evolution based machine-learning for predicting functional interactions between human genes
不想看英文题目: 基于协同进化的机器学习方法预测人类基因之间的功能相互作用
杂志和影响因子: Nat Commun (IF: 14.92; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-26792-w
四、工具或资源类介绍
文献题目: Fast alignment and preprocessing of chromatin profiles with Chromap
不想看英文题目: 使用 Chromap 快速对齐和预处理染色质图谱
快速、批量处理 ChIP-seq/Hi-C/单细胞ATAC-seq数据
杂志和影响因子: Nat Commun (IF: 14.92; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-26865-w
文献题目: scEnhancer: a single-cell enhancer resource with annotation across hundreds of tissue/cell types in three species
不想看英文题目: scEnhancer:在三个物种的数百种组织/细胞类型中进行单细胞增强子注释
杂志和影响因子: Nucleic Acids Res (IF: 16.97; Q1)
文章链接:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1032/6425541
文献题目: bollito: a flexible pipeline for comprehensive single-cell RNA-seq analyses
不想看英文题目: bollito:用于单细胞 RNA-seq 分析的灵活管道
杂志和影响因子: Bioinformatics (IF: 5.61; Q1)
文章链接:
https://doi.org/10.1093/bioinformatics/btab758
文献题目: PheneBank: a literature-based database of phenotypes
不想看英文题目: PheneBank:基于文献的表型数据库
杂志和影响因子: Bioinformatics (IF: 5.61; Q1)
文章链接:
https://doi.org/10.1093/bioinformatics/btab740
文献题目: GADGETS: A genetic algorithm for detecting epistasis using nuclear families
不想看英文题目: GADGETS :基于家系数据检测上位性的遗传算法
杂志和影响因子: Bioinformatics (IF: 5.61; Q1)
文章链接:
https://doi.org/10.1093/bioinformatics/btab766
致谢橙子牛奶糖(陈文燕),请用参考模版:We thank the blogger (orange_milk_sugar, Wenyan Chen) for XXX
感谢小可爱们多年来的陪伴, 我与你们一起成长~