本周最新文献速递20210925
一、精细解读文献 一
文献题目: Protein-coding repeat polymorphisms strongly shape diverse human phenotypes
不想看英文题目: 蛋白质编码重复多态性强烈改变人类不同表型
杂志和影响因子: Science (IF: 47.73; Q1)
研究意义: 基因组中存在多个可变数目串联重复序列 (VNTR),但是此类重复序列难以检测,因此 VNTR 与大多数表型的关系尚不清楚。为此,作者开发了从全外显子组测序数据检测 VNTR 的方法。
VNTR 概念:包含多个变异位点的DNA重复序列,长度七至数千个碱基,拷贝数在几个到几百之间,且拷贝数在个体间存在差异。
比如某个VNTR,个体1表现为:ATTCG|ATTCG|ATTCG;个体2表现为:ATTCG|ATTCG|ATTCG|ATTCG;
结论:
- 作者开发了一种统计模型,可通过整合亲缘关系、单倍型、碱基特异性等信息估算 VNTR ;
- 通过前面开发的方法将其应用在 UKBB 的 49,959 例全外显测序数据中,随后将 VNTR 上的变异位点映射在 415,280 例芯片数据样本中,并与 786 个表型进行关联分析,总共发现了 185 个显著的关联结果;
- 为了证明前面发现的 185 个显著关联结果是由 VNTR 驱动的而非与 VNTR 连锁不平衡的其他变异位点所驱动,作者使用 FINEMAP 对 VNTR 进行因果后验概率计算,发现 5 个 VNTR(19 个关联结果)的后验概率超过0.95;
-
5 个 VNTR 分别坐落在 TENT5A, MUC1, TCHH, ACAN 和 LPA 基因上。其中,TENT5A, MUC1, TCHH 与表型的关联之前未被报道过,LPA 上的重复序列 KIV-2 与脂蛋白的相关性之前已有文献报道:LPA 上的重复序列 KIV-2 在12-24个拷贝数时,每减少一个拷贝数,脂蛋白浓度增加37%;
-
有文献报道血清脂蛋白水平在群体间存在差异(B图),作者发现这一差异是由重复序列 KIV-2 上的变异位点频率差异引起的(C图);
-
另一个例子是 TCHH 上的 VNTR, 被发现与毛发表型相关。与此同时, VNTR 区域上的 rs11803731 也与毛发表型相关,分别对 VNTR 和 rs11803731 进行条件分析,发现 VNTR 和 rs11803731 各自独立影响毛发表型;
GWAS条件分析(conditional analysis)教程:https://www.cnblogs.com/chenwenyan/p/10278893.html
亮点: 开发了从全外显测序数据种检测 VNTR 的方法;
局限: 49,959 例全外显测序数据、415,280 例芯片数据、786 个表型,这么大体量只检测到 185 个显著的结果,可见这个方法的应用局限性很大。对于大多数少样本少表型的研究队列来说,采用该方法很难检测到有意义的结果;
文章链接:
https://pubmed.ncbi.nlm.nih.gov/34554798/
DOI: 10.1126/science.abg8289
公开的资料:
- height summary statistics:https://www.ebi.ac.uk/gwas/
二、精细解读文献 二
文献题目: Differentially expressed genes reflect disease-induced rather than disease-causing changes in the transcriptome
不想看英文题目: 疾病使得基因产生差异表达,而非差异表达引起疾病发生(论转录组与疾病之间的因果关系:疾病是因,基因差异表达是果)
杂志和影响因子: Nat Commun (IF: 12.121; Q1)
研究意义: 通过转录组可检测健康个体和患病个体之间的差异表达基因,但差异表达基因与疾病之间的相关性未必反映二者的因果性。作者开发了一种方法,可区分差异表达基因与表型之间的相关性是正向、反向因果关系还是由混淆因素引起的;
结论:
- 有别于之前的基因表达对表型的因果性检测方法(转录组孟德尔随机化方法,TWMR),作者开发了一种方法(逆转录组孟德尔随机化方法,revTWMR),可检测表型对基因表达是否产生影响;
- 将 revTWMR 方法应用在 19,942 个基因和 12 种复杂表型上,包括 BMI、克罗恩病(CD)、教育程度(EDU)、空腹血糖(FG)、高密度脂蛋白(HDL)、 身高、低密度脂蛋白(LDL)、类风湿性关节炎(RA)、精神分裂症(SCZ)、总胆固醇(TC)、甘油三酯(TG)和根据BMI调整的腰臀比(WHRadjBMI),发现 46 个基因的表达被一种及以上的表型所影响 (PrevTWMR < 2.5 × 10-6 = 0.05/19,942);
- 最显著的结果是甘油三酯(TG)和类风湿性关节炎(RA),分别影响 26 和 15 个基因的表达;
- 为了证明 revTWMR 可有效检测表型和基因的因果性,作者使用 MR-PRESSO 检测水平多效性,发现16对显著的"表型→基因"存在水平多效性,移除了具有水平多效性的工具变量后(SNP),9对"表型→基因"仍然存在因果关系;
为什么要检验水平多效性
孟德尔随机化分析有三个假设,其中的一个假设就是工具变量(一般是遗传位点)必须通过暴露因素(exposure,大胸)影响结果(outcome,不爱运动)。
如果工具变量可以不通过暴露因素直接影响结果,那么就违反了孟德尔随机化的思想,即检验结果存在水平多效性。
上面一段话是不是很拗口,用直白的话说,就是假定SNP位点rs123同时与大胸显著相关(暴露因素),又同时与不爱运动显著相关(结局变量),那么我们就认为用rs123进行大胸和不爱运动的因果关系推断是存在水平多效性的,检验结果即便是显著,他们之间的因果关系也不成立。
所以,用孟德尔随机化进行因果关系推断的大前提是没有水平多效性。
教程:使用MR-PRESSO检验水平基因多效性(孟德尔随机化分析) https://www.cnblogs.com/chenwenyan/p/13283551.html
- 随后对显著的"表型→基因"对进行疾病的相关性分析,并与遗传相关性的结果进行比较,发现"表型→基因"对的计算结果和遗传相关性的计算结果高度一致 (r = 0.84),说明 revTWMR 方法检测到的基因可有效反映不同疾病背后共享的遗传效应;
- 为了更好理解 revTWMR 检测到的显著基因背后所代表的生物学意义,作者分别对差异表达基因和 TWMR 方法以及 revTWMR 方法检测到的显著基因进行比较,结果发现 revTWMR 检测到的基因与差异表达基因显著相关,而 TWMR 检测到的基因与差异表达基因无显著相关,说明常规的 RNA-seq 分析发现的差异表达基因很多是受疾病影响才产生的( revTWMR 思想:疾病是因,基因差异表达是果),而非差异表达基因引起疾病的产生( TWMR 思想:基因差异表达是因,疾病是果);
- 利用DrugBank和STITCH检测 revTWMR 发现的"表型→基因"能否作为潜在的药物治疗靶标,结果发现 revTWMR 检测到的基因可作为疾病早期标志物以及治疗靶标,以高密度脂蛋白胆固醇为例,revTWMR 检测到高密度脂蛋白胆固醇可引起8个基因的表达发生变化,在这8个基因中,有4个基因与高密度脂蛋白胆固醇的靶向药物相互作用(阿托伐他汀、洛伐他汀、普伐他汀和辛伐他汀);
- 作者随后在小鼠模型中证明 revTWMR 方法的有效性, 以 TG 表型为例, revTWMR 发现 TG 影响了 26 个基因的表达,利用此信息在小鼠模型中用高脂肪饮食 (HFD)进行诱导并检测差异表达基因。结果发现 revTWMR 检测到的基因在差异表达基因中显著富集,而TWMR检测到的基因并无显著富集,再一次说明了很多差异表达基因是受疾病影响才产生的( revTWMR 思想:疾病是因,基因差异表达是果),而非差异表达基因引起疾病的产生( TWMR 思想:基因差异表达是因,疾病是果);
亮点: 提出了一种验证疾病对基因表达水平影响的方法;
局限: 所有孟德尔随机化方法存在的局限,此文均也存在;
号外,我没想明白为什么基因表达对疾病的因果关系用cis-eQTLs,而疾病对基因表达的因果关系用trans-eQTLs,明白的老师同学们欢迎指教一下 :D
文章链接:
https://www.nature.com/articles/s41467-021-25805-y
公开的资料:
- trans-eQTLs:https://www.eqtlgen.org/trans-eqtls.html
- GWAS summary数据:https://grasp.nhlbi.nih.gov/;http://www.nealelab.is/uk-biobank/;
- 小鼠表型数据:https://phenome.jax.org/projects/Auwerx1
- 小鼠表达数据:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60149
- code: https://github.com/eleporcu/revTWMR
三、其他文献推荐
下面的文献也挺精彩的,但由于下不到原文,或博主时间有限,没法精细解读,故列出来供各位参阅;
当然,你们有精彩的文献想让我解读的(前提是一周内刚出炉的文献),可给我发pdf(然而可能种种原因,我不一定有时间解读,不要对我抱太高期待);
文献题目: Proteogenomic characterization of pancreatic ductal adenocarcinoma
不想看英文题目: 胰腺导管腺癌的蛋白质组学特征
杂志和影响因子: Cell (IF: 38.637; Q1)
文章链接:
https://www.cell.com/cell/fulltext/S0092-8674(21)00997-1
文献题目: Investigating the shared genetic architecture between multiple sclerosis and inflammatory bowel diseases
不想看英文题目: 多发性硬化症和炎症性肠病之间的共同遗传结构研究
杂志和影响因子: Nat Commun (IF: 12.121; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-25768-0
文献题目: A longitudinal sampling study of transcriptomic and epigenetic profiles in patients with thrombocytopenia syndrome
不想看英文题目: 血小板减少综合征患者的转录组和表观遗传组的纵向抽样研究
杂志和影响因子: Nat Commun (IF: 12.121; Q1)
文章链接:
https://www.nature.com/articles/s41467-021-25804-z
文献题目: Polygenic Risk Scores for Kidney Function and Their Associations with Circulating Proteome, and Incident Kidney Diseases
不想看英文题目: 肾脏功能的多基因风险评分与循环蛋白质组和肾脏疾病的关联
杂志和影响因子: J Am Soc Nephrol (IF: 10.12; Q1)
文章链接:
https://pubmed.ncbi.nlm.nih.gov/34548389/
四、工具或资源类介绍
文献题目: Enhancing discoveries of molecular QTL studies with small sample size using summary statistic imputation
不想看英文题目: 如何在小样本量的情况下增加 QTL 的检测数量
杂志和影响因子: Brief Bioinform (IF: 11.62; Q1)
文章链接:
https://pubmed.ncbi.nlm.nih.gov/34545927/
文献题目: COVID19db: a comprehensive database platform to discover potential drugs and targets of COVID-19 at whole transcriptomic scale
不想看英文题目: COVID19db:在转录组范围内发现 COVID-19 潜在药物和靶点的数据库
杂志和影响因子: Nucleic Acids Res (IF: 11.501; Q1)
文章链接:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab850/6374481
文献题目: Animal-eRNAdb: a comprehensive animal enhancer RNA database
不想看英文题目: Animal-eRNAdb: 动物增强子RNA数据库
杂志和影响因子: Nucleic Acids Res (IF: 11.501; Q1)
文章链接:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab832/6374163
文献题目: PlantGSAD: a comprehensive gene set annotation database for plant species
不想看英文题目: PlantGSAD: 植物的基因集注释数据库
杂志和影响因子: Nucleic Acids Res (IF: 11.501; Q1)
文章链接:
https://doi.org/10.1093/nar/gkab794
文献题目: timeOmics: an R package for longitudinal multi-omics data integration
不想看英文题目: timeOmics:用于纵向多组学数据集成的 R 包
- 该 R 包可识别与时间密切相关的分子特征
杂志和影响因子: Bioinformatics (IF: 5.61; Q1)
文章链接:
https://doi.org/10.1093/bioinformatics/btab664
文献题目: CIndex: Compressed indexes for fast retrieval of FASTQ files
不想看英文题目: CIndex:快速索引以及高效压缩 FASTQ 文件的工具
杂志和影响因子: Bioinformatics (IF: 5.61; Q1)
文章链接:
https://doi.org/10.1093/bioinformatics/btab655
致谢橙子牛奶糖(陈文燕),请用参考模版:We thank the blogger (orange_milk_sugar, Wenyan Chen) for XXX
感谢小可爱们多年来的陪伴, 我与你们一起成长~