Journal Club - 2020.9.15
Genome Biology - 2020, Volume 21
1
全基因组关联研究(genome-wide association studies, GWAS)已经确定了单核苷酸多态性(SNPs)和人类复杂性状之间数以万计的独特关联。大多数特征相关的SNP效应小,而且很多位于非编码区。许多SNP可能通过它们对表达水平和/或其他“组”性状的影响来影响复杂的性状。
芝加哥大学的Lin S. Chen团队发表文章Primo: integration of multiple GWAS and omics QTL summary statistics for elucidation of molecular mechanisms of trait-associated SNPs and detection of pleiotropy in complex traits,
他们提出了一种方法Primo,利用来自不同细胞条件或研究的多套组学QTL汇总统计数据综合分析GWAS汇总统计数据,对与已知特征相关的SNP如何影响复杂性状提供一个全面的机制上的解释,并将Primo应用于检查已知易感性位点的分子机制并检测和解释多效性效应。
2
理解基因对基因表达的影响对于描述基因调控景观和表型的分子基础是至关重要的,利用基因型和基因表达数据进行的表达定量性状位点(Expression quantitative trait locus, eQTL)研究表明,基因表达的遗传调控是普遍存在的。约翰霍普金斯大学的Alexis Battle团队发表文章sn-spMF: matrix factorization informs tissue-specific genetic regulation of gene expression,他们开发了一个约束矩阵因子分解模型sn-spMF,通过表达数量性状位点(expression quantitative trait loci, eQTLs)揭示基因表达的基因调控所表现出的复杂的组织特异性作用模式,可以用于学习生物学上可解释的eQTL组织特异性模式,并生成可测试的机制假设。
3
等位基因表达(AE,也称为等位基因特异性表达或ASE)分析是一种强大的技术,可以用来测量基因等位基因在单个个体中的相对表达。这使得它非常适合利用杂合个体中等位基因之间的不平衡来测量顺式作用的调控变化。它既可以捕获常见的顺式调控变异,如表达数量性状基因座(expression quantitative trait loci, eQTLs),也可以捕获罕见的调控变异。纽约基因中心的Tuuli Lappalainen团队发表文章A vast resource of allelic expression data spanning human tissues,演示了GTEx v8版本产生的大量的AE资源的效用,此外,他们开发了phASER工具的扩展,可以通过单倍型AE数据来估算顺式调控变量的效应大小。这个AE资源是迄今为止规模最大的,并且他们能够使单倍型水平的数据公开。他们预计,这一资源的可用性将使未来研究人类组织间的调节变异成为可能。
4
在过去的二十年里,全基因组关联研究(GWAS)已经鉴定了大量与复杂性状和疾病[1]相关的基因位点。然而,大多数GWAS位点位于基因组的非编码区,我们对这些关联背后的机制和因果关系仍缺乏了解。从基因型到复杂性状的因果路径的直接实验调查(例如使用CRISPR对人体进行随机对照实验)受到技术困难和伦理约束的限制。密歇根大学的Xiaoquan Wen团队发表文章PTWAS: investigating tissue-relevant causal molecular mechanisms of complex traits using probabilistic TWAS analysis,提出了一个新的计算框架,概率转录全关联研究(PTWAS),以调查基因表达和复杂性状之间的因果关系。PTWAS应用工具变量分析的既定原则,并利用eQTL的概率注释来描述和解决TWAS中出现的独特挑战。PTWAS不仅比现有方法更强大,而且还提供了新的功能来评估因果假设和估计组织或细胞类型特异性基因-性状效应。
5*
由于成本和后勤方面的原因,迄今几乎所有的全基因组DNA图谱都是在由许多不同细胞类型组成的复杂组织中进行的,这可能妨碍分析,并阻碍识别潜在疾病的细胞类型特异性变化。原则上,单细胞技术可以较好的解决细胞类型异质性带来的问题,然而,在DNA甲基化水平上生成单细胞图集目前对大多数组织来说是不可行的,因为目前的单细胞DNA甲基化技术只生成非常稀疏的数据,细胞/样本数量相对较少,且成本较高。
伦敦大学的Andrew E. Teschendorff以及中科院上海生物科学研究所的Tianyu Zhu等人发表文章EPISCORE: cell type deconvolution of bulk tissue DNA methylomes from single-cell RNA-Seq data,提出了EPISCORE,一种计算算法,对任何实体组织在单细胞型分辨率下的大块组织DNA甲基化数据进行虚拟微解剖。EPISCORE将基因调控的概率表观遗传模型应用到单细胞rna序列组织图谱中,以生成组织特异性DNA甲基化参考矩阵,允许对大量组织数据中的细胞类型比例和细胞类型特异性差异甲基化信号进行量化,并且已在多个表观基因组研究和组织类型中验证了EPISCORE。
6
增强子是基因表达的远端调节因子,它决定细胞的身份和控制细胞命运的转变。在小鼠胚胎干细胞(mESCs)中,多潜能网络是由一个复杂的增强子网络的功能来维持的,这些增强子在分化时发生了剧烈的改变。全基因组染色质可及性和组蛋白修饰测定常被用作鉴定假定增强子和描述其活性水平和动态的代理。拉德堡德大学的Wout Megchelenbrink团队发表文章STARR-seq identifies active, chromatin-masked, and dormant enhancers in pluripotent mouse embryonic stem cells,应用STARR-seq,一种基于全基因组质粒的分析方法。该分析显示,主动STARR-seq位点与来自常用增强子标记的ChIP-seq库的峰值调用的增强子位置有适度的重叠。我们揭示了在SL-ESCs中具有显著STARR-seq活性的zic3结合位点;STARR-seq也揭示了增强子是无法接近的,被抑制性染色质信号所掩盖。
7*
单细胞RNA测序(scRNAseq)和相关的分析方法正在快速发展,社区里提供了560多种软件工具,其中大约一半用于数据处理相关的任务,如聚类、排序、降维或归一化。随着新的测序技术的发展,以及报道的细胞、基因和细胞种群数量的增加,可用工具数量的增加也随之而来。由于数据处理是任何scRNAseq分析的关键步骤,影响下游的分析和解释,因此评估可用的工具是至关重要的。苏黎世大学的Mark D. Robinson团队发表文章pipeComp, a general framework for the evaluation of computational pipelines, reveals performant single cell RNA-seq preprocessing tools,提出了pipeComp,一个灵活的R框架。
pipeComp是一个灵活的管道比较框架,用于处理分析步骤之间的交互,并依赖于多层次的评估指标。作者利用已知细胞身份的模拟和真实数据集,将其应用于单细胞rna测序分析管道的基准,包括常用的滤波、双重检测、归一化、特征选择、去噪、降维和聚类等方法,并将其应用于从初始计数矩阵到聚类分配的各种分析步骤的评估。该方法可以评估管道上的嵌套变化,而不是孤立地评估每个步骤,并提出了多层次的度量标准。pipeComp可以很容易地集成任何其他步骤、工具或评估度量,从而允许可扩展的基准且易于应用到其他领域。
附pipeComp源代码:https://github.com/plger/pipeComp
8
近年来,随着高通量测序技术的快速发展,测序成本大大降低。由于细胞器基因组在单个细胞中的拷贝数较高,从低覆盖率的全基因组测序(whole genome sequencing, WGS)数据中获得足够的reads来组装完整的细胞器基因组是可行的。中科院昆明植物研究所的De-Zhu Li团队发表文章GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes,GetOrganelle是一个先进的工具集,可以从整个基因组测序数据中精确地组装细胞器基因组。它使用一种改进的“诱饵和迭代映射”方法招募与细胞器相关的读取,进行从头组装、过滤和分离组装图,并生成所有可能的圆形细胞器基因组构型。对于50个已发表的植物数据集,可以使用GetOrganelle从47个数据集重新组装环状质体。通过作图评估,GetOrganelle组装比已发表的和/或未重组的质体更准确。他们也使用GetOrganelle组装了完整的线粒体基因组。
9
与蛋白质、多糖和脂类相比,我们对细胞表面rna的了解要少得多。加州大学圣迭戈分校的Sheng Zhong团队发表文章Natural display of nuclear-encoded RNA on the cell surface and its impact on cell interaction,开发了一种称为表面测序的技术,可以选择性地对maxRNAs进行测序,并通过RNA荧光原位杂交验证两个表面测序鉴定的maxRNAs。为了测试maxRNA的细胞型特异性,他们使用反义寡核苷酸与暴露在人外周血单核细胞(PBMCs)表面的单链转录本杂交。结合成像流式细胞术、单细胞RNA测序和maxRNA测序,他们确定了单核细胞为maxRNA+ PBMCs的主要类型,并对11个候选maxRNAs进行了优先排序,以进行功能测试。细胞外应用FNDC3B和CTSS转录本反义寡聚物抑制单核细胞粘附于血管内皮细胞。总的来说,这些数据强调了maxRNAs是细胞表面的功能成分,表明RNA在细胞-细胞和细胞-环境相互作用中发挥了更大的作用。
10*
表观遗传数据本质上是高维的,通常很难解释。由于高维性,将个体基因组位点分组到共享功能注释的集合中是很常见的,比如结合特定的转录因子。这些基因组位点集合,或区域集合,类似于更常见的基因集合,但放宽了数据必须以基因为中心的限制。表观遗传学的一个关键挑战是确定个体间表观遗传变异的生物学意义。弗吉尼亚大学的Nathan C. Sheffield团队发表文章COCOA: coordinate covariation analysis of epigenetic heterogeneity,提出了协调共变分析(COCOA),这是一个计算框架,使用个体间表观遗传信号的共变和一个区域集数据库来注释表观遗传异质性。COCOA是第一个用于DNA甲基化数据的工具,也可以用基因组坐标分析任何表观遗传信号。他们通过在监督和非监督分析中分析DNA甲基化、ATAC-seq和多组数据来证明COCOA的效用,表明COCOA为样本间表观遗传变异提供了新的理解。
附COCOA代码:http://bioconductor.org/packages/COCOA