基于单细胞表观基因组学表征顺式调控元件
几个概念
顺式调控元件[Cis-regulatoryelements (CREs)]: 调控同一染色体上的基因转录的非编码DNA序列。它们包括增强子(enhancers)、启动子(promoters)、绝缘子(insulators)、silencing elements和tethering elements。不同的molecular marker组合可以鉴定不同类别的CREs,包括染色质可及性和表观遗传修饰等。
启动子(Promoters):位于基因转录起始位点的CREs。
增强子(Enhancers):可以从很远的基因组距离激活目标基因表达的CREs,该距离从几千个碱基到数百万个碱基对。这些元件位于靶基因启动子的上游或下游。
绝缘子(Insulators):位于增强子和启动子之间,阻止增强子激活靶基因的CREs。绝缘子也指可以防止异染色质扩散到常染色区域的边界元素(boundary elements)。
Silencer elements: 位于靶基因转录起始位点附近或较远的一种CREs。Silencer elements与抑制性转录因子结合以使基因表达失活。
Tethering elements: 将激活基因的启动子和增强子系在一起的CREs。
染色质(Chromatin): DNA和组蛋白的复合物。染色质的基本单位是核小体。
组蛋白修饰(Histone modifications): 组蛋白上的共价修饰,例如甲基化、乙酰化、磷酸化、泛素化和苏木酰化,这些修饰发生在赖氨酸、丝氨酸、苏氨酸、精氨酸和其他残基上。CREs的活性与这些修饰的writers、erasers和readers的活性直接相关。
表观基因组(Epigenome): 来自相同基因组序列的不同基因表达模式能够稳定传播的组合特征(The combined features that enable stable propagation of different gene expression patterns from the same genome sequence)。包括胞嘧啶碱基的DNA甲基化(mC)、组蛋白的化学修饰、染色质可及性和高级染色质结构。
3D染色质组织(3D-chromatin organization): 细胞核内染色质纤维的折叠,其决定了基因和CREs之间的空间接近度。虽然细胞类型复杂且多变,但染色质组织表现出某些共同特征,包括A/B区室(A/B compartments)、拓扑关联域(topologically associating domains)和环(loops)。
人类基因组序列发布后不久,就展开了在基因组中注释CREs的工作;但很快就发现,仅靠序列信息不足以识别并描述CREs在每种细胞类型和发育阶段的活性。比如,启动子和增强子通过与其他转录因子和/或染色质相关的序列特异性转录因子的相互作用,以细胞类型特异性方式指导基因表达的时空模式来重塑复合物以促进基因转录。然而,这些相互作用也受到表观遗传机制的调节,比如染色质可及性(可由DNase-seq/ATAC-seq获知)、DNA甲基化(可由WGBS获知)和组蛋白修饰(可由ChIP-seq获知)。启动子和增强子的转录调控还取决于它们在细胞核内的空间组织——真核细胞核中的染色质纤维折叠形成TADs(可由CTCF-ChIP-seq获知),其中的绝缘子促进同一TAD内的增强子和启动子之间的相互作用,并减少了不同TAD中的启动子和增强子接触。
Roadmap Epigenome Project及ENCODE已经汇集了数百种组织样本、原代细胞或细胞系的表观基因组数据,并注释了数百万个候选CREs(candidate CREs, cCREs)。尽管取得了这些进步,但现有的人类基因组cCREs目录仍有不足——缺乏细胞类型分辨率。虽然部分可以通过单细胞分析进行解决,但只有大量存在且具有良好表征的表面标志物的细胞类型(如血细胞)才能进行足够数量的分选/分离用以进行后续分析。更甚者,稀有或未发现的细胞类型将不会被分析到,这就导致很难获得完整的CREs。
单细胞表观基因组技术(Single-cell epigenomic technologies)的发展提供了一种克服这些限制的方法——通过研究CREs的染色质状态变化与特定细胞类型的基因表达之间的关系,从而生成更全面的CREs目录。
单细胞表观基因组技术可以分为三种策略:
1) Bulk检测技术的小型化,即将单个细胞或细胞核分布到管或微孔中,或将其捕获在微流控反应室内。每个细胞都用寡核苷酸形式的DNA条形码标记,然后将所有单细胞文库汇合起来进行测序。这些方法的通量在几百至几千个细胞,且每个细胞的成本相对较高;但这些方法所产生的文库具有较高的覆盖率,非常适合分析有限细胞数目(如早期胚胎)的样品。
2) 基于液滴的微流控平台,即通过微流控平台的高流速实现一个细胞(或细胞核)与一个带有DNA条形码标记的beads同时被捕获于一个液滴中。该方法的商业化使得其使用范围最广,且一个文库能够对多达50,000个细胞进行分析。
3) 使用组合索引实现单细胞的高通量检测,即将细胞分配到微孔板中,每孔中含有一组细胞而不是单细胞;同一孔中的细胞都有相同的DNA条形码;一轮索引结束后,所有孔的细胞被合并并重新分配到一组新的微孔板中,以进行另一轮索引;最后通过索引的组合定义单细胞。该方法优势在于可以通过增加索引轮次或增加每轮索引的数量来提高通量。与基于液滴的商业方法相比,该方法的一个优势是其成本相对低廉。但该方法的实验操作通常很复杂,且所需的试剂(如Tn5酶)成本和批次差异很难保证。
近年来基于以上三种单细胞策略的方法层出不穷,初始版本是表征单一表观基因组特征(如DNA甲基化、染色质可及性)的技术,最新的版本则是在同一细胞中并行分析多个表观基因组特征和/或转录组。
表征单一表观基因组特征的技术:
同一细胞中并行分析多个表观基因组特征和/或转录组的技术:
参考文献:Preissl, S., Gaulton, K.J. & Ren, B. Characterizing cis-regulatory elements using single-cell epigenomics. Nat Rev Genet (2022). https://doi.org/10.1038/s41576-022-00509-1