2022-07-25

Nat Rev | 单细胞表观基因组学揭秘顺式调控元件

原创 huacishu 图灵基因 2022-07-25 11:03 发表于江苏

收录于合集#前沿生物大数据分析


撰文:huacishu

IF=59.581

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者重点介绍了单细胞表观基因组方法和分析工具的最新进展,并讨论了它们对人体组织分析的情况;

2、作者概述了单细胞分析的一般技术原理,并讨论了用于分析不同表观基因组特征的实验性单细胞平台的现状,特别侧重于CRE注释方法。还讨论了用于处理单细胞表观基因组数据集和表征CREs细胞类型特异性活性的分析工具。


加州大学圣地亚哥分校Bing Ren教授课题组在国际知名期刊Nat Rev Genet在线发表题为“Characterizing cis-regulatory elements using single-cell epigenomics ”的论文。发育过程中或疾病中的细胞类型特异性基因表达模式由顺式调控元件(CREs)控制,如启动子和增强子。不同类别的CREs可以通过其表观基因组特征来表征,包括DNA甲基化、染色质可及性、组蛋白修饰的组合和局部染色质的构象。使用大量转录组学和表观基因组学方法对人类基因组中的CREs进行编目已经取得了巨大进展。然而,单细胞表观基因组和多组学技术有可能提供对细胞类型特异性基因调控程序的更深入了解。在此,作者重点介绍了单细胞表观基因组方法和分析工具的最新进展,并讨论了它们对人体组织分析的情况。


时空和细胞类型特异性基因表达模式由称为顺式调控元件(CREs)的DNA序列控制。详细了解基因组中的每个CRE将有助于描绘控制物种发育、细胞分化和适应环境的基因调控程序。这样的理解对于深入了解不同物种的特征进化以及解释与人类疾病和复杂特征相关的非编码风险变体数量的增长也至关重要。启动子和增强子通过与序列特异性转录因子的组合相互作用以细胞类型特异性的方式指导基因表达的时空模式。然而,这些相互作用也受到表观遗传机制的调节,包括染色质可及性,可以使用DNase I-超敏位点测序(DNase-seq)和转座酶可及染色质测序(ATAC-seq)等方法对其进行分析;DNA甲基化,可使用全基因组亚硫酸氢盐测序(WGBS)分析;组蛋白修饰,可以使用染色质免疫沉淀和测序进行分析(芯片序列)。几项大规模研究,对数百个组织样本、原代细胞或细胞系的表观基因组进行了分析,以注释人类基因组中数百万个候选CREs(CCRe)。基于染色质可及性、DNA低甲基化和某些组蛋白修饰,所得CCRe被分类为启动子样或增强子样元件;H3K4me1用于平衡、启动和活化增强子(图1)。这些CCRe目录与染色质相互作用图谱相结合,为研究人类和其他物种不同组织和细胞类型中的基因调控提供了宝贵的资源,有助于建立非编码DNA变体在人类疾病病因和复杂性状中的关键作用,并提供了解释此类变体的框架。


尽管取得了巨大进展,但现有的人类基因组cCRE目录仍存在一些局限性。许多目录缺乏细胞类型分辨率,因为数据集是从未排序的组织生成的。此外,只有数量较多且具有良好特征的表面标记(如血细胞类型)的细胞类型才能进行足够数量的分类和分离,以进行大量表观基因组分析,而罕见或无特征的细胞类型则无法进行分析(图2a)。在体内细胞数量受到限制的情况下,使用了体外原代细胞或癌细胞系,但由于转化或培养条件,这些细胞或癌细胞系不能完全重现体内的调节景观。单细胞表观基因组技术的发展提供了一种克服其中一些局限性的方法,通过生成更全面的CREs目录,可以研究CREs染色质状态变化与原代组织中特定细胞类型的基因表达之间的关系。这些方法可以克服细胞异质性,揭示不同生理或病理条件下的细胞状态,允许检测未知或罕见的细胞类型,并揭示细胞类型特异性差异和动力学。例如,特定于单元类型的配置文件可以帮助揭示在批量数据集中检测到的低信号是来自有限数量的单元类型中的高信号还是来自样本中大多数单元类型中的低信号(图2b)。在这篇综述中,作者概述了单细胞分析的一般技术原理,并讨论了用于分析不同表观基因组特征的实验性单细胞平台的现状,特别侧重于CRE注释方法。还讨论了用于处理单细胞表观基因组数据集和表征CREs细胞类型特异性活性的分析工具。

单细胞表观基因组技术

单细胞表观基因组学的一般策略

单细胞技术通常可分为三类。第一组涉及传统批量分析的小型化版本,其中单个细胞或细胞核被分拣或分布到微孔中,或被捕获到微流控反应室中(图3a)。每个细胞都用寡核苷酸形式的DNA条形码进行标记,然后将得到的唯一标记的单细胞文库结合起来进行测序。第二组方法利用基于液滴的微流控平台的快速流速,实现每个库高达10000个细胞的处理量。在这些方法中,条形码发生在液滴中,每个液滴包含一个细胞(或细胞核)。液滴通常在库生成之前分解(图3b)。第三组方法使用单细胞组合索引来实现类似于或高于基于液滴的方法的处理量(图3c)。在这种方法中,细胞分布在微滴定板中,每个孔包含一组细胞而不是单个细胞;同一孔中的所有细胞都标记有相同的条形码。在每一轮索引后,来自所有孔的细胞被合并并重新分配到一组新的微滴定板中,用于另一轮索引。测序读取根据索引组合分配给单个单元格。(图3c)。近年来,所有三种单细胞策略都被用于开发分析不同表观基因组特征的方法,包括DNA甲基化、染色质可及性、组蛋白修饰和染色质相互作用。最初是为了一次评估一种模式而开发的,现在的进展可以对同一细胞中的多个表观基因组特征和转录组进行并行分析。理想的单细胞分析将捕获所有可通过单个细胞中给定的表观遗传标记识别的调控元件,并能够并行分析数千个细胞。近年来,单细胞分析主要侧重于提高每个样本的细胞检测量,这是通过基于液滴和组合条形码的方法实现的。这些进展特别有助于分析复杂组织,如大脑。另一方面,当细胞总数有限时,如在胚胎发育中,最大限度地扩大每个细胞的覆盖率是至关重要的。单细胞分析的另一个重要方面是其特异性,即其能够在包含感兴趣的表观遗传特征的区域中传递高比例的读取,而在缺乏该特征的区域中传递低读取数。最后,最初使用细胞系、外周血单个核细胞(PBMC)的单细胞悬浮液或单个组织开发的分析通常需要进一步优化,以应用于不同的组织或样品储存条件。

DNA甲基化的单细胞分析

CpG二核苷酸中的5′-甲基胞嘧啶(5mC)是动物基因组中DNA甲基化的主要形式。在哺乳动物细胞中,胞嘧啶甲基化水平由DNA甲基转移酶(DNMT1、DNMT3a和DNMT3b)和甲基胞嘧啶双加氧酶的TET家族调节,它们在去甲基化过程中起着核心作用。长期以来,DNA甲基化一直被认为在基因表达中起抑制作用。因此,CREs的甲基CpG水平通常与其使用和活性呈负相关,导致使用低水平或缺乏胞嘧啶DNA甲基化来识别哺乳动物基因组中的活性或引物CREs(图1b)。相比之下,最近的研究发现了DNA甲基化和转录因子与DNA结合之间更复杂的关系。虽然胞嘧啶甲基化可以阻止许多转录因子与DNA的结合,但也可能促进其他转录因子与DNA的结合。此外,在胚胎干细胞和许多神经细胞类型中观察到非CG背景下的胞嘧啶甲基化,在这种情况下,它似乎通过招募阻遏蛋白(如MeCP2)来介导局部转录抑制。因此,胞嘧啶甲基化的全基因组、碱基对解析图谱不仅对注释候选CREs很重要,而且对了解其对转录因子结合或基因表达的影响也很重要。

染色质可及性的单细胞分析

非活性CREs通常嵌入紧密的染色质纤维中,转录因子无法进入。转录因子与CREs处的核小体DNA的结合启动了核小体重塑复合物的募集,导致局部核小体的置换,从而使额外的转录因子与CREs结合,在启动子处组装转录机制,并在特定细胞谱系中转录基因。活性CREs处核小体的置换也使潜在DNA易受核酸内切酶(如DNase I)的消化或转座酶(如Tn5)产生的双链断裂的影响。因此,用这些酶处理染色质,然后进行高通量DNA测序,如DNase-Seq和ATAC-Seq,已广泛用于探测染色质可及性和识别特定细胞或组织类型中的活性CREs(图1b)。单细胞染色质可访问性分析已被广泛采用,这些方法将有助于大规模的绘图工作,例如人类细胞图谱,通过促进跨数百个样本的数百万个细胞的经济高效的并行分析,以揭示仅在非常罕见的细胞类型中可获得(并且可能具有活性)的CRE,并揭示发育或疾病期间CCRE的动态。因此,这些技术将在广度和深度上扩展当前的单细胞染色质可及性图谱。

组蛋白修饰和转录因子结合的单细胞分析

组蛋白的共价修饰,包括H2A、H2B、H3、H4及其变体,是转录调控不可或缺的组成部分。培养细胞或组织中的组蛋白修饰图谱显示,启动子与H3K4me3相关,而增强子与H3K4me1相关。这两类CREs还与其他组蛋白修饰相关,这些修饰可以提供有关其激活状态的进一步信息。因此,组蛋白修饰的全基因组分析有助于识别潜在的CRE并表征其活性(图1b)。ChIP-seq长期以来被用于分析大样本中的组蛋白修饰和转录因子结合。在这种程序中,识别特定组蛋白修饰或转录因子的抗体用于在高通量DNA测序之前通过免疫沉淀从核提取物中富集结合的染色质片段。然而,染色质免疫沉淀的效率可能较低,因此对单个细胞进行芯片序列分析尤其具有挑战性。

染色质结构的单细胞分析

间期细胞核中的染色体折叠成域(TAD和亚TAD),这种3D染色质组织使远端增强子能够在空间中靠近其目标基因启动子。TAD在早期胚胎发生过程中形成,并在发育过程中稳定维持。在分裂细胞中,TAD在有丝分裂过程中消失,并在G1早期重新建立。TAD被认为通过促进相同TAD内启动子和增强子之间的接触,同时减少位于不同TADs3中的启动子和增强子之间相互作用的机会,从而有助于发育调节基因表达(图1b)。因此,了解染色质结构可以帮助识别CRE靶基因。迄今为止,由于成本高、吞吐量有限和数据稀疏,单细胞染色质构象分析尚未被广泛用于组织分析。此外,细胞类型特异性接触的有限知识阻碍了分析,这些接触可以作为细胞类型注释的标记,与标记基因表达或标记基因位点处的可访问染色质相当。

单细胞多组学分析

一次对一种模式进行分子分析的大量单细胞表观基因组技术为深入了解不同样本和细胞类型中的基因调控提供了帮助。然而,单模态数据集只能提供不同表观遗传修饰和基因表达之间复杂相互作用的部分图片。分析来自同一细胞的多种模式可以帮助我们更好地理解CRE活性和基因表达之间的关系或不同表观遗传学特征之间的关系。多模式分析可以帮助解决CRE活性和基因表达不直接相关的情况。例如,可以在不改变基因表达的情况下调节CRE或一组CRE的活性,或者CRE活性和基因表达的变化可能在发育或早期疾病阶段的不同时间尺度上发生。此外,多组学数据也有助于将不同的模式映射到一个共同的参考,例如大型单细胞转录组学图谱。因此,许多多组学分析旨在检测基因表达和表观基因组标记。

单细胞表观基因组数据分析

单细胞表观基因组数据提出了独特的分析挑战,包括高维度和稀疏性、显著的细胞间变异性和频繁的批量效应。因此,无法直接使用从传统的整体表观基因组分析中绘制和表征CREs的方法,需要新的分析策略。单细胞表观基因组数据分析通常可分为三个主要任务:数据处理和聚类、与其他单细胞模式的集成以及CCRE的识别和表征。

数据处理和细胞聚类

在数据处理和聚类中,来自单细胞表观基因组分析的原始序列数据被翻译成对应于细胞类型或谱系的聚类(图4a)。原始序列数据的初始预处理使用DNA条形码将读取分配给单个细胞,并根据读取深度或信噪比测量值(例如转录起始位点富集)过滤出低质量的细胞或细胞核。然后对产生的细胞进行“批量”和单个细胞的质量控制检查,并取决于所分析的特定类型的表观基因组数据。然后,进一步的预处理通过特征将读取片段转换为细胞的读取计数矩阵。转换得到的矩阵可以用于保留区域的子集,例如,具有最强信号或最高可变性的区域。

与其他单细胞模式的整合

单细胞表观基因组图谱可以与其他分子模式相结合,例如转录组、蛋白质丰度或其他表观基因组数据类型,与单细胞表观基因组数据模式相比,提高了细胞类型和亚类型识别的分辨率。跨通道数据集成有两种主要形式,“垂直”和“对角”,这取决于数据分别是从相同的单元还是从不同的单元生成。

CCRE的识别和表征

接下来通过定义CCRE,并获得对细胞类型特异性基因调控的生物学见解(图4b,c)。下游分析可以使用与处理和聚类相同的分析包(如Signac、ArchR和SnapATAC)执行,也可以使用为特定分析开发的独立工具。在单细胞表观基因组分析定义的每个细胞类型簇中,典型的任务是识别基因组区域或“峰”,细胞类型中有丰富的信号。这些峰被认为是CCRE,因为它们的分子功能需要进一步表征。识别CCRE的标准包括通过聚集对该细胞类型的读取,然后应用为常规批量分析开发的计算方法,将单个细胞轮廓转换为每种细胞类型的轮廓。此外,可以跨细胞类型比较cCREs的活性,以识别在特定细胞类型或一组细胞类型中信号比其他细胞类型更强的cCREs,这可以揭示调控特殊细胞过程的一组cCREs。鉴定cCRE的单细胞表观基因组分析的一个关键步骤是确定每种细胞类型中cCRE活性的转录调节因子。例如,chromVAR通过确定包含给定基序的峰之间的细胞相对可及性,与细胞之间的平均可及性相比,在每个细胞的可访问染色质轮廓中执行序列基序富集。跨细胞富集变异性高的序列基序表明,相对于其他细胞类型,基序优先富集在一种或几种细胞类型中。来自chromVAR的基序富集也可用于与单细胞基因表达数据的整合分析,以识别转录因子基因,其表达与跨细胞或细胞类型的基序富集高度相关。这些结果可以揭示在每种细胞类型中起作用或调节特定CCRE集的转录调节因子,以及在单个细胞中具有丰富活性的转录调节因子,例如,可用于识别细胞类型内异质亚群的调节因子。

结论和未来展望

单细胞表观基因组方法通过提供每个注释元素的细胞类型特异性信息,有望极大地提高我们对基因组中CREs的认识。近年来,检测单细胞表观基因组不同层次的方法发展迅速,包括DNA甲基化、染色质可及性、组蛋白修饰和染色质相互作用。用于分析其中一些特征(如染色质可及性和DNA甲基化)的协议相对成熟,并已广泛用于人类组织分析。相比之下,大多数分析组蛋白修饰或从同一细胞进行多组学测量的方法目前还没有得到很好的发展。健全和广泛共享的协议或价格合理的商业解决方案将是全面了解体内每种细胞类型在发育或疾病阶段的CREs动态活性的基础。跨器官和物种的丰富和罕见细胞类型的单细胞表观基因组图谱改善了这些基因组中CCRE的特征。例如,人类数据集揭示了脑、血液和其他组织中主要细胞类型的亚型和细胞状态之间的差异CCRE,并提出了负责发育和发病过程中细胞状态转换的候选转录调节因子。令人兴奋的是,新的CCRE细胞类型解析目录进一步支持了疾病相关细胞类型的识别,并促进了人类基因组中非编码风险变体的解释。单细胞表观基因组学在生物医学研究和精确医学中的应用仍然面临着几个重要障碍。首先,绝大多数临床生物样本在固定后嵌入石蜡中,这种情况与大多数单细胞表观基因组分析不兼容,通常需要新鲜采集或快速冷冻的组织样本。为了充分利用与存档生物样本相关的临床信息,需要开发与固定后石蜡包埋或其他常见储存条件兼容的稳健单细胞表观基因组技术。其次,目前的单细胞表观基因组方法通常涉及细胞或细胞核的分离和组织背景信息的丢失。为了能够捕获表观基因组图谱以及组织背景信息,需要开发空间表观基因组技术。这些技术可以补充日益增长的空间转录组学技术,以描述表观基因组在特定组织和细胞类型生态位的内环境平衡或疾病发病机制中的作用。第三,现有的单细胞表观基因组技术仅捕获每个细胞的一小部分表观基因组,并且仅捕获输入细胞群的一小部分。对于数量有限或细胞类型非常罕见的临床样本分析而言,提高捕获效率和信息完整性是非常必要的。克服这些障碍将在人类基因组注释和疾病机制理解方面带来进一步飞跃。

教授介绍


BingRen教授正在采用系统生物学的方法,努力了解负责形成各种细胞类型的转录调控程序。他开发了一系列高通量方法和计算算法,用于全面绘制哺乳动物基因组中的转录调控序列和转录因子结合。利用这些工具,现在正在研究人类胚胎干细胞中的基因调控网络,以了解控制这些多能干细胞自我更新和分化的过程。例如,Bing Ren教授已经绘制了人类胚胎干细胞和几种终末分化细胞中的活性启动子、增强子元件。序列分析发现增强子是导致细胞类型特异性基因表达的主要驱动力。他的实验室主要聚焦哺乳动物细胞中复杂的基因调控网络以及如何控制细胞增殖和分化。具体包括:1)开发基因组学和生物信息学工具,允许在全基因组范围内识别转录因子的调控靶点;2)将这些工具应用于研究在癌症中起关键作用的转录因子。

参考文献

Preissl S, Gaulton KJ, Ren B. Characterizing cis-regulatory elements using single-cell epigenomics. Nat Rev Genet. 2022;10.1038/s41576-022-00509-1. doi:10.1038/s41576-022-00509-1

你可能感兴趣的:(2022-07-25)