摘要
十多年前,高通量染色质构象捕获(Hi-C)技术的出现开启了三维基因组学的新纪元。从那时起,解析三维基因组的组织结构的方法与日俱增,使得人们越来越了解DNA是如何包装在细胞核中的,以及基因组的时空组织是如何协调其重要功能的。最近,随着新一代空间基因组学技术的出现,人们已经开始揭示基因组序列和三维基因组结构是如何在不同组织环境中的细胞之间变化的。在本文中,我们系统总结了用于解析基因组拓扑结构的技术和工具在过去十年中的发展情况,并讨论了新技术的发展如何推动三维和空间基因组学领域的发展。
基于成像的三维和空间基因组学的最新方法
早期基于成像技术的研究发现,成为了我们目前对三维基因组组织和细胞核结构理解的基石。目前,许多基于显微成像的三维基因组学研究方法都是建立在FISH技术基础上的,FISH等一系列技术的出现使得染色体疆域的发现成为可能,并激发了人们对基因组组织结构领域的研究[13,52]。然而,随着基于3C相关技术的出现,特别是4C和Hi-C,FISH方法在细胞和基因组通量方面都显著落后了,这就需要人们对这一领域进行重大的技术革新。目前,得益于低成本合成FISH探针的新方法,包括高清晰度DNA FISH (HD-FISH) [53]和Oligopaint FISH [54–56],以及后文中描述的高通量多路复用FISH方法等,人们又开始对FISH技术产生巨大的兴趣,并再一次推动了三维基因组学领域的研究发展。
高通量多路复用FISH方法主要依靠微流控系统实现寡核苷酸(oligos)的连续多轮杂交和成像,从而实现对数百至数千个单细胞中的许多DNA位点进行可视化。多路复用FISH通常采用两步检测的方法来进行实现,首先目标靶序列被携带有短(~ 12–20nt)正交序列的未标记的靶特异性寡核苷酸(~ 30–40nt)识别,随后进一步被与短正交序列互补的荧光染料标记的次级寡核苷酸识别。其中,正交序列的数量和长度以及它们的位置在不同的方法中有所不同。每次成像后,都要去除上一轮杂交中的荧光信号,这可以通过剥离荧光染料标记的次级寡核苷酸,或漂白或裂解与次级寡核苷酸共轭的荧光染料来实现。与HD-FISH探针相反,它们采用经济有效的PCR扩增方式直接从感兴趣的物种中提取基因组DNA[53]。其中,寡核苷酸探针通过PCR扩增从合成的寡核苷酸池(oligopools)中产生,该方法首先被描述为生产Oligopaint探针[54–56]。目前,人们已经设计了多种原始Oligopaint探针的替代方案,以进一步增加多路复用的通量和成本效益[57–61]。在下文中,我们总结了过去十年中出现的主要基于寡核苷酸探针的FISH分析方法,用于在单细胞水平以高空间分辨率解析三维基因组的组织结构特征。目前,已有多个计算工具可用于帮助设计这些寡核苷酸探针,包括OligoMiner [62],iFISH [59],ProbeDealer [63],Chrous2[64],以及PaintSHOP [65]等。
基于多重寡核苷酸探针的FISH技术可用于重建DNA长片段的轨迹,这个过程称为染色质示踪(chromatin tracing)[66]。染色质示踪技术通常在第一轮杂交中同时杂交非荧光靶特异性探针,随后使用自动微流体装置通过荧光标记的次级寡核苷酸序列识别用相同正交序列标记的各组寡核苷酸。随后对每组图像中检测到的单个信号进行计算拟合,以解析细胞核中单个DNA分子的3D折叠轨迹。值得注意的是,因为信号存在重叠现象,如果同时对所有的基因座进行可视化,这是不可能的。2016年发布的第一个染色质示踪实验,其分辨率达到了1–4 Mb [67],这与最初Hi-C实验的分辨率相当[4]。几年后,人们又开发了更精细版的染色质示踪技术。2018年研究人员首次建立了人类细胞中的超分辨率染色质示踪实验,当时人们使用Oligopaint探针和基于单分子显微镜定位(SMLM)的STORM技术相结合,对21号染色体上的多个1.2–2.5 Mb区域中的内部(亚)TAD结构进行染色质示踪,最终达到了千碱基和纳米级的分辨率[68]。大约在同一时间,研究人员还使用OligoSTORM和OligoDNA-PAINT技术进行连续的多轮成像,对19号染色体上的8 Mb区域进行超高分辨率的染色质示踪,以实现对大小从几千个碱基到超过1 Mb的基因组结构进行可视化[69]。并且,使用基因组区域整合模型(IMGR)将这些成像数据和来自相同细胞的Hi-C图谱进行整合分析,可以将基因组的分辨率提高至10 kb [69]。此后,人们先后使用不同尺度的染色质示踪技术绘制了果蝇胚胎的基因组结构图谱[70,71],以及秀丽隐杆线虫在胚胎发育过程中的全染色体结构图谱[72,73]。在构建果蝇胚胎的基因组结构图谱时,除了使用染色质示踪技术,人们还引入了Hi-M [70]和染色质结构光学重建(ORCA) [71]技术。这些技术使得能够以17 kb的分辨率对22个DNA位点和Hi-M中的一个RNA靶标进行成像[70],以及ORCA中10 kb的70个DNA位点和2 kb的52个DNA位点以及29个不同的RNAs进行成像[71]。这些方法共同为多模式成像技术的开发铺平了道路,在多模式成像技术中,人们使用免疫荧光(IF)将多路复用的DNA FISH与RNA FISH和蛋白质可视化相结合,以识别核界标和组蛋白修饰(Figure 2a)。目前,做到这一点的第一个方法是核小体结构多重成像技术(MINA)[74,75],该方法结合了多尺度染色质追踪(1 Mb分辨率的50个DNA位点和5 kb分辨率的19个DNA位点)和RNA FISH对19号染色体中的137个靶标进行可视化,以及IF技术在单个实验中检测纤丝蛋白与核仁的相关性。此外,MINA技术是哺乳动物组织中染色质示踪的第一个实例,将其应用于小鼠胎肝切片不仅可以对数十个TADs结构和调节区域进行可视化,还揭示了染色质在细胞核内组织的细胞类型特异性和细胞类型非依赖性特征[74,75]。
基于最初为MERFISH设计的RNA FISH高通量探针添加条形码方案的实施[58],组合成像策略DNA MERFISH是第一个在每个细胞的数百至数千个DNA位点上实现高度多路复用的FISH技术,并首次在DNA FISH中实现了全基因组范围内的检测[60]。因此,DNA MERFISH能够以50 kb分辨率可视化约650个DNA位点,以1Mb分辨率可视化约1000个DNA位点,并与同一细胞中核斑点、核仁和细胞周期标记的1137个新生转录物和IF成像相结合[60]。其中,DNA seqFISH+是越来越多的染色质示踪方法中的一个最新成员[76]。使用DNA seqFISH+技术,人们基于连续RNA FISH对照70种RNA[77,78]和连续IF靶向不同核体或组蛋白标记的17种核蛋白[76],并行检测了大约1 Mb分辨率的2460个DNA位点和25 kb分辨率的1200个DNA位点(20条染色体上的60个位点)。在DNA MERFISH和DNA seqFISH+技术中,它们都使用了概念相似的高通量条形码组合方法,但该方法的一个重要局限是,独特的DNA位点通过非独特信号的独特组合来进行区分,这使得目标位点存在一定的空间重叠,并影响了最终检测的准确性。尽管这两种技术都使用组合条形码的方法在全基因组范围内靶向数千个DNA位点,但它们的基因组分辨率与之前提到的早期方法提升有限[69–71,74,75],并且排除了较小基因组结构单元的鉴定。因此,为了达到更精细规模的空间分辨率(分别为50kb和25 kb)和研究TAD内部结构,这两种技术都转向了常规的顺序杂交和成像方法,以避免位点重叠的问题[60,76]。
另一种对三维基因组进行高度多重绘制图谱的方法是OligoFISSEQ技术[79]。OligoFISSEQ从非荧光探针的原位杂交开始,这类似于高度多重FISH方法Hi-M [70],ORCA [71],DNA MERFISH [60],MINA [74],以及DNA seqFISH+ [76]等,但它随后利用了原位测序(ISS)方法,例如通过连接进行测序,而不是与次级荧光探针杂交来读取条形码Oligopaint探针。OligoFISSEQ中的ISS方法将单个荧光碱基或染料标记的二核苷酸与靶特异性寡核苷酸的条形码区域进行杂交和连接,从而允许一次读出一个碱基的条形码(而不是一次读出所有碱基,如前文中所述的FISH方法)。因此,它为OligoFISSEQ提供了允许以非线性方式进行多路复用的巨大优势,从而能够在更少轮次的成像过程中对更多的目标进行成像,进而提高了检测的通量。然而,目前OligoFISSEQ的多重复用性尚未超过上述的FISH方法,到目前为止,该方法仅用于对六条不同染色体上的36个基因组靶标进行成像。
为了全面概述本综述中描述的基于FISH的方法如何有助于推进三维基因组学领域的发展,我们向读者推荐了几篇优秀的近期综述[5,7,61,80–82]。值得注意的是,许多基于FISH方法的一个潜在限制是在杂交之前进行了变性解链的步骤,因为这可能干扰了细胞核的形态和染色质的结构。为了寻找能够使探针与基因组进行杂交的无热和无酸处理方法,研究人员设计了各种非变性的FISH方法,包括单链核酸外切酶切除后的分离(RASER-FISH) [83],Cas9介导的荧光原位杂交(CasFISH) [84],通过局部变性FISH得到的基因组寡肽(GOLD) [85],以及LoopTrace [86]等。然而,由于基于变性的方法得到的结果与非变性方法(如Hi-C)在精细尺度的三维基因组结构方面得到的结果高度一致,因此变性相关染色质变化对成像获得的测量结果的影响似乎很小。此外,与经典的FISH方法相比,非变性方法是否能更好地保留染色质结构,这还有待于进一步的证明。基于FISH的方法和OligoFISSEQ的另一个局限是,样本固定限制了3D基因组动力学的研究。目前,人们已经开发了许多结合活细胞成像和基因组编辑的方法,用于研究活细胞中染色质结构的动态变化特征[87–95]。由于篇幅所限,我们不在此讨论这些方法,而是请读者参阅最近发表的几篇涵盖该主题的综述[7,8,11,80,96]。
空间基因组学发展的新趋势
前文描述的基于成像的方法最初是为了绘制单细胞的三维基因组结构图谱而开发的。目前,人们已经开始使用这些方法和一些最近开发的技术解析三维基因组的单细胞图谱,并且同时保留了这些细胞在其组织环境中的空间位置信息。因此,这些方法的出现进一步激发了人们对空间基因组学领域的研究。例如,ORCA和Hi-M技术均已被应用于果蝇组织[70,71],而MINA则是第一个用于在哺乳动物组织中进行染色质示踪的方法,如前文所述[74]。在最近的一项研究中,人们使用DNA seqFISH+对小鼠大脑皮层组织切片中的3660个基因组位点(与首次描述的将该方法应用于小鼠胚胎干细胞中的情况相同[76]),76种RNA和跨越2000多个细胞的8个组蛋白标记和核体结构进行成像[97]。这种方法揭示了不同细胞的基因组中均存在与核体和染色质标记相关联的基因组区域。并且,在这些染色质相关区域中,有一些区域似乎是细胞类型特异性的,而其他区域,主要是核斑点相关区域,在不同的细胞类型中更为保守[97]。总之,这些空间基因组学的研究共同引发了以下几个悬而未决的问题:(I)细胞核中的哪些特征结构(核形态、全局染色质状态、核体支架、放射状组织)是可变的,哪些在不同细胞的天然组织环境中是共有的?(ii)不同类型的细胞中如何出现不同的核体和染色体排列?因此,要回答这些问题,我们需要综合地运用不同的分析方法,系统描绘不同物种在健康和患病组织或器官中成千上万个细胞的3D基因组动态变化图谱。
目前,一种令人兴奋的有望推动空间基因组学革命的新方法是原位基因组测序(IGS)技术[98]。IGS将ISS技术与标准的下一代测序技术相结合,可以对来自数千个随机靶向的DNA位点中的数十万个配对末端读数进行解码和空间定位(Figure 2b)。在一项研究中,人们使用IGS技术对人成纤维细胞和小鼠胚胎不同阶段(合子、二细胞和四细胞阶段)中的特定基因组区域和核体之间的重复DNA元件、染色质结构域和共定位事件进行空间定位作图[98]。此外,在小鼠早期胚胎中,IGS还可以在空间上分辨出亲本基因组的特征,揭示了基因组组织结构的亲本来源特异性的特征[98]。由于IGS并未应用于四细胞期之后的小鼠胚胎,我们预计在未来几年的发展中,人们可以将其应用于大型组织切片中,以充分释放这一技术在空间基因组学方面的潜力。此外,据报道,IGS目前在全基因组范围内的采样频率最高为~1 Mb。然而,鉴于该领域新技术发展的速度,我们预计其分辨率将在未来几年内迅速提高,有可能接近全基因组覆盖。
最近出现的另一项充满前景的技术是slide-DNA-seq [99]。在slide-DNA-seq技术中,人们可以直接从涂有聚苯乙烯磁珠的载玻片上固定的组织切片中捕获DNA序列,该聚苯乙烯磁珠中携带有Illumina测序的接头序列和独特的空间条形码,以保留每个DNA序列的空间位置信息(Figure 2c)。因为磁珠的直径为10微米,所以slide-DNA-seq目前还没有达到亚细胞结构的空间分辨率。将slide-DNA-seq应用于来自转移性小鼠模型和原发性人类癌症的组织切片中,人们可以基于DNA拷贝数变化的差异对不同肿瘤克隆进行鉴定和空间定位作图[99]。值得注意的是,同样的方法也被整合到RNA slide-seq [100] 技术中,它是一种空间转录组学的方法。该方法也是使用显微镜载玻片上的条形码磁珠来捕获从重叠组织切片中扩散的mRNA分子,并且允许同时对DNA拷贝数变异和基因表达特征进行空间定位作图[100]。总之,IGS和slide-DNA-seq都是非常有发展前景的新技术,可用于癌症诊断,以探测肿瘤的遗传和表型的异质性程度,并为正在进行的个性化癌症治疗做出贡献[101]。
结束语
在过去的十年里,随着大量研究真核生物细胞核基因组三维结构技术的开发,大大推动了三维基因组学领域的发展。目前,研究三维基因组学的分析方法,包括了数十种利用大规模并行测序或高分辨率显微成像的技术(Figure 1a)。与此同时,空间分辨率的高通量测序技术,不仅可以探测三维基因组的组织结构,还可以探测线性基因组序列,并可能在天然组织环境中同时检测数百万个细胞。总之,这些技术的推广正激发着空间基因组学领域的发展(Figure 1b)。连同空间分辨率的空间转录组技术[102],这些变革性技术的发展将有助于为几个悬而未决的问题找到答案,并通过实现对健康和患病组织或器官的分子尺度解剖来革新生物学和医学,就像De Humani Corporis Fabrica开创了宏观解剖学一样,使医学发生革命性的变化。这些技术的影响将跨越从发育生物学到癌症医学的许多领域,使人们能够真正前所未有地了解正常组织在空间上是如何组织的,以及在癌症等疾病中细胞群体是如何被破坏的。
尽管目前包括多路复用FISH、OligoFISSEQ、IGS和slide-DNA-seq等在内的检测技术仅仅只能探测整个基因组的有限部分,但我们预计随着样本制备方法、成像和测序技术,以及高性能计算方面的快速进展,人们将很快能实现空间分辨率的全外显子组或全基因组测序。此外,我们设想目前许多可用于分析DNA、RNA和组蛋白修饰,以及检测DNA-RNA-蛋白质相互作用的表观基因组学方法,将很快都能提升至空间分辨率的维度,以进一步扩展组织中可探测到的多组学分子特征谱,同时保留重要的空间位置信息。简言之,多种空间分辨率的组学技术的整合分析将标志着分子解剖学时代的开始。
Outstanding questions
细胞核组织结构的哪些方面在其天然环境的单个细胞或不同细胞类型和物种之间是可变的,还是普遍存在的?
什么决定了细胞核中核仁和核斑点结构的相对核定位?
如何将培养细胞中观察到的核拓扑结构与其在天然体内环境中检测到的核拓扑结构相匹配?
3D染色质结构在不同细胞间变化的功能基础是什么?核拓扑结构是否会根据细胞在多细胞生物中的位置进行调整?
能否在组织中识别出具有不同3D基因组结构和核拓扑结构的细胞群,它们是否具有相似或不同的基因表达特征和功能?
不同细胞之间观察到的基因表达差异有多少是由基因组结构的潜在变异驱动的?
一个细胞可以容忍多少基因组的空间重组以及(如何)影响细胞的适应性?