前言
这一部分的内容主要涉及单细胞测序,空间转录组,新生RNA测序,翻译组,RNA-RNA之间相互作用,RNA-蛋白质相互作用以及未来展望。
常规RNA-seq进阶
源于整块组织和/或大量细胞的RNA-seq数据已经彻底改变了我们对生物学的理解,但是这种常规的RNA-seq无法轻易地分辨出特定的细胞类型,也无法保存空间信息,而这两个信息都是理解生物系统复杂性的关键因素。促进研究者们从常规的RNA-seq走出去的情形与常规RNA-seq当初出现的理由类似,但这种进阶能够能够解决很多不同的问题。单细胞测序让人们发现了,即使在被认为研究透彻的疾病背后,还存在着一些未知细胞类型,例如发现了离子细胞(ionocyte cell),这类细胞可能与囊性纤维化疾病有关。空间分辨RNA-seq则提示了在实体组织中细胞与细胞之间的相互作用,例如发现了成年心脏组织中一小群胎儿标记基因表达的细胞。虽然在可预见的未来,常规RNA-seq仍然是一个占据主导地位的工具。但是,单细胞测序与分析方法正在快速地被研究者利用,并且随着空间RNA-seq方法的成熟,它们有可能成为常规RNA-seq分析中的一部分。这两种方法都将提高我们对多细胞生物体复杂性的理解,它们都有可能与常规RNA-seq方法结合使用。在这里我们简单描述一下主要的单细胞测序以及空间RNA-seq方法,以及它们与常规RNA-seq的不同之处,以及新的研究者们如何着手。
单细胞分析
scRNA-seq于2009年首次报道,当时的研究者在含有裂解缓冲液的EP管中分离了单个卵母细胞。单细胞测序对生物学新问题的解释,以及现有的实验室和计算方法以极快的速度发展,甚至最近几年综述都已经过时了。每种scRNA-seq方法都需要将实体组织进行分离,分离出单个细胞(使用不同的方法),以及标记上每个细胞的RNA,对RAN扩增后进行测序,所有的这些方法都来源于早期常规RNA-seq的方法。
机械裂解和胶原酶加DNAase的酶解会生成单细胞悬液,从而产生大量可用的细胞,但是这种产生是高度组织特异性的,比较依赖于经验,其过程也需要非常小心。一旦制备好了单细胞悬液,就可以通过各种方法分离单细胞(FIG 3a);大多数的实验都是使用流式细胞仪来进行单细胞分选,这种方法是最容易,它可以将单个细胞直接分选到含有裂解液的微孔板中。对于更高通量的实验,现存有大量分离单细胞的专门仪器,这些仪器需要自己构建或购买。单个细胞可以通过物理手段被捕获到微流控芯片中,或者是通过Poisson分布的原理被分配到加载到含有纳米孔(nanowell)的芯片中,随后这些单细胞被分离后就被液滴微流分离技术合并到含有试剂的液滴中(例如Drop-Seq与InDrop),或者是单细胞被原位标记上标签(例如单细胞混合索引RNA测序技术, single-cell combinatorial indexing RNA sequencing, sci-RNA-seq以及分离-混合-连接转录组测序技术,split- pool ligation- based transcriptome sequencing,SPLiT-seq)。单细胞分离后,它们就被裂解,将RNA释放到溶解中用于cDNA合成,并将cDNA用于RNA-seq文库制备。在文库制备过程中,来源于每个细胞的RNA会通过PCR进行扩增。这种扩增就引入了PCR偏倚,但是UMIs可以用于校正这种偏倚。由于Poisson采样,一个细胞中只有10-20%的转录本会被逆转录,这就限制了转录本检测的灵敏度,以及各种方法产生的可用数据。在湿实验之外,计算方法也在迅速发展,最近已经出现了关于scRNA-seq的实验设计指南。方法学的快速发展意味着scRNA-seq方法的技术已经快速过时了。然而Ziegenhain等人提供了scRNA-seq方法的详细概述,他着重强调了UMIs的在数据分析方面 的重要性,并报道了提到了的6种方法中哪一种最为灵敏。然而他们的研究范围并不包括现在被广泛使用的10X Geneomics方法。
Figure3-单细胞RNA-seq与空间RNA-seq的概念
Figure 3-单细胞RNA-seq与空间RNA-seq的概念。(a)单细胞RNA-seq(scRNA-seq)工作流程概述。scRNA-seq的第一步就是从样本中分离单个细胞(例如从解离的皮肤组织),分离单细胞的方式有多种,其中包括微移液管将细胞转移到单独的微管中,或者是使用流式细胞仪将单细胞分选到含有裂解液的96孔板或384孔板中,或者是将细胞捕获到微流控芯片中,或者是将细胞分布到纳米孔(nanowells)中,或者是使用含有试剂的液滴分离系统,或者是使用原位条形码技术。细胞进行逆转录以产生cDNA(通常使用UMIs来对这些cDNA进行标记),用于制备RNA-seq文库和测序。质控(QC),差异基因表达(DGE)与2D可视化(t-distributed stochastic neighbour embedding, tSNE)以及无监督聚类在和网络分析来对scRNA-seq的数据进行分析,用于区分不同的细胞种群。这些技术通常会标明细胞数据,以及与RNA-seq的策略一样,还会标明测序技术是3’末端还是5’末端还是全长cDNA。(b)空间转录组学工作流程概述。空间编码需要将冷冻组织切片加到含有寡聚核苷酸微阵列的载玻片上,或者是加载到密集包装的被寡核苷酸包被的pucks上。mRNA扩散到载玻片表面,然后与oligo-dT合成引物杂交,这些引物中含有UMIs与空间编码序列。随后mRNA逆转录成cDNA,cDNA汇集起来用于文库制备和测序。空间转录本组学的计算方法以能够将测序读长回贴到它们的空间坐标上,随后是DGE分析与差异空间表达分析的可视化。scRNA-seq与空间RNA-seq数据通常是用短读长测序仪进行测序的。上述图片(a)源于Springer Nature Limited。
当研究者们在选择scRNA-seq方法,需要考虑的主要因素包括:他们是否需要全长转录本的读长,在分析更多细胞表达谱(宽度, breadth)或每个细胞更多转录本(深度,depth)之间进行权衡,以及总体实验成本。全长scRNA-seq系统的通量比较低,因此每个细胞需要单独地处理,直到最终生成scRNA-seq文库。但是,此系统可以让研究者们研究可变剪接与等位基因特异性表达。非全长系统则会从转录本的3’或5’末端生成序列,但这就限制了异构体表达的分析,但是当细胞cDNA合成被混合后,细胞所加工的数量会比前一种高出2到3个数量级。单细胞测序宽度与细胞,组织或样本的数量有关,而深度则是与测序读长数目固定下,要分析的转录组有关。虽然实验中测序的细胞数量是由选择的方法决定的,但是这也允许一些灵活性,不过随着分析的细胞数目的增多,测序成本的增加,往往限制了转录组分析的深度。因此,可以使用宽度和深度两个维度来评估不同的scRNA-seq系统。单细胞测序典型的做法是基于孔板或微流控方法来捕获尽量少的细胞,但同时对每个细胞检测出更多的基因,而基于液滴的系统可以用于分析最大数目的细胞,它已经能从超过一百万个细胞中产生单独的数据集。
scRNA-seq的力量正在推动着大规模的细胞图谱项目,这些项目指在确定生物体或组织中完整的细胞类型。人类细胞地图集(Human Cell Atlas)与NIH大脑计划(NIH Brain Initiative)项目分别是为了对人体以及大脑中的所有细胞类型进行测序。人类细胞地图集的第1阶段目标是对3000万到1亿个细胞进行测序,并将随着技术的发展在广度和深度上进行增加。这个项目的最新成本包括发现了离子细胞,以及发现肾癌是在儿童和成年人中是由不同的细胞类型发展而来的。不过,scRNA-seq的研究者们应该意识到,这些技术可以用于几乎所有的生物。最近,对A. thaliana根细胞原生质的分析表明,即使是植物的坚韧细胞壁这种障碍也能被解决,能产生用于测序的单细胞。scRNA-seq正在迅速成为生物学家们工具包的标准配置,并有可能在10年后被广泛使用,就像今天的常规RNA-seq一样。
空间分辨RNA-seq法
当前的常规RNA-seq和scRNA-seq方法为研究者们提供了关于组织或细胞群体的高度详细的数据,但是没有捕获空间信息,就是会降低细胞环境与基因表达之间关系的分析能力。空间转录组学(spatialomics)的两种方法是空间编码(spatial encoding)与原位转录组学(in situ transcriptomics)。在RNA-seq文库制备过重中,空间编码方法能够记录其空间信息,或者是通过分离空间受限的细胞(例如,通过激光捕获显微解剖, laser-capture micro-dissection, LCM), 或者是通过分离前的位置对RNA加上条形码(通过从组织切片中直接捕获mRNA)(FIG. 3b)。原位转录组学能够在组织切片中,通过对细胞中的RNA进行测序或成像来生成数据。我们建议感兴趣的读者是阅读最近的深度评论,从而对这一领域进行更全面的理解。
LCM已经成功地用于从组织切片中的特定区域分离和分析单个细胞用于RNA-seq。虽然LCM需要专门的设备,但是许多机构已经广泛使用了这种技术。但是,虽然这种技术可能实现高度空间分辨率,但是它消耗人力,并且难以批量使用。使用空间转录学 (Spatial Transcriptomics,10X Genomics)与Slide-seq方法可以直接从冰冻组织切片中直接捕获mRNAs,然后将这些mRNAs直接加载到寡核苷酸微阵列玻片(oligo- arrayed microarray slides)或严密包装寡核苷酸的pucks上。寡核苷酸包括空间条形码、UMI和oligo-dT引物,它们能唯一地识别每个转录本及其位置。测序读长被回贴到玻片的坐标上,用于生成空间基因表达信息。空间转录学方法已经被证明能够在一系列物种的组织中能发挥作用,其中就包括小鼠大脑和人类乳腺癌组织,人类心脏组织和拟南芥(A. thaliana)花序组织。Slide- seq是最近开发的一种技术,它已经被证明能够对小鼠大脑的冰冻切片进行测序。这些直接 mRNA捕获方法并不需要特殊的设备,且有相对简单的分析方法,并有可能大规模地应用于许多组织。然而,还有两个局限需要解决。首先,该技术只能应用于新鲜的冷冻组织。其次,分辨率受到到阵列大小和捕获寡核苷酸点和珠子的间距的限制;目前的分析只能使用6.5x7 mm和3x3mm这两种规格,这就限制了组织切片的尺寸。空间转录组学斑点的直径为100µm,间距为100µm,这意味着它们不够小或不够密集,无法实现单细胞级分辨率。Slide- seq珠子则要小的多,直径只有10µm,而且非常密集,比相对前者具有十倍的空间分辨率,并且测序中的大约一半的珠子似乎是从单个细胞层面产生的数据。从分解的组织和空间编码的数据与scRNA-seq混合起来的计算方法可以改善分辨率,但是需要基础技术的进一步发展,以使其成为更常规的RNA-seq工具。
上述空间分辨RNA-seq方法的替代方案包括原位测序和使用单分子荧光原位杂交的基于成像的方法。这些方法能够产生比RNA-seq方法更窄的转录组信息,但它们能直接检测RNA,并且能够对低丰度的转录本进行分析。同时,它们还能提供组组织结构和微环境的信息,并能产生亚细胞数据。这种方法目前正取得了巨大进步,但是成像方法的一个主要局限就是需要高分辨率或超分辨率显微镜与自动流体技术结合,并且这种技术的成像时间可能要花上数小时,甚至是几天。测序成本的下降比摩尔定律预测的速度更快,与测序成本相比,高通量成规模的成像系统的机会似乎更有限。
上述提到的空间转录组学都受到无法产生深度转录组学数据的限制,以及受到细胞分辨率和/或高成本(时间和/或资金)的限制,但是这些方法正在迅速改进,并且已经应用于临床样本。空间转录组学的具体计算方法开始出现。此外,原位RNA测序和成像方法的进步已经使得10E3到10E5个细胞生成的转录组数据成为可能,这与基于液滴的单细胞方法获得的数据量相近。未来的发展有可能使得空间转录组学让更普通的研究者们使用。然而,大多数的研究们者并不太可能需要真正的单细胞或亚细胞级分辨率。因此,转录组表达谱的宽度和对广泛的组织或样本的应用性可能会推动这些技术在特定小众领域被采用。如果空间转录组学的这些技术限制能够被解决,那么它才有可能被广泛使用。
动态RNA-seq分析(Beyond steady-state RNA analysis)
DGE分析是使用RNA-seq来检测稳态下的mRNA表达水平,这一表达水平是通过mRNA的转录,加工和降解速度来决定的。但是,RNA-seq也可以用于研究涉及转录,翻译所涉及的过程与动力学特征,这些研究为基因表达提供了新的思路。
使用新生RNA(nascent RNA)方法来研究活性转录
基因表达是一个内在的动态过程,但是在检测复杂转录应答的细微以及快速变化或确定不稳定的非编码RNAs,例如增强子RNAs方面,常规的DGE分析方法就比较受限。RNA-seq可以用于绘制TSSs以及定量新合成的新生RNA,这就可以用来研究RNA动力学。但是,与DGE分析相比,nascent RNA的分析则比较难,因为它们半衰期短,丰度低。因此,为了研究这些动态的重要性,研究者们就开发了多种方法来分析nascent RNA;这些方法揭示了在启动子处的差异转录程度,表明RNA聚合酶II(Pol II)在启动子附近的暂停是基因表达的关键调节步骤,证明了nascent RNA有直接调节转录的作用,并表明其序列和结构影响转录的延伸,暂停和停顿,以及发挥染色体修饰结合和增强了子的作用。nascent RNA- seq方法旨在区分新近转录的RNA和其它RNAs,这些方法可以分为3类:run-on方法,Pol II免疫沉淀法,代谢标记法(FIG. 4)。
Figure4-nascent RNA与翻译组分析的关键概念
Figure 4- nascent RNA与翻译组分析的关键概念。nascent RNA分析方法是将那些在一个细胞中新转录的RNAs从其它的RNAs中富集出来,并将它们与未富集的RNA(成熟的RNA)进行比较,富集nascent RNAs的方法主要有三种。(a)Run-on方法是利用一个限时脉冲的方法将修饰过的核糖核酸添加到细胞培养基中,对细胞的RNA进行标记;这一过程可以用使用各种修饰的核苷酸,但是,图中的GRO-seq使用的是Bru修饰的核苷酸。当修饰过的核苷酸整合到RNA后,利用抗BrU的抗体,通过IP的手段将nascent-RNA链富集起来,并用于文库制备以及测序分析。(b)RNA聚合酶II(Pol II)的IP方法则是利用了微球菌核酸酶(micrococcal nuclease)消化了染色质后,使用相应的抗体拉下了与Pol II结合的RNA。在染色质消化过程中,nascent RNA通过其Pol II足迹保护而不受核酸酶活性的影响,并不会被降解。(c)代谢标记方法标记RNA的方法类似于Run-on方法,但前者使用的是核苷酸类似物4 sU。提取RNA后,烷基化4 sU,在逆转录过重中,就会产生G核苷酸的错配,从而通过在碱基对级分辨率的突变分析中直接确定4 sU的整合位点。制备3’末端RNA文库会通过降低未标记的RNA数量来增加测序过程中的信号强度。图片参考文献为214。
Run-on法是将核酸类似物添加到样品中,从而使nascent RNA能够从总的RNA混合物中进行富集,并能够检测瞬时RNA的转录(FIG. 4a)。全局run-on测序(Global run-on sequencing, GRO-seq)与精确核酸run-on测序(Precision nuclear run-on sequencing, PRO-seq)是分别将Bru或生物素修饰的核酸在RNA的转录期整合到nascent RNA中来实现的。其过程大致为,分离细胞核,并通过洗涤除去内源性核苷酸,再添加外源生物素标记的核苷酸,随后恢复转录。通过免疫沉淀或亲和纯化的方法,对富集的新转录RNA进行测序,从而检测参与转录的RNA聚合酶的位置和活性。由于run-on过程中标记的核苷酸的数据,GRO-seq只能测到10-50bp的长度,这就降低的TSS检测的精度。PRO-seq能够实现单个碱基级的分辨率,因为生物素标记的核苷酸掺入后转录就停止,可以识别出转录位点。Run-on方法理解起来很简单,就是RNA分子整合了修饰的核苷酸,并对其进行富集,用于测序,但是在实践中,背景中存在有non-nascent RNA,这就需要增加读长深度。利用这些方法,提示了启动子处,启动子处差异或双向转录本起始的程度,确定了增强子RNA在调节基因表达方面的作用。通过特定富集5’加帽的RNAs,GRO-cap,PRO-cap或small 5’capped RNA测序(small 5ʹ-capped RNA sequencing, START-seq)增加了检测转录起始和捕获RNAs的灵敏度和特异性,这种处理还会降低源于转录后加帽的RNAs的背景信号。
Pol II的免疫共沉淀方法包括,天然延长转录测序(native elongating transcription sequencing, NET-seq)和哺乳动物染色质天然转录测序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq),使用抗FLAG(用FLAG标记的Pol II)抗体进行沉淀的方法,或各种针对Pol II C末端结构域(CTD)的沉淀方法(FIG. 4b)。与这些染色质复合物结合的nascent RNA的RNA-seq方法用于检测TSSs,虽然non-nascent Pol II结合的RNA与背景mRNA会对读长浓度产生负面影响,影响分析。NET-seq缺乏特异性,因为任何与Pol II强烈结合的RNA都会污染nascent RNA的富集效果,例如在NET-seq数据中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多个CTD抗体提示了VTD修饰是如何影响转录的,检测到了RNA加工的中间体,并能能够将特定的Pol II nascent RNAs定位于TSSs。然而,这些检测能力是以更复杂的实验,更多的细胞数量和更高的测序成本为代价的。
使用核苷酸类似物硫代吡啶(4-thiouridine, 4 sU)进行代谢脉冲标记(Metabolic pulse- labelling)的方法可以识别nascent RNA(FIG. 4c)。但是,在那些需要长标记时间的方法中,大多数的转录本都会被标记,这就限制了这种方法的灵敏度。通过专门针对RNAs的3’末端(仅最近拉RNA聚合酶的新转录的RNA)的方法,瞬时转录组测序(transient transcriptome sequence, TT-seq)与硫醇(SH, thiol)连接的烷基化RNA代谢测序(thiol(SH)-linked alkylation for metabolic sequencing of RNA, SLAM-seq)能够降低来源于5’RNA的信号。TT-seq将标记时间限制在5分钟,因此只标记新转录本的3’末端,它在进行生物素亲和纯化前,有一个RNA片段化操作,用于富集标记的RNA。SLAM-seq整合了3’mRNA-seq文库制备方法(虽然它也用于其它的文库制备,例如miRNA), 它仅针对标记的新转录的RNA进行测序,而非整个转录本进行测序。此外,在SLAM-seq中,提取RNA后,还要加入碘乙酰胺(iodoacetamide),用于烷基化已经插入到新生成的nascent RNA链中的4 sU残基。这种修饰会诱导反转录式依赖的胞腺嘧啶到胞嘧啶的转换(T > C),这在测序分析中会被检测为“突变”,从而直接识别为4 su整合位点。然而,低掺入率意味着只有少量的4 sU位点可以被转换为胞嘧啶,这就限制了灵敏性。有两种方法,即TUC-seq与TimeLapse-seq也使用T>C这种突变分析方法,但是它们并不富集3’末端。这两种方法用于研究细胞干扰后的转录应答和RNA的半衰期。
Nascent RNA分析方法还未进行过直接比较。Nascent RNA方法都受到非特异性背景和/或降解的RNA的负面影响,这会影响读取深度。通过仅测序3’末端,那么non-nascent RNA的效应就会在PRO-seq,TT-seq和SLAM-seq中降低,但是几乎没有证据表明是否有其他方法更优。亲和纯化方法费时费力,与代谢标记法相比,前者需要更多的起始材料,但是,确定脉冲标记的时间比较复杂,并且短脉冲产生用于分析的RNA很少,这限制了灵敏度。最近开发的,组织特异性RNA标记方法以及亲折突变分析计算方法或许能够促进研究者转向使用生化(基于生物素)富集的手段来研究富含生物学意义的nascent RNA和其它RNA。Nascent RNA方法以及它们与其它方法的隧和,例如空间转录组学或RNA-RNA与RNA-蛋白质相互作用的方法,将会提高我们对转录过程的理解。
使用核糖体分析方法检测活跃的翻译
RNA-seq的主要用途在于研究样本中的mRNA的种类与数量,但是mRNAs的存在与否并不直接关系到蛋白质的合成。现在有两种方法可以研究转录以外的翻译情况,可以让研究者们更好的理解翻译组(translatome):一种是多核糖体表达谱(polysomal profiling),一个是核糖体足迹RNA-seq(Ribo-seq)。核糖体对mRNAs的翻译具有高度的调节作用,蛋白质水平主要由翻译活性决定。多核糖体表达谱与Ribo-seq可以让研究者探索一个转录本占用多少个核糖体以及核糖体在转录本上的分布(FIG. 5)。这种方法可以让研究者推断在特定时间或细胞状态下哪些转录本正在被活跃地翻译。这两种方法都假设mRNA 核糖体的密度与蛋白质合成的水平相关。在不同样本之间进行比较,就能提示治疗条件下,时间推移以及疾病发展过程中,核糖体的动力学特征,上述的这些情况都与翻译的异常调控有关,例如纤维化,朊病毒或癌症。
Figure 5-翻译组的关键概念。翻译组方法是从那些与核糖体结合的RNA中生成RNA-seq数据,这种方法假设mRNA上的核糖体的密度与蛋白质的合成水平相关。(a)多核糖体表达谱的方法是通过离心将RNA分子分成多核糖组分,然后通过RNA-seq的方法进行比较。在多核糖体组分中表达较高的RNA被认为是更活跃的转录。(b)核糖体足迹(Ribo-seq)法使用RNase来降解暴露的RNA,同时保留那些被核糖体保护的未被降解的RNA。通过对这些保护的RNA进行测序,就可以揭示出核糖体的密度与位置。通过修改变标准Ribo-seq方法,定量翻译起始测序(QTI-seq)或翻译复杂表达谱测序(TCP-seq)可以专门富集起始核糖体或其亚基,同时剔除延长的核糖体,因此可以对翻译的动态过程进行更详细的分析。对翻译组RNA-seq数据的过计算 分析可能确定每个mRAN的相对翻译程度,可以研究翻译的起始,延长与终止的动力学过程。
在多核糖体表达谱实验中,使用蔗糖梯度超离心将与多个核糖体(多核糖体组分)结合的mRNA和与单个核糖体结合的mRNA(单核糖体组分)分离开来,前者用于RNA seq文库制备(FIG. 5a)。与单核糖体组分中检测到的mRNA相比,在多核糖体组织中检测到的高丰度mRNAs可以被认为翻译得更频繁。这种方法也可以用于推测单个mRNAs的翻译状态,也可以用于生成高分辨率的核糖体占有信息与密度(尽管它无法确定核糖体的位置)。这类方法的原始方法已经进行了几项改进。例如,使用非线性蔗糖梯度改善了多核糖体收集,使多核糖体在不同浓度蔗糖溶液界面的收集过程更为简单,使用Smart-seq文库构建技术可以让研究者们分析仅10ng级的多核糖体mRNA,使用更高分辨率的蔗糖梯度和深度测序可以检测了转录本异构体的特异性翻译。然而,多核糖体表达谱实验生成的翻译组信息分辨率相对低,这一过程还比较费力,需要特殊的仪器,这就限制了其应用范围。
Ribo-seq是基于RNA足迹的方法,它最初用于酵母研究。这种方法用环己胺(cyclohexamide)来抑制翻译延伸,并诱导核糖体在mRNAs上停滞。用RNase I消化mRNA会留下20-30个核苷酸,这20-30个核苷酸就是受核糖体保护的足迹,这些足迹被处理后用于制备RNA-seq文库(FIG. 5b)。Ribo-seq能生成高分辨率的翻译谱,描绘核糖体丰度和单个转录本的位置。而多核糖体分析中无法提供核糖体的位置信息时,这说明有可能检测到了翻译的暂停,这些检查可以调节蛋白质的表达。当方法修改了缓冲液和对酶进行了优化后,就能更清楚地揭示Ribo-seq数据中3-bp的周期性,以及条形码和UMIs(检测单个分子的事件)。标准的RNA-seq工具可以用于Ribo-seq的计算分析,但最近已经出现了特定的工具用于寻找开放阅读框,用于差异或异构体水平的翻译分析,以及用于研究密码子偏倚。Ribo-seq的主要限制就是超速离心,以及由于核酸酶不同批次间的变化,以需要经验来确定RNase I的消化条件。
这些方法检测的是来自翻译起始、延伸和终止的信号的平均强度,但是对Ribo-seq的修改可使得其能够研究翻译动力学。定量翻译起始测序(Quantitative translation initiation sequencing, QTI-seq)通过化学“冷冻”和富集起始核糖体,同时从结合的mRNA中去除延长的核糖体来定位转录起始位点。翻译复杂谱测序(Translation complex profile sequencing, TCP-seq)也通过在组装成熟核糖体之前富集与40S核糖体小亚基结合的RNA来检测起始位点。然而,由于这种方法中保留了核糖体的完整性,也可以分析和比较80S核糖体组分,从而更全面检测翻译动力学(FIG. 5b)。
所有的翻译组方法在概念上都是相似的;它们假设mRNA核糖体的密度与蛋白质的合成水平相关。虽然它们的样本制备方案不同,但都需要大量的起始细胞数。最终,翻译组与RNA-seq结合起来研究基因的表达水平,并与蛋白质组学一道来研究蛋白水平,这可能就需要对mRNA的翻译进行一个广泛地理解。如果想要了解翻译组的更详细信息,可以阅读最近的综述。
RNA结构与相互作用分析(Beyond analysis of gene expression)
RNAs在调节其它生物分子和生物过程(例如剪接和翻译)中发挥着重要作用,它们涉及RNA与各种蛋白质和/或其它RNA分子的相互作用。RNA-seq可以用于研究分子内和分子间RNA-RNA的相互作用(RNA-RNA interactions, RRIs),这可能让研究者更好地理解结构组(structurome),或者是研究RNA与蛋白质之间的相互作用,这样就可以深入理解转录与翻译(FIG. 6)。针对相互作用组(interactome)分析而开发的各种方法都有一个共同的主题:在RNA中富集出那些与其它RNA有相互作用的RNA。一些方法利用的是天然生物学相互作用,而其它的方法则是在目标分子之间计算瞬时作用力或共价键;大多数方法使用的是抗体pull-dwon、亲和纯化或探针杂交的手段来富集RNA进行测序。在这里我们简要描述一下主要的基于RNA-seq的方法来研究结构组和相互作用体的内容。
Figure6—RNA结构和RNA-蛋白质相互作用分析的关键概念
Figure 6-RNA结构和RNA-蛋白质相互作用分析的关键概念。(a)结构组分析使用核酸酶或化学标记试剂在全转录组范围内来研究结构化RNA(例如双链RNA,dsRNA)或非结构化RNA(单链RNA,ssRNA)。在大多数实验中,在单独的反应中对ssRNA和dsRNA进行检测,其结果联合反应性分析法来确定其结构特征。核酸酶消化方法使用针对dsRNA和/或ssRNA的一个或多个核酸酶来研究RNA的结构。例如,在对RNA结构要的并行分析(PARS)中,在体外使用RNase V1(一种dsRNA特异性核酸酶)或S1核酸酶(一种ssRNA特异性核酸酶)来酶切并行样本。酶解后剩余的RNA被转化为cDNA,然后进行测序,测序的读长深度与比对区域的反应性成正比。RNA-seq数据的覆盖和比较结果就能推断RNA的结构。化学分析法(Chemical-mapping methods),例如使用引物延伸的选择性2ʹ-羟基酰化分析法(SHAPE-seq)或突变表达谱分析法(SHAPE-Map),这些方法通过结构依赖形式在体外或体内对双链或单链区域的核糖核苷酸进行修饰。标记物可以阻断逆转录,导致cDNAs的截短,或者是导致修饰位置错误地掺入突变。RNA被转化为cDNA后进行测序,读长深度或突变率与比对区域的反应性成正比,从而推断RNA的结构。(b)RNA-RNA的相互作用分析方法,例如SPLASH,这种方法的第一步是将有相互作用的RNA分子通过生物素化的补骨脂进行交联,然后以通过链霉亲和素对其进行富集,第二步是在邻近位置加入相互作用RNA的自由端加入邻近连接与及片段化。第三步是进行RNA接头的连接以及环化,制备RNA-seq文库用于测序,从而揭示出分子内(也就是结构)的RNA相互作用以及分子间的相互作用位点。(c)RNA-蛋白质相互作用方法,例如RNA交联免疫沉淀后测序(CLIP-seq),这种方法使用UV辐射在相互作用的RNA和蛋白质之间产生共价交联。目的蛋白被抗体富集后,与此蛋白结合的RNA也就被富集了下来,这些RNA加上3’接头后,提取出来用于cDNA的合成。从结合了接头的RNA生成的cDNA用于文库制备,测序。
通过研究RNA分子内的相互作用来研究RNA的结构
核糖体RNA和tRNA构成细胞的大部分RNA。它们与其他结构非编码RNA一起在细胞中发挥各种作用,例如从基因调节到翻译。现存主要有两种研究RNA结构的方法:基于核酸酶的方法和化学探针方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的结构。在接下来的40年中发展了化学方法,例如,通过引物延伸的选择性2ʹ-羟基酰化法(selective 2ʹ-hydroxyl acylation analysed by primer extension, SHAPE),此种方法用于在单碱基分率水平上检测tRNA(Asp)的结构。但是,只有将各种核酸酶法和化学方法与RNA-seq相结合,才能使方法从单一RNA转移到全转录分析,这正在改变我们对结构复杂性和重要性的理解。在这里,我们集中讨论核酸酶和化学分析方法之间的主要区别(图·6a),如果想对这方面有进一步的理解,可以看Strobel在这方面的综述。
核酸酶方法,例如RNA结构的平行分析法(Parallel Analysis of RNA Structure,PARS)和片段测序法(fragmentation sequencing, FRAG-seq),这两种方法使用能消化单链RNA(ssRNA)或双链RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文库构建。随后通过对产生的RNA序列数据进行计算分析来识别结构化(双链)和非结构化(单链)区域。核酸酶易于使用,可以用于研究ssRNA和dsRNA,但是由于核酸酶消化法的随机特性,它们与化学分析法相比,分辨率比较低。此外,由于核酸酶尺寸比较大,这就限制了这些核酸酶进入细胞,这就使得它们不适合体内研究。
化学分析法使用与RNA分子反应的化学探针,来标记结构化或非结构化核苷酸。这些标记要么阻断逆转录,要么导致cDNA的错配,从而可以定位并分析RNA-seq读长,用于揭示结构组。SHAPE之后进行测序,这种技术方法能够RNA骨架上的核糖2’-羟基反应来标记未配对的ssRNA,虽然发夹环中的碱基折叠会降低其效率。Structure-seq与硫酸二甲酯测序(dimethyl sulfate sequencing, DMS-seq)能使用DMS来标记腺嘌呤和胞嘧啶残基,阻断逆转录,最终从生成的截短cDNAs分析中推断出RNA结构。SHAPE和突变表达谱(SHAPE and utational profiling, SHAPE-Map)和DMS突变表达谱测序(DMS-MaPseq)都修改了实验条件,从而提高了逆转录酶的加工能力,并防止cDNA截短。相反,化学标记会导致错配事件,在RNA-seq数据的分析中,能够检测出这些“突变”,从而揭示RNA结构。化学探针是小分子化合物,尽管由于细胞内的环境处于动态变化中,数据有可能更加多变,但是化学探针还是能够用于研究活体内的有生物学意义的结构。化学探针还可以用于nascent RNAs的结构分析,并揭示共转录RAN折叠的顺序。
核酸酶和反转录阻断方法通常产生短RNA片段,并且只报告单个酶切位点或化学标记,而错误结合和突变检测方法可以报告每个读长的多个化学标记。没有方法不存在偏倚;逆转录阻断永远不会100%有效,本应诱导突变的化学标记可以阻断cDNA合成,这两个因素都可以影响数据的解读。Spike-in控制有可能改善结构组分析的质量,但尚未得到广泛使用。SHAPE方法的比较揭示了仅在体内实验中才会出现效率差异,因此这就突显出比较类似复杂方法时所需要谨慎。
这些方法正在产生关于RNA结构如何在基因和蛋白质调控中发挥作用的新理解。例如,DMS分析说明了,RNA结构有可能调控APA,或许会减慢催化活性区域的翻译,使得更多的时间用于蛋白质的折叠,从而减少错误折叠事件。结构RNA-seq方法的结合有可能产生所有的完整结构组信息。随着该领域的扩展,我们可能会发现,RNA的结构与疾病的进展和或疾病的状态有关;最近的结果表明,异常RNA结构在重复扩张性疾病方面可能发挥作用。最终,结构组分析也许会促进那些靶向作用于研究透彻的RNA结构的小分子的开发,从而开辟治疗开发的新领域。
研究分子间RNA-RNA相互作用
分子间的RRIs在转录后调控中发挥着重要作用,例如miRNA与靶基因的3’UTR结合。现在已经开发了用于研究分子间RRI的工具,它们用于靶向分析和转录组分析。这些分析方法含有一个共同的工作流程,即RNA在打断与邻位连接之前,通过交联来保护其相互作用(FIG. 6b)。大多数并非全部,由不同方法嵌合生成的嵌合cDNA来源于稳定碱基配对(即相互作用)RRNA分子的连接。靶向方法,例如交联,连接和杂交物测序(Crosslinking, ligation and sequencing of hybrids, CLASH), RNA相互作用组分析和测序(RNA interactome analysis and sequencing, RIA-seq)和RNA反义纯化方法测序(RNA antisense purification followed by RNA sequencing, RAP-RNA)能产生一个RNA或RNA家族的高深度相互作用图谱。CLASH丰富了使用IP来进行特定蛋白复合物介导的RRI分析方法,而RIA-seq使用反应寡核苷酸来回收那些与靶基因有相互作用的RNAs;这两种方法都无法区分直接和间接的RRIs,这就导致其生物学解释变得复杂。为了提高RRI分析的分辨率,RAP-RNA使用补骨脂素(psoralen)和其他交联剂,然后用反义寡核苷酸捕获RNA,以及使用高通量RNA-seq来检测直接和间接RRI。虽然该方法可以进行更具体的分析,它需要制备多个文库(每个交联剂一个文库)。
转录组方法从根本上类似于靶向方法:相互作用的RNA在体外被交联后并被富集。通过减少进入连接反应的非相互作用RNA的量来提高富集的特异性,并且可以通过2D凝胶纯化(如在RNA相互作用和结构的补骨脂素分析(psoralen analysis of RNA interactions and structures, PARIS)或交联RNA的生物素亲和纯化(如在补骨脂素交联,连接和选择的杂交测序, sequencing of psoralen crosslinked, ligated and selected hybrids,SPLASH)来实现,或者通过RNase R酶的消化来清除非交联RNA(如在相互作用的RNA连接之后的RNA-seq, ligation of interacting RNA followed by RNA- seq, LIGR-seq)。连接后,在进行RNA-seq文库制备前,去除交联,然后进行测序。PARIS能够生成所有方法中最高数目的相互作用次数,但是每个样本需要75M的读长,这些任何其他的RRI方法都多,并且所需要的DGE实验平均读长深度是其他实验的2倍。
对整理好的RNA相互作用数据的分析可以对多个相互作用进行可视化,并些这种分析方法已经提示了RNA各类的RRI分布的变化。总之,90%的RRIs涉及mRNAs。近一半涉及miRNA或长链非编码RNA,对于这些RNA,大多数相互作用都与mRNA靶基因相关。对这些整理数据的比较揭示了不同方法对特定RNA物种的偏倚,这导致这些方法之间几乎没有重叠。因此,绘制RRI的完整图谱可能需要使用不止一种方法。然而,RRI方法有几个局限性。也许最具挑战性的就是RRI是动态的,并受结构构象和其他分子间相互作用的影响,这使得在没有重复的情况下,很难对其进行解释。分子内的相互作用为分子间的RRI分析增加了干扰,这就需要过滤并除去那些高度结构化的RNAs,例如rRNAs。其它的问题还包括RNA提取过程中相互相互作用的打断,这就需要稳定的交联方法,但最常用的RRI交联剂是补骨脂素和4’-氨基-甲基三氧沙林(4ʹ-amino- methyltrioxsalen, AMT),这些交联剂只交联嘧啶,其效率比较低,会降低灵敏度。此外,邻近连接步骤低效,并且这会连接相互作用和非相互作用RNA,进一步降低灵敏度。
研究RNA-蛋白质相互作用
ChIP-seq已经成了绘制和研究DNA-蛋白质相互作用不可或缺的工具;类似的IP方法也用于研究RNA-蛋白质的相互作用。RNA-蛋白质相互作用方法依赖于IP,利用针对感兴趣的RNA结合蛋白的抗体来捕获其结合的RNA进行分析(第一次报道时是用芯片进行分析的)(FIG. 6c)。各种RNA-蛋白质相互作用方法之间最明显的区别在于相互作用的RNA和蛋白质是否交联以及如何交联:一些方法避免交联(天然IP, native IP),其他方法使用甲醛进行交联,一些方法使用紫外线(UV)光进行交联。最简单的方法就是RNA免疫沉淀测序(RNA immunoprecipitation and sequencing, RIP-seq),时常,但并非所有情况下都使用天然IP法,以及并非总进行RNA打断。这种简便性使用该方法易于被采用。这种方法能产生有用的生物学信息,但是它有两个重要的缺陷。第一,用于保存RNA-蛋白质相互作用的前提是需要进行温和地洗涤,这就意味着富集的片段中有相对高的非特异性结合片段。第二,没有进行RNA打断就降低了结合位点的分析。因此,RIP-seq具有高度灵活性,并依赖于RNA-蛋白质结合的自然稳定性。使用甲醛交联在RNA与其相互作用的蛋白质之间产生可逆的共价键提高了稳定性,并减少了非特异性RNA的回收,但甲醛也会导致蛋白质-蛋白质的交联。这种影响可以通过使用0.1%的甲醛(比ChIP-seq研究使用的甲醛低10倍)进行温和的交联来降低,这能在多个蛋白质靶点上产生高质量的结果。
在CLIP中使用254nm的UV来进行联系是一项关键的技术,它提高了RNA-蛋白质相互作用分析方法的特异性和位置分辨率。UV交联在蛋白质和RNA的相互作用位点产生共价键,但最重要的是,它不对蛋白质-蛋白质相互交联。这就稳定了RNA-蛋白质的结合,允许严格的富集,破坏了天然RNA-蛋白质的相互作用,减少了背景信号。CLIP的实验方法随后就构成了许多方法发展的基础。单个核苷酸分辨率的CLIP(iCLIP)将UMIs整合到文库中,用于移除PCR复制。它还利用了cDNA合成在交联核苷酸处常见的过早截短,通过对截短的cDNA进行扩增来获得交联位点的定量,核苷酸级分辨率图谱。光激活核糖核苷增强片段(Photoactivatable- ribonucleotide-enhanced CLIP,PAR-CLIP)通过使用4 sU和356nM的UV来进行交联。在细胞培养过程中,4 sU被整合到内源RNAs中,356nm的UV辐射会在4 sU整合位点处产生交联(产生高度的特异性)。在产生的测序数据中检测反转录诱导的T>C替换就会能够实现碱基对级的分辨率,并且能够区分交联片段和非交联片段,进一步降低背景信号。最近对CLIP的改进提高了它的效应和灵敏度。红外CLIP(infrared CLIP, irCLIP)用红外凝胶成像技术来代替放射性同位素检验,它是基于珠子的纯化技术。与常规的iCLIP使用的1百万到2百万细胞相比,这些技术的改进可分析只有2万个细胞的RNA-蛋白质相互作用。增强型CLIP(enhanced CLIP, eCLIP)抛弃了RNA-蛋白质复合物的质控和可视化操作,而是在RNA接头中添加了条形码,这种改进可能让所有的样本混合到一起,并用珠子来代替了凝胶。这些改进旨在简化实验操作,eCLIP实验已经研究了近200个蛋白,它已经成了ENCODE项目的一部分。但是,irCLIP与eCLIP目前都没有被广泛采用,部分原因是eCLIP和irCLIP的灵敏性增加的原因是由于其特异性降低导致的,比如利用两个方法所鉴定的PTBP1结合位点上结合或有序和调节外显子的富集减少。随着公共数据库中可用的大量数据为计算分析提供了新的机会,因此谨慎考虑CLIP数据的质控,过滤,以及峰值调用(peak calling)和归一化方法就变得非常重要,这些会影响数据的生物学解释。为了更全面地讨论 RNA-蛋白质的相互作用的CLIP实验方法,我们建议读者可以阅读最近关于这个主题的综述。
一些RRI以及所有的RNA-蛋白质结合方法对IP的依赖限制了其对有良好特征抗体蛋白质的研究,而非特异抗体的结合仍然是一个问题(虽然这一问题并非局限于这个领域)。RNA结构也会影响RNA-蛋白质之间的相互作用;一些蛋白质能识别特异的RNA二级结构或与这些结构竞争结合RNA,这使得体外的发现转向体内就变得复杂了。此外,结构和RNA-蛋白质相互作用方法通常报告一个特定转录本或位置的平均值。在实验室方法中,在计算方法和单分子测序方面的未来发展或许有助于破译一些这些生物变异。
结论
Wang,Gerstein和Snyder关于RNA-seq将“革命性地[如何]分析真核转录体”的预测肯定是正确的。但是,即使是他们,也有可能对这种转型的规模感到惊讶。现在我们可以分析RNA生物学的许多方面,这对于基因组功能、研究开发和确定导致癌症和其他疾病的分子调控异常方面来说是必不可少的。虽然生物学发现阶段还远未结束,但是已经在临床中使用了RNA-seq方法。单细胞测序正在成为许多实验的标准配置,空间转录组学的分析可能会遵循类似的路径,使其能够在与开发当前方法的实验室范围之外使用。长读长测序方法也有可能取代当前相当大比例的研究者们默认选择的Illumina的短读长RNA-seq。对于这种情况的出现,长读长测序技术还需要在增加通量和降低错误率方面做出极大的改进。然而,长读长mRNA异构体测序的优点是,如果它变得像现在短读长测序一样便宜和可靠,那么对于那些除了易降解材料外,长读长测序就可能是首选。考虑到这些因素,那么任何关于RNA-seq在未来十年可能如何发展的预测都有可能过于保守。