PRO-seq文献阅读

Base-pair-resolution genome-wide mapping of active RNA polymerases using precision nuclear run-on (PRO-seq)

发表时间:online 21 July 2016
杂志:nature protocols

这篇笔记我翻译了一部分,并没有全文翻译,因为文献里有一部分是非常详细的实验步骤。有需要的同学可以自行下载参考实验步骤,本篇笔记旨在了解Pro-seq的一些背景知识。

摘要

作者提供了一个Pro-seq的protocol,和pro-cap的实验方法,这个方法可以绘制处于激活状态下的RNA聚合酶的位置(pro-seq),并且可以高分辨率的鉴定基因组范围内的转录起始位点(pro-cap)。RNA聚合酶在基因组某一个特定位点的密度,直接影响了该区域新生转录的水平。把细胞核从细胞中分离出来,在核run-on条件下,处于转录活化状态的RNA聚合酶将1个或者几个标记有生物素的核苷酸三磷酸(biotin-ntps) 加入到新生的RNA的3'端。这些标记的新生RNA被用来制备测序文库。从3’端测序,提供高分辨率的RNA聚合酶的位置信息。Pro-seq的灵敏度远远高于Chip-seq,相比于Chip-seq,它可以产生更大的可测序的reads片段。与net-seq类似,pro-seq对RNA聚合酶进行map可达到碱基对分辨率,并具有链特异性;但与net-seq不同的是,Pro-seq不需要免疫沉淀。根据这篇文献的protocol,可以在4-5天内生成用于高通量测序的pro-seq(或pro-cap)文库。该方法已应用于人、小鼠、黑腹果蝇和秀丽隐杆线虫细胞,以及酵母。

Introduction

在基因组范围内测定RNA聚合酶密度为研究转录提供了全面的、瞬时定量。收集这些调控过程中的瞬时的信息,可以鉴定哪些基因对特殊信号首先做出回应,哪些基因是其次回应。这就可以提示一些重要的调控机制。沿基因对RNA聚合酶密度的定量,对于破译相关的调控步骤也是至关重要的。

除了编码蛋白质的基因,基因组上许多其他区域(如上游分化区、下游polyA区、增强子)也有不同程度的转录。增强子产生短的、不稳定的RNAs (eRNAs),它们不编码蛋白质,但描绘了主要的转录调节中心。增强子介导的转录调节差异涉及到各种疾病,了解这种调节对于破译发育、营养及环境因素应答的转录是很重要。而对总RNA的测序没办法检测这些不稳定的RNA。目前有好几种方法已被记录可以富集并测序这些RNA聚合酶相关的新生RNA序列。这些方法都是基于RNA聚合酶的免疫沉淀,或依赖于不溶性染色质的纯化。因此,这些方法是高度依赖的抗体特异性染色质纯度。作者已经开发了基于核run-on的方法在全基因组范围内绘制活性RNA聚合酶及其起始位点,分辨率可达到1bp。

在这些方法中,利用RNA聚合酶的内源活性进行选择性标记新生的RNA。在文库准备过程中,亲和纯化多次核run-on RNA为新生RNA提供了大约数百万倍的富集(相比其他形式的RNA),从而有效地消除背景。此外,由于RNA是被测序的,转录的方向也可以明确地鉴定。

PRO-seq的发展

PRO-seq是基于global run-on测序(GRO-seq)的、一种全基因组的核run-on试验,它被用于测量靶基因的转录。在GEO-seq中,溴吡啶(BrU)标记的新生RNA被亲和纯化,并通过高通量测序分析来绘制RNA聚合酶位置。通过多重亲和纯化步骤得到极高的灵敏度和特异性。GEO-seq使用BrU作为核run-on反应的底物,使RNA聚合酶能够向新生RNA里添加多个核苷酸。因此,GRO-seq的分辨率是几十个碱基。

但是,要了解转录延长和启动子近端暂停的分子机制,RNA聚合酶的定位在碱基对数量级的分辨率是必需的。这样的分辨率能够建立一个机制模型,比如DNA如何测序、核小体或其他DNA结合因子影响RNA聚合酶的延伸与基因表达。为了实现碱基对级的分辨率,作者使用了一个修饰过的核run-on分析,这个分析限制添加到新生RNA中的标记核苷酸的数量。在PRO-seq中,生物素标记的NTPs为核run-on反应的底物。通过RNA聚合酶,被标记的NTP抑制更多的生物素-NTP进一步加入到新生RNA里。测序从3’端进行,因此,可以识别最后一个加入进去的NTP,准确的揭示了活性RNA聚合酶与其新生RNA的结合位点。

鉴定TSSs的准确位置对理解DNA元件、通用转录因子和转录激活因子如何将RNA聚合酶招募到基因和增强子上也很重要。RNA聚合酶在一个TSS处启动转录,并在启动子近端位点暂停前快速转录一个短区域。然而,在PRO-seq中由于新生转录本是从3 '端开始测序的,RNA聚合酶开始转录的位置信息大部分都丢失了。因此,作者通过修改PRO-seq的测序策略,从5 '端开始对加了cap的新生RNA进行测序(PRO-cap),使TSSs能够在RNA合成水平上被识别。

过程概述

示意图

PRO-seq和PRO-cap实验过程如上图所示。将细胞核迅速从细胞中分离出来,天然核苷酸被冲走,以停止转录。然而,RNA聚合酶仍然在DNA上,并保持其酶活性。把分离出来的细胞核与生物素标记的NTPs孵育,使RNA聚合酶延长并标记新生RNA。对PRO-seq而言,将标记的新生RNA用NaOH水解,生成适合测序的RNA片段(约100 bp长)。然后利用链霉亲和素包覆的磁珠通过亲和纯化富集含有生物素的RNA。生物素-链霉亲和素之间的相互作用非常稳定(Kd ~ 10−14 mol/l),允许比较彻底的清洗磁珠,以最大限度地减少未标记RNA的污染。

然后将一个3 '测序接头连接到新生RNA 3 '端羟基(OH)上,再进行一次亲和纯化,进一步富集新生RNA,去除没连上接头的序列。PRO-seq中5 '测序接头连接与PRO-cap不同。对于PRO-seq,使用烟草酸焦磷酸酶(TAP)或RNA 5 '焦磷酸水解酶(RppH)从没有水解的短的新生RNA中去除5 'cap。通过碱水解生成的5 ' OH在PNK作用下转化为5 '磷酸。而对于PRO-cap来说,带5 ' -单磷酸的无帽RNA,被5′-磷酸依赖的核酸外切酶降解。5′三磷酸和单磷酸用碱性磷酸酶从残留的无帽RNA中去除。只有这样,新生RNA的5 '帽才能通过TAP或RppH处理去除。经过这些化学修饰,一个5 '测序接头连接到新生RNA,进行第三轮亲和纯化,通过两端的测序接头对新生RNA进行富集。然后对新生RNA进行逆转录和PCR扩增,以确定适当的PCR循环数。这一步是至关重要的,避免过度扩增。在最后的扩增过程中,可以添加barcode,这样可以进行多个库的测序。最后,PCR扩增的文库大小选择为140-350 bp,进行高通量测序。哺乳动物细胞的测序深度为2500 - 5000万,基因组较小的生物,比如果蝇的测序深度为1000 - 2000万,酵母细胞的测序深度为500 - 1000万。相对较短的reads长度(比如40-50 bp)就足够了。测序生成基于文本的短核苷酸序列的列表,用fastq检测测序质量。序列可能还包含不同长度的adapter序列,需要进行trimming,再进行基因组比对。最后,比对的序列用于生成coverage文件,可以用于可视化和分析。

PRO-seq的优点和局限性

优点:
(1)提供了RNA聚合酶站位,并且是碱基对级的分辨率,以及链特异性信息。
(2)因为是利用生物亲和纯化的新生RNA,所以背景RNA污染被大大的降低。
(3)高灵敏性
(4)可以从增强子区域鉴定短的、不稳定的新生RNA转录本。

局限性:
(1)原则上,PRO-seq的测序结果是潜在的异质性细胞群的集合,这通常对所有多细胞、高通量测序分析都是正确的。与成熟的RNA分子有多个拷贝不同的是,RNA聚合酶在特定的基因组位置最多只能产生两个新生RNA拷贝。因此,虽然可以采用PRO-seq来测量单细胞中高表达基因的新生转录水平,但在单细胞中绘制RNA聚合酶的图谱仍是一个挑战。
(2)PRO-seq只检测活性的RNA聚合酶,因此无法检测起始前复合物中的RNA聚合酶。还有一种可能,其他形式的停滞RNA聚合酶,如反向跟踪聚合酶,可能也不能被检测到。虽然核run-on条件允许这些聚合酶重新调整活性位点。一般来说,RNA聚合酶II (Pol II)的ChIP-seq所看到的信号和我们的全基因组run-on方法在数量上一致,所以大部分Pol II可以通过GRO-seq或者PRO-seq方法检测出来。
(3)与GRO-seq(新生RNA的3 '端长度更长)相比,PRO-seq只添加一个或几个核苷酸,以提供更高的分辨率。然而,有一种可能性是,RNA聚合酶的位置非常接近TSS,以至于无法被检测到。因为新生的RNA可能不够长,不能被唯一地比对到基因组上。在这种情况下,GRO-seq可以提供更准确的定量在启动子近端的RNA聚合酶。同样,RNA聚合酶定位在基因组的重复序列区域也很难准确地映射到一个特定的repeat上。
(4)PRO-seq不能区分初生转录来源,即不同区分不同的RNA聚合酶(Pol I、Pol II、Pol III)除非在特殊RNA聚合酶抑制剂存在的情况下进行。此外,与NET-seq不同的是,与特定RNA聚合酶修饰(如c末端区域的磷酸化)相关的新生RNA不能被选择性的检测到。

PRO-seq和PRO-cap的应用

PRO-seq最常见的应用是分析全基因组转录水平,它具有定向信息,比RNA聚合酶ChIP-seq分析具有更高的分辨率和灵敏性。PRO-seq提供了一个独立的基因表达分析层次(不同于mRNA-seq),揭示了调控转录的不同阶段,比如mRNA加工或稳定。增加的分辨率和方向性信息在区分上游发散性转录很有用。

PRO-cap可以在RNA合成初期捕获TSSs,相反,其他TSS分析使用的都是成熟的RNA。这为检测增强子转录子、上游反义转录本、或其他类型的不稳定转录本提供了优势,避免转录后修饰事件。

替代PRO-seq的方法

RNA聚合酶可以有不同的方法定位到基因组上:

(1)ChIP-seq

在这种方法中,RNA聚合酶蛋白与DNA交联,然后通过免疫沉淀纯化Pol II。通过高通量测序鉴定和定量Pol-II相关的DNA,从而估算基因组不同位点的Pol-II含量。ChIP的分辨率通常受到染色质DNA片段大小的限制。这种方法有一种类似的实验,叫做CHIP-exo,通过处理Pol II CHIP的DNA片段(使用DNA外切酶)。核酸外切酶消化DNA两条链的3 '端,停在交联聚合酶复合体附近。ChIPseq的另一个限制是,由于使用了交联,所以,Pol-II结合区域与Pol-II非结合基因组区域通过三维loop相互作用,从而出现假阳性。最后,ChIP-seq将绘制所有形式的Pol II,包括反义方向上Pol IIs,以及转录不活跃的Pol IIs。因此,转录的方向并没有直接揭示。

(2)高锰酸盐footprinting

该方法可用于鉴定单链DNA上由RNA聚合酶产生的转录“bubble”。通过一系列化学处理,DNA非模板链暴露T残基。一种称为高锰酸盐-CHIP-seq的方法将高锰酸盐足迹与Pol II CHIP结合,从而从单链转录bubble区域绘制出DNA裂解末端。这直接以高分辨率映射了转录活性位点。高锰酸盐mapping依赖于非模板链DNA中bubble里T碱基的存在,这些残基没有被蛋白质结合。虽然这个方法在一条富集了Pol II,但其他区域暴露单链胸腺嘧啶,比如其他DNA-RNA杂交体或链内DNA hairpin——有可能增加背景噪音。

(3)NET-seq

许多基于染色质结合新生RNA的方法,包括NET-seq和它的类似方法,已经被用于RNA聚合的定位。在最初的NET-seq方法中,RNA聚合酶复合物被免疫沉淀,与天然RNA共同纯化进行测序。新生RNA的3 '端提供了高分辨率的RNA聚合酶图谱。这种方法非常适合于检查不同修饰的RNA聚合酶的占位情况。在实践中,NET-seq的效率依赖于单一免疫沉淀步骤所提供的富集程度。由于该方法检测所有与Pol II相关的RNA的3 '端,所以它也同时捕获了共转录剪接的中间产物的3 '端和micro-RNA,使得绘制Pol II图谱更加困难。

文献中间很长篇幅介绍了实验的具体操作,这里就不赘述了。

分析数据

最后来看一下数据分析的大致流程:

在PRO-seq里,新生RNA的3’端对应基因组上RNA聚合酶活性位点。修饰的RNA接头为了新生RNA的反向互补测序而设计的。因此,测序得到的reads的3'端的反向互补反映了RNA聚合酶的活性位点。

在PRO-cap里,使用的是传统的RNA接头,测序得到的reads的5'端反映了相同方向的TSSs。下面,作者只列出了3个需要注意的步骤:

原始数据的预处理:

把低质量的reads过滤掉,trimming去掉接头序列(TGGAATTCTCGGGTGCCAAGG)。你可以使用cutadapt软件来进行操作。根据文库的质量,测序只包含最多5%的接头序列。

比对:

绝大多数的新生RNA的reads是在RNA编辑和剪切前捕捉的,它们在比对中不包含大的gaps。因此,许多比对程序(基于bwa和bowtie)可以使用。对于multiple比对通常需要舍弃掉。有时,比对到核糖体基因组上的reads可以去除掉,它们大概占所有转录活性的30-40%。一般,原始reads有55-70%是唯一比对到基因组上的。

Generate the coverage of the aligned sequence reads

用samtools把bam文件进行sort;然后使用bedtools进行处理。对于PRO-seq数据,交换正链和负链数据使之处于正确方向。这些数据可以在IGV中可视化,用于进一步的下游分析。

这是UCSC数据库里的PRO-seq和PRO-cap数据。这段区域显示的是第11号染色体包含MED17的区域,上面是PRO-seq数据,中间是PRO-cap数据,下面则是Pol II的CHIP-seq的reads,最下面一行是磷酸化的Pol II的CHIP-seq数据。参考基因组是hg19。红色显示的是正链,浅蓝色显示的是负链。
这是5号染色体上NPM1基因附近的数据结果。
把上面的图中方框区放大,就是C图
把C图中TSS区放大,可以看到在NPM1基因TSS区的PRO-seq和PRO-cap,以及Pol II的CHIP-seq结果

你可能感兴趣的:(PRO-seq文献阅读)